apache-airflow-providers-openlineage

更新日志

2.0.0

注意

Apache Airflow providers 支持策略 中所述,此提供程序版本仅适用于 Airflow 2.9+。

重大更改

警告

所有已弃用的类、参数和功能已从 OpenLineage 提供程序包中删除。引入了以下重大更改

  • 实用程序

    • openlineage.utils 模块中删除 normalize_sql 函数。

  • 移除 OpenLineage 中的 提供程序 弃用 (#44636)

功能

  • 添加 clear_number OpenLineage dagrun 级别 事件 运行 ID 生成 (#44617)

  • 利用 更多 信息 确定性地 生成 OpenLineage run_id (#43936)

  • 特性: DataprocSubmitJobOperator 自动将 OL 信息 注入 spark 作业 (#44477)

其他

  • 删除 AIRFLOW_V_2_9_PLUS 引用 (#44987)

  • 提供程序 中的 最低 Airflow 版本 提升 Airflow 2.9.0 (#44956)

  • 提供程序 检查 Airflow 版本的 一致 方式 (#44686)

  • OpenLineage 添加 基本 系统 测试 (#43643)

  • Asset 面向 用户的 组件 移动到 task_sdk (#43773)

  • 整个 代码库中的 execution_date 重命名为 logical_date (#43902)

1.14.0

功能

  • DbApiHook, PrestoHook TrinoHook 添加 分号剥离的 支持 (#41916)

  • ProcessingEngineRunFacet 添加到 OL DAG 启动 事件 (#43213)

Bug 修复

  • OpenLineage 信息中 序列化 asset/dataset 时间表 条件, 适用于 Airflow 2 (#43434)

  • OpenLineage: 在实例化 OpenLineageClient 时接受整个配置。 (#43740)

其他

  • 暂时 openlineage 限制为 <1.24.0 (#43732)

  • python 操作符 移动到 标准 提供程序 (#42081)

1.13.0

功能

  • feat(providers/openlineage): 在公共 提供程序中 使用 asset (#43111)

其他

  • 忽略 兼容导入的 attr-defined (#43301)

  • nit: OL AirflowJobFacet 中删除 任务组的 工具提示 (#43152)

  • openlineage 提供程序需要 1.2.1 common.compat (#43039)

1.12.2

其他

  • 更改 导入以 使用 BashOperator 的标准 提供程序 (#42252)

  • 删除 核心和提供程序对 python3.8 的支持 (#42766)

  • 将与 dataset 相关的 python 变量名称 重命名为 asset (#41348)

1.12.1

Bug 修复

  • 修复: 未发出 OpenLineage dag 启动 事件 (#42448)

  • 修复: 错误堆栈 跟踪格式中的 错别字, 以便更清晰地输出 (#42017)

1.12.0

功能

  • 特性: 在发送 DagRun 时通知潜在的序列化失败, 不要序列化不必要的参数, 为异常保护监听器 (#41690)

Bug 修复

  • 修复: openlineage InfoJsonEncodable 中将列表转换为扁平化字符串 (#41786)

其他

  • chore: 提升 OL 提供程序 依赖项 版本 (#42059)

  • OpenLineage 提供程序中从 执行日期 移动到 dag_run.logical_date (#41889)

  • 统一 DAG 计划参数并 将默认值更改为 None (#41453)

1.11.0

注意

Apache Airflow providers 支持策略 中所述,此提供程序版本仅适用于 Airflow 2.8+。

功能

  • 特性: debug facet 添加到所有 OpenLineage 事件 (#41217)

  • 特性: fileloc 添加到 AirflowRunFacet 中的 DAG 信息 (#41311)

  • 特性: 删除 openlineage 客户端已弃用的 from_environment() 方法 (#41310)

  • 特性: openlineage 侦听器捕获 hook 级别的血缘 (#41482)

Bug 修复

  • 修复: 获取 任务依赖项, 而无需将任务树序列化为字符串 (#41494)

  • 修复: 缺少 OpenLineage on_start 方法时, 返回空数据而不是 None (#41268)

  • 修复: downstream_task_ids 替换 dagTree (#41587)

其他

  • 提供程序 中的 最低 Airflow 版本 提升 Airflow 2.8.0 (#41396)

  • chore: 删除 openlineage 弃用警告 (#41284)

1.10.0

功能特性

  • COMPLETE/FAIL 事件中添加 AirflowRun (#40996)

  • openlineage: 扩展 custom_run_facets 以便也在 complete fail 上执行 (#40953)

  • openlineage: OpenLineage 提供程序迁移到 V2 facet。 (#39530)

  • openlineage: dag runEvents 添加 AirflowRunFacet (#40854)

  • [AIP-62] AIP-60 URI 转换为 OpenLineage (#40173)

  • 能够在 OpenLineage 事件中添加 自定义 facet (#38982)

  • openlineage: common.compat 中添加方法,以便不强制 hook 对每个 2.10 hook lineage 调用都进行 try/except (#40812)

  • openlineage: 使用 airflow 提供的 conf 中的 getter (#40790)

  • openlineage: 添加配置以根据 conf 设置包含 'full' 任务信息 (#40589)

  • TaskInstance log_url 添加到 OpenLineage facet (#40797)

  • openlineage: 将可延迟信息添加到 airflow 运行 facet 中的任务信息 (#40682)

缺陷修复

  • 调整默认提取器的 on_failure 检测,以修复 airflow 2.10 的问题 (#41094)

  • openlineage: 使 attrs.define slots 的值在所有 OL 用法中保持一致 (#40992)

  • DagRun 中使用的 facet 'slots' 设置为 True (#40972)

  • openlineage: 修复 / AirflowRunFacet 中添加一些任务属性 (#40725)

其他

  • openlineage: dt.now 替换为 airflow.utils.timezone.utcnow (#40887)

  • openlineage: 移除已弃用的 parentRun facet (#40681)

1.9.1

缺陷修复

  • 修复使用 MappedOperator 解析 dag 树的 openlineage 问题 (#40621)

1.9.0

功能特性

  • 本地任务作业:添加超时,以便不在 on_task_instance_success 侦听器过早终止时停止 (#39890)

  • openlineage: sql 解析器调用站点周围添加一些调试日志 (#40200)

  • 将任务 SLA 和已排队日期时间信息添加到 AirflowRunFacet (#40091)

  • 将错误堆栈跟踪添加到 OpenLineage 任务事件 (#39813)

  • 引入 AirflowJobFacet AirflowStateRunFacet (#39520)

  • UUIDv7 用于 OpenLineage runIds (#39889)

  • openlineage: 在单独的进程中执行提取和消息发送 (#40078)

  • AirflowRunFacet 中添加一些已删除的 Task 属性 (#40371)

缺陷修复

  • openlineage, redshift: 不要为低于 Airflow 2.10 的版本调用 DB 获取模式 (#40197)

  • 修复: airflow 独立模式下,当使用 OL 提供程序时,调度程序崩溃 (#40459)

  • nit: 修复日志记录级别 (#40461)

  • 修复: OL facet 中,在正确的键下提供堆栈跟踪 (#40372)

其他

  • 修复: 针对 airflow 提供程序修复 sqa 弃用问题 (#39293)

  • ruff 中启用强制执行 pydocstyle 规则 D213。 (#40448)

1.8.0

警告

在 Airflow 2.10.0 中,我们修复了 try_number 的工作方式。对于 Airflow >= 2.10.0,请使用 apache-airflow-providers-openlineage >= 1.8.0。旧版本的 Airflow 不受影响。如果您运行不兼容的版本,将会引发异常,要求您升级提供程序版本。

功能特性

  • 调度程序处理 try_number 的递增 (#39336)

缺陷修复

  • 修复:防止在无法导入提取器时发生错误 (#39736)

  • 在调度程序中的派生 OpenLineage 进程中重新配置 ORM。 (#39735)

其他

  • chore: 更新 conf 检索文档字符串并调整 pool_size (#39721)

  • 移除 Google Snowflake 提供程序中的 'openlineage.common' 依赖项。 (#39614)

  • 使用 'ProcessPoolExecutor' 而不是 'ThreadPoolExecutor'。 (#39235)

  • misc: 添加自定义提供程序运行时检查 (#39609)

  • 更快地导入 'airflow_version' (#39552)

  • 简化 'airflow_version' 导入 (#39497)

  • openlineage: 通知已捕获已记录的异常 (#39493)

  • chore: 添加更多 OpenLineage 日志以方便调试 (#39136)

1.7.1

其他

  • openlineage, snowflake: 不要对 Snowflake 运行外部查询 (#39113)

1.7.0

功能特性

  • 添加 lineage_job_namespace lineage_job_name OpenLineage (#38829)

  • openlineage: 添加 '选择加入' 选项 (#37725)

缺陷修复

  • 修复:从 facet 中删除冗余的运算符信息 (#38264)

  • 修复: disabled_for_operators 现在会阻止整个事件的发送 (#38033)

  • 修复: 添加 在检索 Airflow 配置时 的回退机制 ,以避免 引发 错误 (#37994)

  • 修复: 修复 ID 删除 未使用的 实用程序 (#37877)

其他

  • 避免 在测试之外 使用 'assert' (#37718)

  • TaskInstance 上的 'task' 添加 默认值 / 修复 TaskInstancePydantic 上的 属性 (#37854)

1.6.0

功能

  • 功能: event_size 提取时间 添加 OpenLineage 指标 (#37797)

  • 功能: 文件 用户 Airflow 血缘实体 添加 OpenLineage 支持 (#37744)

  • [OpenLineage] 添加 JobTypeJobFacet 属性的支持。 (#37255)

  • 杂务: 更新 OpenLineage ExtractorManager 中的 注释 日志记录 (#37622)

错误修复

  • 修复: 检查 运算符是否 DefaultExtractor.extract_on_complete 中被禁用 (#37392)

其他

  • 文档: 更新 整个 OpenLineage 提供程序 文档。 (#37620)

1.5.0

功能

  • 功能: 在为 任务实例生成 OpenLineage run_id 时添加 dag_id。 (#36659)

1.4.0

功能

  • 添加 Redshift SQL OpenLineage 支持。 (#35794)

1.3.1

错误修复

  • 修复 拼写错误。 (#36362)

1.3.0

功能

  • 功能: COMPLETE FAIL 事件添加 parent_run_id (#36067)

  • 基本 指标 添加到 统计信息收集器。 (#35368)

错误修复

  • 修复: 修复 OpenLineage FAIL 事件的 run_id (#36051)

  • 修复 重新应用 提供程序 文档的 模板 (#35686)

其他

  • 删除 ClassVar 注释。 (#36084)

1.2.1

其他

  • 'create_filter_clauses' 中使 模式 过滤器 大写 (#35428)

1.2.0

功能

  • SQL 运算符发送 血缘关系。 (#34843)

1.1.1

其他

  • 调整 OpenLineage 提供程序中的 日志级别 (#34801)

1.1.0

功能

  • 允许 运算符级别禁用 openlineage (#33685)

错误修复

  • 修复 'get_custom_facets' 中的 导入。 (#34122)

其他

  • 通过将 某些 模块导入类型检查块,来改进 Airflow 提供程序中的模块导入 (#33754)

  • DBT Cloud 添加 OpenLineage 支持。 (#33959)

  • 重构 提供程序中 不必要的跳转 (#33833)

  • 重构: 在提供程序中 用推导式替换 lambda 表达式 (#33771)

1.0.2

错误修复

  • openlineage: 不要在执行器中运行 任务实例侦听器 (#33366)

  • openlineage: 不要尝试 从已弃用的配置中 编辑 Proxy 对象 (#33393)

  • openlineage: 在侦听器中,防御性地检查提供的日期时间 (#33343)

其他

  • Trino 添加 OpenLineage 支持。 (#32910)

  • 简化 其他提供程序中 len() 的条件 (#33569)

  • 用正确的格式替换 repr() (#33520)

1.0.1

错误修复

  • openlineage: 如果未配置,则禁用运行侦听器 (#33120)

  • 当没有解析模式时,不要使用数据库作为回退。 (#32959)

其他

  • openlineage, bigquery: BigQueryExecuteQueryOperator 添加 openlineage 方法支持 (#31293)

  • openlineage 配置 移动到 提供程序 (#33124)

1.0.0

提供程序的初始版本。

此条目是否有帮助?