apache-airflow-providers-apache-spark

更新日志

5.0.0

注意

此提供程序的版本仅适用于 Airflow 2.9+,如 Apache Airflow 提供程序支持策略中所述。

重大更改

警告

所有已弃用的类、参数和功能已从 Apache Spark 提供程序包中删除。引入了以下重大更改

  • 操作符

    • 删除了 SparkSqlOperator 的 _sql() 支持。请改用 sql 属性。 _sql 在 2016 年引入,并且由于它被列为模板化字段,现在已不再是这种情况,因此尽管有 _ 前缀将其标记为私有,我们仍将其作为公共 API 处理。

  • apache spark 提供程序 删除 已弃用的 代码 (#44567)

其他

  • 提供程序中的 最低 Airflow 版本 提升到 Airflow 2.9.0 (#44956)

  • 修复 'main' 上的 mypy 检查 失败 (#44191)

  • spark-submit: 'principle' 替换为 'principal' (#44150)

  • 更新 多个 提供程序 文档中的 DAG 示例 链接 (#44034)

4.11.3

其他

  • python 操作符 移动到 标准 提供程序 (#42081)

4.11.2

Bug 修复

  • SparkSqlOperator conf 属性 str 更改为 dict (#42835)

4.11.1

其他

  • 重构 函数 resolve_kerberos_principal (#42777)

4.11.0

特性

  • SparkSubmitHook 添加 kerberos 相关的 连接 字段(principal, keytab) (#40757)

4.10.0

注意

此提供程序的版本仅适用于 Airflow 2.8+,如 Apache Airflow 提供程序支持策略中所述。

其他

  • 提供程序中的 最低 Airflow 版本 提升到 Airflow 2.8.0 (#41396)

  • 解决 'SparkSqlOperator' 中的 'AirflowProviderDeprecationWarning' (#41358)

4.9.0

特性

  • 'kubernetes_application_id' 添加到 'SparkSubmitHook' (#40753)

Bug 修复

  • (修复): spark 提交 pod 名称 包含 driver 作为其 名称的一部分 (#40732)

4.8.2

其他

  • 使用最低直接依赖关系解析 实现 每个提供程序的 测试 (#39946)

4.8.1

其他

  • 更快地 导入 'airflow_version' (#39552)

  • 简化 'airflow_version' 导入 (#39497)

4.8.0

注意

此提供程序的版本仅适用于 Airflow 2.7+,如 Apache Airflow 提供程序支持策略中所述。

Bug 修复

  • SparkSubmitOperator 参数 queue 重命名为 yarn_queue (#38852)

其他

  • 提供程序中的 最低 Airflow 版本 提升到 Airflow 2.7.0 (#39240)

4.7.2

其他

  • 重命名 'SparkSubmitOperator' 字段名 符合 模板化字段 验证 (#38051)

  • 重命名 'SparkSqlOperator' 字段名 符合 模板化字段 验证 (#38045)

4.7.1

其他

  • spark 提供程序中 提升 grpcio-status 最低 版本 (#36662)

4.7.0

  • 更改 spark 连接 表单 添加 spark 连接 文档 (#36419)

4.6.0

特性

  • SparkSubmit: 添加 propertyfiles 选项 (#36164)

  • 可以 覆盖 SparkSubmit 连接 额外 信息 (#36151)

Bug 修复

  • 子类中 遵循 BaseHook 连接 字段 方法 签名 (#36086)

4.5.0

注意

此提供程序的版本仅适用于 Airflow 2.6+,如 Apache Airflow 提供程序支持策略中所述。

其他

  • 提供程序中的 最低 Airflow 版本 提升到 Airflow 2.6.0 (#36017)

4.4.0

特性

  • 添加 pyspark 装饰器 (#35247)

  • SparkSubmitOperator 添加 use_krb5ccache 选项 (#35331)

4.3.0

特性

  • 'SparkSubmitHook' 添加 'use_krb5ccache' 选项 (#34386)

4.2.0

注意

此提供程序的版本仅适用于 Airflow 2.5+,如 Apache Airflow 提供程序支持策略中所述。

其他

  • 提升 提供程序的 最低 airflow 版本 (#34728)

4.1.5

其他

  • 重构 提供程序中的 正则表达式 (#33898)

4.1.4

其他

  • 重构: 简化 Apache/Alibaba 提供程序中的 代码 (#33227)

4.1.3

Bug 修复

  • 验证 Spark JDBC hook extra 字段中的 conn_prefix (#32946)

4.1.2

注意

提供程序现在需要安装 7.4.0+ 版本的 apache-airflow-providers-cncf-kubernetes 才能在 Kubernetes 上运行 Spark 作业。您可以使用 cncf.kubernetes 额外组件通过 pip install apache-airflow-providers-spark[cncf.kubernetes] 安装提供程序,以获得正确版本的 cncf.kubernetes 提供程序。

杂项

  • 所有 k8S 移动到 cncf.kubernetes 提供程序 (#32767)

4.1.1

注意

此版本已停止支持 Python 3.7

杂项

  • SparkSubmitOperator: spark_conn_id 重命名为 conn_id (#31952)

4.1.0

注意

Apache Airflow 提供程序支持策略 中所述,此提供程序版本仅适用于 Airflow 2.4+。

杂项

  • 提高 提供程序中 Airflow 的最低 版本 (#30917)

4.0.1

Bug 修复

  • 仅限 通过 extra 传递的 spark 二进制文件 (#30213)

  • 验证 Spark JDBC Hook 的主机 架构 (#30223)

  • spark3-submit 添加到 允许的 spark-binary 列表 (#30068)

4.0.0

注意

Apache Airflow 提供程序支持策略 中所述,此提供程序版本仅适用于 Airflow 2.3+。

重大变更

spark-binary 连接额外项可以设置为任何二进制文件,但从 4.0.0 版本开始,只允许使用两个值 spark-submitspark2-submit

不再允许使用 spark-home 连接额外项 - 该二进制文件应在 PATH 上可用,以便使用 SparkSubmitHook 和 SparkSubmitOperator。

  • 删除 spark 自定义 spark home 自定义 二进制文件 (#27646)

杂项

  • 所有 提供程序 最低 airflow 版本 移动到 2.3.0 (#27196)

3.0.0

重大变更

注意

Apache Airflow 提供程序支持策略 中所述,此提供程序版本仅适用于 Airflow 2.2+。

Bug 修复

  • airflow/configuration.py 添加 类型提示 (#23716)

  • 修复 修复 mypy 问题 引入的 向后兼容性 (#24230)

杂项

  • AIP-47 - spark DAG 迁移到 设计 #22439 (#24210)

  • chore: 重构和清理 Apache 提供程序 (#24219)

2.1.3

Bug 修复

  • 修复 为所有 提供程序 错误添加的 install_requires (#22382)

2.1.2

杂项

  • PyPI 中添加 Trove 分类器 (Framework :: Apache Airflow :: Provider)

2.1.1

Bug 修复

  • 修复 SparkSubmitHook 文档中 的参数 渲染 (#21788)

杂项

  • 支持 Python 3.10

2.1.0

功能

  • 添加 更多 SQL 模板字段 渲染器 (#21237)

  • 提供程序中 添加 可选功能。 (#21074)

2.0.3

Bug 修复

  • 确保 Spark 驱动程序 响应在设置 UNKNOWN 状态之前 有效 (#19978)

2.0.2

Bug 修复

  • 修复 SparkSql Operator 日志进入 无限循环 bug。 (#19449)

2.0.1

杂项

  • 优化 Airflow 2.2.0 连接导入

2.0.0

重大变更

  • 自动应用 apply_default 装饰器 (#15667)

警告

由于删除了 apply_default 装饰器,此版本的提供程序需要 Airflow 2.1.0+。如果您的 Airflow 版本低于 2.1.0,并且您想安装此提供程序版本,请先将 Airflow 升级到至少 2.1.0 版本。否则,您的 Airflow 包版本将自动升级,您必须手动运行 airflow upgrade db 才能完成迁移。

Bug 修复

  • 使 SparkSqlHook 使用 Connection (#15794)

1.0.3

Bug 修复

  • 修复 'logging.exception' 冗余 (#14823)

1.0.2

Bug 修复

  • 在没有 kubernetes 的情况下使用 apache.spark 提供程序 (#14187)

1.0.1

更新了文档和自述文件。

1.0.0

提供程序的初始版本。

此条目是否有帮助?