apache-airflow-providers-apache-spark

更新日志

5.2.1

杂项

  • 移除 多余的 else (#49199)

5.2.0

新特性

  • Spark 提供者 添加 openlineage 作为 额外依赖 (#48972)

杂项

  • 使 '@task' airflow.sdk 导入 (#48896)

5.1.1

新特性

  • OpenLineage 配置注入 添加到 SparkSubmitOperator (#47508)

5.0.1

Bug 修复

  • spark on kubernetes 移除对 Spark 退出码的依赖 (#46817)

杂项

  • flit 升级到 3.11.0 (#46938)

仅文档

  • spark-submit hook operator docstring 中包含驱动类路径到 --jars 命令 (#45210)

5.0.0

注意

此提供者版本仅适用于 Airflow 2.9+,具体说明请参阅 Apache Airflow 提供者支持策略

重大变更

警告

所有已弃用的类、参数和特性已从 Apache Spark 提供者包中移除。引入了以下重大变更

  • 操作器

    • 移除 SparkSqlOperator 的 _sql() 支持。请改用 sql 属性。_sql 于 2016 年引入,由于它曾被列为模板化字段(现在不再是),尽管带有表示私有的 _ 前缀,我们仍将其视为公共 API 进行处理。

  • apache spark provider 中移除已弃用代码 (#44567)

杂项

  • 将提供者的最低 Airflow 版本提升到 Airflow 2.9.0 (#44956)

  • 修复 'main' 分支上 mypy 检查失败的问题 (#44191)

  • spark-submit: 'principle' 替换为 'principal' (#44150)

  • 更新多个提供者文档中的 DAG 示例链接 (#44034)

4.11.3

杂项

  • python operator 移至 Standard 提供者 (#42081)

4.11.2

Bug 修复

  • SparkSqlOperator 中将 conf 属性从 str 类型更改为 dict 类型 (#42835)

4.11.1

杂项

  • 重构函数 resolve_kerberos_principal (#42777)

4.11.0

新特性

  • SparkSubmitHook 上添加 kerberos 相关连接字段(principal, keytab) (#40757)

4.10.0

注意

此提供者版本仅适用于 Airflow 2.8+,具体说明请参阅 Apache Airflow 提供者支持策略

杂项

  • 将提供者的最低 Airflow 版本提升到 Airflow 2.8.0 (#41396)

  • 解决 'SparkSqlOperator' 中的 'AirflowProviderDeprecationWarning' (#41358)

4.9.0

新特性

  • 'SparkSubmitHook' 添加 'kubernetes_application_id' (#40753)

Bug 修复

  • (修复): spark submit pod 名称包含 driver 作为其名称的一部分 (#40732)

4.8.2

杂项

  • 使用最低直接依赖解析实现每个提供者的测试 (#39946)

4.8.1

杂项

  • 更快的 'airflow_version' 导入 (#39552)

  • 简化 'airflow_version' 导入 (#39497)

4.8.0

注意

此提供者版本仅适用于 Airflow 2.7+,具体说明请参阅 Apache Airflow 提供者支持策略

Bug 修复

  • SparkSubmitOperator 参数 queue 重命名为 yarn_queue (#38852)

杂项

  • 将提供者的最低 Airflow 版本提升到 Airflow 2.7.0 (#39240)

4.7.2

杂项

  • 重命名 'SparkSubmitOperator' 字段名称以符合模板化字段验证 (#38051)

  • 重命名 'SparkSqlOperator' 字段名称以符合模板化字段验证 (#38045)

4.7.1

杂项

  • 提升 spark provider grpcio-status 的最低版本 (#36662)

4.7.0

  • 更改 spark 连接表单并添加 spark 连接文档 (#36419)

4.6.0

新特性

  • SparkSubmit: 添加 propertyfiles 选项 (#36164)

  • SparkSubmit 连接的 Extras 可以被覆盖 (#36151)

Bug 修复

  • 子类遵循 BaseHook 连接字段方法的签名 (#36086)

4.5.0

注意

此提供者版本仅适用于 Airflow 2.6+,具体说明请参阅 Apache Airflow 提供者支持策略

杂项

  • 将提供者的最低 Airflow 版本提升到 Airflow 2.6.0 (#36017)

4.4.0

新特性

  • 添加 pyspark 装饰器 (#35247)

  • SparkSubmitOperator 添加 use_krb5ccache 选项 (#35331)

4.3.0

新特性

  • 'SparkSubmitHook' 添加 'use_krb5ccache' 选项 (#34386)

4.2.0

注意

此提供者版本仅适用于 Airflow 2.5+,具体说明请参阅 Apache Airflow 提供者支持策略

杂项

  • 提升提供者的最低 Airflow 版本 (#34728)

4.1.5

杂项

  • 重构提供者中的正则表达式 (#33898)

4.1.4

杂项

  • 重构: 简化 Apache/Alibaba 提供者中的代码 (#33227)

4.1.3

Bug 修复

  • 验证 Spark JDBC hook extra 字段中的 conn_prefix (#32946)

4.1.2

注意

该提供者现在要求安装 7.4.0+ 版本的 apache-airflow-providers-cncf-kubernetes,以便运行 Spark on Kubernetes 作业。您可以通过 pip install apache-airflow-providers-spark[cncf.kubernetes] 命令安装带有 cncf.kubernetes extra 的提供者,以获取正确版本的 cncf.kubernetes 提供者。

杂项

  • 将所有 k8S 类移至 cncf.kubernetes 提供者 (#32767)

4.1.1

注意

此版本放弃了对 Python 3.7 的支持

杂项

  • SparkSubmitOperator: spark_conn_id 重命名为 conn_id (#31952)

4.1.0

注意

此提供者版本仅适用于 Airflow 2.4+,具体说明请参阅 Apache Airflow 提供者支持策略

杂项

  • 提升提供者的最低 Airflow 版本 (#30917)

4.0.1

Bug 修复

  • 仅限制通过 extra 传递的 spark binary (#30213)

  • 验证 Spark JDBC Hook 的主机和 schema (#30223)

  • spark3-submit 添加到允许的 spark-binary 值列表 (#30068)

4.0.0

注意

此提供者版本仅适用于 Airflow 2.3+,具体说明请参阅 Apache Airflow 提供者支持策略

重大变更

spark-binary 连接 extra 可以设置为任何 binary,但 4.0.0 版本只允许两个值: spark-submitspark2-submit

不再允许使用 spark-home 连接 extra - binary 必须在 PATH 中可用才能使用 SparkSubmitHook 和 SparkSubmitOperator。

  • 移除自定义 spark home spark 的自定义 binaries (#27646)

杂项

  • 将所有提供者的最低 Airflow 版本移至 2.3.0 (#27196)

3.0.0

重大变更

注意

此提供者版本仅适用于 Airflow 2.2+,具体说明请参阅 Apache Airflow 提供者支持策略

Bug 修复

  • airflow/configuration.py 添加类型提示 (#23716)

  • 修复通过解决 mypy 问题引入的向后兼容性问题 (#24230)

杂项

  • AIP-47 - spark DAGs 迁移到新设计 #22439 (#24210)

  • chore: 重构和清理 Apache 提供者 (#24219)

2.1.3

Bug 修复

  • 修复为所有提供者错误添加 install_requires 的问题 (#22382)

2.1.2

杂项

  • PyPI 中添加 Trove 分类器 (Framework :: Apache Airflow :: Provider)

2.1.1

Bug 修复

  • 修复 SparkSubmitHook 文档中的参数渲染问题 (#21788)

杂项

  • 支持 Python 3.10

2.1.0

新特性

  • 添加更多 SQL 模板字段渲染器 (#21237)

  • 在提供者中添加可选特性。 (#21074)

2.0.3

Bug 修复

  • 确保 Spark driver 响应有效后再设置 UNKNOWN 状态 (#19978)

2.0.2

Bug 修复

  • 修复 SparkSql Operator 日志陷入无限循环的 bug。 (#19449)

2.0.1

杂项

  • 优化 Airflow 2.2.0 的连接导入

2.0.0

重大变更

  • 自动应用 apply_default 装饰器 (#15667)

警告

由于移除了 apply_default 装饰器,此提供者版本要求 Airflow 2.1.0+。如果您的 Airflow 版本低于 2.1.0,并且您想安装此提供者版本,请先将 Airflow 升级到至少 2.1.0。否则,您的 Airflow 包版本将自动升级,并且您必须手动运行 airflow upgrade db 来完成迁移。

Bug 修复

  • 使 SparkSqlHook 使用 Connection (#15794)

1.0.3

Bug 修复

  • 修复 'logging.exception' 的冗余问题 (#14823)

1.0.2

Bug 修复

  • 使用不带 kubernetes apache.spark 提供者 (#14187)

1.0.1

更新了文档和 readme 文件。

1.0.0

提供者的初始版本。

此条目有帮助吗?