apache-airflow-providers-apache-spark
更新日志¶
5.2.1¶
杂项¶
移除 多余的 else 块 (#49199)
5.2.0¶
新特性¶
为 Spark 提供者 添加 openlineage 作为 额外依赖 (#48972)
杂项¶
使 '@task' 从 airflow.sdk 导入 (#48896)
5.1.1¶
新特性¶
将 OpenLineage 配置注入 添加到 SparkSubmitOperator (#47508)
5.0.1¶
Bug 修复¶
spark on kubernetes 移除对 Spark 退出码的依赖 (#46817)
杂项¶
将 flit 升级到 3.11.0 (#46938)
仅文档¶
在 spark-submit hook 和 operator 的 docstring 中包含驱动类路径到 --jars 命令 (#45210)
5.0.0¶
注意
此提供者版本仅适用于 Airflow 2.9+,具体说明请参阅 Apache Airflow 提供者支持策略。
重大变更¶
警告
所有已弃用的类、参数和特性已从 Apache Spark 提供者包中移除。引入了以下重大变更
操作器
移除 SparkSqlOperator 的
_sql()
支持。请改用sql
属性。_sql
于 2016 年引入,由于它曾被列为模板化字段(现在不再是),尽管带有表示私有的_
前缀,我们仍将其视为公共 API 进行处理。
从 apache spark provider 中移除已弃用代码 (#44567)
杂项¶
将提供者的最低 Airflow 版本提升到 Airflow 2.9.0 (#44956)
修复 'main' 分支上 mypy 检查失败的问题 (#44191)
spark-submit: 将 'principle' 替换为 'principal' (#44150)
更新多个提供者文档中的 DAG 示例链接 (#44034)
4.11.3¶
杂项¶
将 python operator 移至 Standard 提供者 (#42081)
4.11.2¶
Bug 修复¶
在 SparkSqlOperator 中将 conf 属性从 str 类型更改为 dict 类型 (#42835)
4.11.1¶
杂项¶
重构函数 resolve_kerberos_principal (#42777)
4.11.0¶
新特性¶
在 SparkSubmitHook 上添加 kerberos 相关连接字段(principal, keytab) (#40757)
4.10.0¶
注意
此提供者版本仅适用于 Airflow 2.8+,具体说明请参阅 Apache Airflow 提供者支持策略。
杂项¶
将提供者的最低 Airflow 版本提升到 Airflow 2.8.0 (#41396)
解决 'SparkSqlOperator' 中的 'AirflowProviderDeprecationWarning' (#41358)
4.9.0¶
新特性¶
向 'SparkSubmitHook' 添加 'kubernetes_application_id' (#40753)
Bug 修复¶
(修复): spark submit pod 名称包含 driver 作为其名称的一部分 (#40732)
4.8.2¶
杂项¶
使用最低直接依赖解析实现每个提供者的测试 (#39946)
4.8.1¶
杂项¶
更快的 'airflow_version' 导入 (#39552)
简化 'airflow_version' 导入 (#39497)
4.8.0¶
注意
此提供者版本仅适用于 Airflow 2.7+,具体说明请参阅 Apache Airflow 提供者支持策略。
Bug 修复¶
将 SparkSubmitOperator 参数 queue 重命名为 yarn_queue (#38852)
杂项¶
将提供者的最低 Airflow 版本提升到 Airflow 2.7.0 (#39240)
4.7.2¶
杂项¶
重命名 'SparkSubmitOperator' 字段名称以符合模板化字段验证 (#38051)
重命名 'SparkSqlOperator' 字段名称以符合模板化字段验证 (#38045)
4.7.1¶
杂项¶
提升 spark provider 中 grpcio-status 的最低版本 (#36662)
4.7.0¶
更改 spark 连接表单并添加 spark 连接文档 (#36419)
4.6.0¶
新特性¶
SparkSubmit: 添加 propertyfiles 选项 (#36164)
SparkSubmit 连接的 Extras 可以被覆盖 (#36151)
Bug 修复¶
子类遵循 BaseHook 连接字段方法的签名 (#36086)
4.5.0¶
注意
此提供者版本仅适用于 Airflow 2.6+,具体说明请参阅 Apache Airflow 提供者支持策略。
杂项¶
将提供者的最低 Airflow 版本提升到 Airflow 2.6.0 (#36017)
4.4.0¶
新特性¶
添加 pyspark 装饰器 (#35247)
向 SparkSubmitOperator 添加 use_krb5ccache 选项 (#35331)
4.3.0¶
新特性¶
向 'SparkSubmitHook' 添加 'use_krb5ccache' 选项 (#34386)
4.2.0¶
注意
此提供者版本仅适用于 Airflow 2.5+,具体说明请参阅 Apache Airflow 提供者支持策略。
杂项¶
提升提供者的最低 Airflow 版本 (#34728)
4.1.5¶
杂项¶
重构提供者中的正则表达式 (#33898)
4.1.4¶
杂项¶
重构: 简化 Apache/Alibaba 提供者中的代码 (#33227)
4.1.3¶
Bug 修复¶
验证 Spark JDBC hook 的 extra 字段中的 conn_prefix (#32946)
4.1.2¶
注意
该提供者现在要求安装 7.4.0+ 版本的 apache-airflow-providers-cncf-kubernetes
,以便运行 Spark on Kubernetes 作业。您可以通过 pip install apache-airflow-providers-spark[cncf.kubernetes]
命令安装带有 cncf.kubernetes
extra 的提供者,以获取正确版本的 cncf.kubernetes
提供者。
杂项¶
将所有 k8S 类移至 cncf.kubernetes 提供者 (#32767)
4.1.1¶
注意
此版本放弃了对 Python 3.7 的支持
杂项¶
SparkSubmitOperator: 将 spark_conn_id 重命名为 conn_id (#31952)
4.1.0¶
注意
此提供者版本仅适用于 Airflow 2.4+,具体说明请参阅 Apache Airflow 提供者支持策略。
杂项¶
提升提供者的最低 Airflow 版本 (#30917)
4.0.1¶
Bug 修复¶
仅限制通过 extra 传递的 spark binary (#30213)
验证 Spark JDBC Hook 的主机和 schema (#30223)
将 spark3-submit 添加到允许的 spark-binary 值列表 (#30068)
4.0.0¶
注意
此提供者版本仅适用于 Airflow 2.3+,具体说明请参阅 Apache Airflow 提供者支持策略。
重大变更¶
spark-binary 连接 extra 可以设置为任何 binary,但 4.0.0 版本只允许两个值: spark-submit
和 spark2-submit
。
不再允许使用 spark-home
连接 extra - binary 必须在 PATH 中可用才能使用 SparkSubmitHook 和 SparkSubmitOperator。
移除自定义 spark home 和 spark 的自定义 binaries (#27646)
杂项¶
将所有提供者的最低 Airflow 版本移至 2.3.0 (#27196)
3.0.0¶
重大变更¶
注意
此提供者版本仅适用于 Airflow 2.2+,具体说明请参阅 Apache Airflow 提供者支持策略。
Bug 修复¶
为 airflow/configuration.py 添加类型提示 (#23716)
修复通过解决 mypy 问题引入的向后兼容性问题 (#24230)
杂项¶
AIP-47 - 将 spark DAGs 迁移到新设计 #22439 (#24210)
chore: 重构和清理 Apache 提供者 (#24219)
2.1.3¶
Bug 修复¶
修复为所有提供者错误添加 install_requires 的问题 (#22382)
2.1.2¶
杂项¶
在 PyPI 中添加 Trove 分类器 (Framework :: Apache Airflow :: Provider)
2.1.1¶
Bug 修复¶
修复 SparkSubmitHook 文档中的参数渲染问题 (#21788)
杂项¶
支持 Python 3.10
2.1.0¶
新特性¶
添加更多 SQL 模板字段渲染器 (#21237)
在提供者中添加可选特性。 (#21074)
2.0.3¶
Bug 修复¶
确保 Spark driver 响应有效后再设置 UNKNOWN 状态 (#19978)
2.0.2¶
Bug 修复¶
修复 SparkSql Operator 日志陷入无限循环的 bug。 (#19449)
2.0.1¶
杂项¶
优化 Airflow 2.2.0 的连接导入
2.0.0¶
重大变更¶
自动应用 apply_default 装饰器 (#15667)
警告
由于移除了 apply_default 装饰器,此提供者版本要求 Airflow 2.1.0+。如果您的 Airflow 版本低于 2.1.0,并且您想安装此提供者版本,请先将 Airflow 升级到至少 2.1.0。否则,您的 Airflow 包版本将自动升级,并且您必须手动运行 airflow upgrade db
来完成迁移。
Bug 修复¶
使 SparkSqlHook 使用 Connection (#15794)
1.0.3¶
Bug 修复¶
修复 'logging.exception' 的冗余问题 (#14823)
1.0.2¶
Bug 修复¶
使用不带 kubernetes 的 apache.spark 提供者 (#14187)
1.0.1¶
更新了文档和 readme 文件。
1.0.0¶
提供者的初始版本。