apache-airflow-providers-google
Changelog¶
15.1.0¶
新特性¶
添加 ORC 支持 到 GCSToBigQueryOperator 并且 测试 外部 表 (#49188)
Bug 修复¶
修复 OperationHelper 中 wait_for_operation_result 的 默认值 (#49121)
修复 Managed Kafka 服务的 get_confluent_token 回调 (#48926)
修复: BigQuery 连接 UI 在 编辑时 将 '使用 Legacy SQL' 默认设置为 true (#49038)
其他¶
移除 多余的 else 代码块 (#49199)
弃用 DataflowHook 中的 start_sql_job (#48663)
type: 注释 在 'provider' 中缺少 type (#49130)
15.0.1¶
其他¶
弃用 Life Scrience 服务 (#48862)
仅文档¶
在 google 文档中添加 缺失的 license 注释 (#48985)
15.0.0¶
重大变更¶
警告
已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:
操作符
移除
MLEngineStartBatchPredictionJobOperator
, 使用CreateBatchPredictionJobOperator
代替移除
MLEngineManageModelOperator
, 使用 Vertex AI 的MLEngineCreateModelOperator
或者GetModelOperator
代替移除
MLEngineDeleteModelOperator
, 使用 Vertex AI 的DeleteModelOperator
代替移除
MLEngineManageVersionOperator
, 使用 Vertex AI 的适当的操作符代替, 例如AddVersionAliasesOnModelOperator
移除
MLEngineCreateVersionOperator
, VertexAI 操作符使用parent_model
参数移除
MLEngineSetDefaultVersionOperator
, 使用 Vertex AI 的SetDefaultVersionOnModelOperator
代替移除
MLEngineListVersionsOperator
, 使用 Vertex AI 的ListModelVersionsOperator
代替移除
MLEngineDeleteVersionOperator
, 使用 Vertex AI 的DeleteModelVersionOperator
代替移除
MLEngineStartTrainingJobOperator
, 使用 Vertex AI 的CreateCustomPythonPackageTrainingJobOperator
代替移除
MLEngineTrainingCancelJobOperator
, 使用 Vertex AI 的CancelCustomTrainingJobOperator
代替移除
DataProcScaleClusterOperator
, 使用DataprocUpdateClusterOperator
代替移除
GoogleAdsToGcsOperator
的page_size
参数移除
DeleteAutoMLTrainingJobOperator.training_pipeline
方法, 使用training_pipeline_id
参数代替移除
DeleteCustomTrainingJobOperator.training_pipeline
方法, 使用training_pipeline_id
参数代替移除
DeleteCustomTrainingJobOperator.custom_job
方法, 使用custom_job_id
参数代替
链接
移除
DataFusionPipelineLinkHelper
, 使用airflow.providers.google.cloud.utils.helpers.resource_path_to_dict
代替
Hooks
移除
GoogleAdsHook.search
,GoogleAdsHook.search_proto_plus
,GoogleAdsHook._search
方法的page_size
参数移除
CloudBuildHook.create_build
方法, 使用CloudBuildHook.create_build_without_waiting_for_result
方法移除
DataflowHook.start_java_dataflow
方法, 请使用airflow.providers.apache.beam.hooks.beam.start.start_java_pipeline
方法启动管道, 并使用providers.google.cloud.hooks.dataflow.DataflowHook.wait_for_done
方法等待所需的管道状态移除
DataflowHook.start_python_dataflow
方法, 请使用airflow.providers.apache.beam.hooks.beam.start.start_python_pipeline
方法启动管道, 并使用providers.google.cloud.hooks.dataflow.DataflowHook.wait_for_done
方法等待所需的管道状态移除
CustomJobHook.cancel_pipeline_job
方法, 使用PipelineJobHook.cancel_pipeline_job
方法代替移除
CustomJobHook.create_pipeline_job
方法, 使用PipelineJobHook.create_pipeline_job
方法代替移除
CustomJobHook.get_pipeline_job
方法, 使用PipelineJobHook.get_pipeline_job
方法代替移除
CustomJobHook.list_pipeline_jobs
方法, 使用PipelineJobHook.list_pipeline_jobs
方法代替移除
CustomJobHook.delete_pipeline_job
方法, 使用PipelineJobHook.delete_pipeline_job
方法代替移除
GoogleBaseHook.get_client_info
方法, 使用airflow.providers.google.common.consts.CLIENT_INFO
代替LifeSciencesHook
生命周期延长至 2025 年 7 月 8 日
Utils
移除
create_evaluate_ops
方法
移除 provider/google 中 2025 年 2 月和 3 月 的 已弃用项。 #48018
新特性¶
SFTPToGCSOperator: 添加了 选项 来直接将数据流式传输到 GCS 而无需保存到磁盘 (#48107)
Bug 修复¶
修复: 移除 'MetastoreHivePartitionSensor.poke' 方法中 文件 URI 形成中 多余的 斜杠字符。 (#48731)
不允许 types-protobuf 5.29.1.20250402 用于 google 来修复 mypy (#48666)
其他¶
添加 'ti' 到 RemoteLogIO 的 读取和上传 方法 (#48804)
重构 structlog 时代的远程任务日志处理。 (#48491)
将 基类 移动到 'airflow.sdk.bases' (#48487)
将 'BaseSensorOperator' 移动到 TaskSDK 定义 (#48244)
14.1.0¶
功能特性¶
为 GKE Hooks 和 Operators 添加 DNS 终端节点支持 (#48075)
特性:允许为 'DataprocCreateBatchOperator' 设置任务/DAG 标签 (#46781)
创建用于处理 GCP Apache Kafka 的 Consumer Groups 的 operators (#47056)
Bug 修复¶
修复:BigQuery 可追溯性标签在 TaskGroup 中缺失 (#47583)
其他¶
Vendor-in json-merge-patch 并为直接 uv 工具安装添加 '--no-dev' (#48210)
序列化复合传输中包含的 http 传输 (#47444)
AIP-72:处理 Task SDK 上的自定义 XCom 后端 (#47339)
其他:更新 Google ADS 的 API 版本 (#47772)
引入操作辅助类并重构 (#45354)
从核心 Airflow 中删除身份验证后端 (#47399)
将 Google Oauth2 后端标记为仅 Airflow 2 (#47622)
添加 Dataflow Apache Beam Java 流系统测试 (#47209)
将旧版命名空间包添加到 airflow.providers (#47064)
14.0.0¶
注意
此版本没有代码更改。 由于之前版本因打包问题而被撤回而发布。
13.0.0¶
重大变更¶
警告
已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:
操作符
删除
AutoMLBatchPredictOperator
。 请改用来自airflow.providers.google.cloud.operators.vertex_ai.batch_prediction_job
的 operators删除
DataflowStartSqlJobOperator
。 请使用DataflowStartYamlJobOperator
代替删除
PromptLanguageModelOperator
。 请使用TextGenerationModelPredictOperator
代替删除
GenerateTextEmbeddingsOperator
。 请使用TextEmbeddingModelGetEmbeddingsOperator
代替删除
PromptMultimodalModelOperator
。 请使用GenerativeModelGenerateContentOperator
代替删除
PromptMultimodalModelWithMediaOperator
。 请使用GenerativeModelGenerateContentOperator
代替
Hooks
删除
GenerativeModelHook.prompt_multimodal_model_with_media()
。 请使用GenerativeModelHook.generative_model_generate_content()
代替删除
GenerativeModelHook.prompt_multimodal_model()
。 请使用GenerativeModelHook.generative_model_generate_content()
代替删除
GenerativeModelHook.get_generative_model_part()
。 请使用GenerativeModelHook.generative_model_generate_content()
代替删除
GenerativeModelHook.prompt_language_model()
。 请使用GenerativeModelHook.text_generation_model_predict()
代替删除
GenerativeModelHook.generate_text_embeddings()
。 请使用GenerativeModelHook.text_generation_model_predict()
代替
从 Google provider 中删除已弃用的功能 (#46235)
功能特性¶
创建用于处理 GCP Apache Kafka 的 Clusters 的 operators (#45795)
弃用旧的 bigquery operators 并引入 CreateTableOperator (#46673)
为 Entry 资源添加 operators (#46647)
将可延迟模式添加到 PubSubPullOperator (#45835)
将可延迟模式添加到 google cloud storage 传输传感器和 operators (#45754)
为 AspectType 资源添加 operators (#46240)
特性:为 BigQueryDataTransferServiceStartTransferRunsOperator 添加 OpenLineage 支持 (#45801)
特性:为 CloudSQLExecuteQueryOperator 添加 OpenLineage 支持 (#45182)
为 Entry Type 添加新 operators (#45799)
添加 Dataplex Catalog Entry Group operators (#45751)
特性:为 BigQueryHook 添加 Hook Level Lineage 支持 (#45706)
特性:为 MsSqlHook 和 MSSQLToGCSOperator 添加 OpenLineage 支持 (#45637)
将 holiday_region 参数添加到 AutoMl hook 中的 create_auto_ml_forecasting_training_job 中 (#45465)
特性:自动将 OL 传输信息注入到 spark 作业中 (#45326)
特性:为 GCS 和 SFTP 之间的传输 operators 添加 OpenLineage 支持 (#45485)
实现 AlloyDB 创建/更新/删除用户和备份 operators (#45378)
特性:为一些 SQL 到 GCS operators 添加 OpenLineage 支持 (#45242)
特性:为一些 BQ operators 添加 OpenLineage 支持 (#45422)
特性:为 BigQueryInsertJobOperator 中的非查询作业添加 OpenLineage 支持 (#44996)
特性:自动将 OL 信息注入到 DataprocInstantiateInlineWorkflowTemplateOperator 中的 spark 作业中 (#44697)
特性:在 BigQueryInsertJobOperator 中将 CLL 添加到 OpenLineage (#44872)
特性:自动将 OL 信息注入到 DataprocCreateBatchOperator 中的 spark 作业中 (#44612)
实现 AlloyDB 创建/更新/删除实例 operators (#45241)
添加 BigQuery 作业链接 (#45020) (#45222)
引入 gcp translation(V3) 词汇表 providers (#45085)
将 dependencies 部分添加到 gcp cloud build 实例响应中 (#46947)
创建 用于 处理 GCP Apache Kafka 主题 的 操作符 (#46865)
Bug 修复¶
修复 在 BigQueryInsertJobOperator 中,当 async 在 deffed 之前 完成时,返回 job_id (#46753)
修复: 如果没有 OpenLineage,Dataproc 操作符 导入失败 (#46561)
为 CloudComposerDAGRunSensor 添加 旧 Airflow 版本的 向后兼容性 (#46011)
改进 google 凭据 错误消息 (#45553)
在 CloudSqlProxyRunner 中添加 aarch64 环境的 case (#45488)
修复 GCSToGCSOperator 在 replace 为 False 时,复制 单个 对象 的 bug (#45181)
其他¶
重构 TriggererJobRunner 以在没有 DB 访问的进程中运行 triggers (#46677)
AIP-72: 改进 操作符 链接 界面 以防止 用户代码 在 Webserver 中执行 (#46613)
移除 Google Provider 中的 Airflow 3 弃用警告,移动到 Private Warning (#46599)
将 evaluation extra 添加到 google-cloud-aiplatform (#46270)
限制 'google-cloud-aiplatform' 以修复 CI 中的问题 (#46242)
改进 cloud_composer.rst 中的 语法 (#45708)
AIP-72: 支持 SDK 中 Context dict 更好的类型提示 (#45583)
弃用 Google Ads API v17 及更高版本的 page_size 参数 (#45239)
删除 pre-python 3.9 的过时 pandas 规范 (#45399)
apache-airflow-providers-google 包的 弃用策略 (#44985)
添加 alloydb 的下限 (#45180)
弃用 gcp AutoML 模块 (#44875)
重构 BeamRunPythonPipelineOperator 和 BeamRunJavaPipelineOperator 的可延迟模式 (#46678)
将 cloud build 提升到 3.31.0 (#46953)
12.0.0¶
注意
如Apache Airflow providers support policy中所述,此 provider 版本仅适用于 Airflow 2.9+。
不兼容变更¶
警告
已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:
操作符
已移除
CreateDataPipelineOperator
。请改用DataflowCreatePipelineOperator
。已移除
RunDataPipelineOperator
。请改用DataflowRunPipelineOperator
。已移除
CreateDataPipelineOperator
。请改用DataflowCreatePipelineOperator
。已移除
RunDataPipelineOperator
。请改用DataflowRunPipelineOperator
。
Hooks
已移除
DataPipelineHook
。请改用DataflowHook
。已移除
DataPipelineHook
。请改用 DataflowHook。
Google provider 删除 已弃用 到达移除日期 (2024年12月) (#45084)
特性¶
添加 Google Vertex AI Feature Store - Feature View 同步 操作符,传感器 (#44891)
引入 gcp translation(V3),翻译 文档 providers (#44971)
引入 translation API v3 (高级)模型 操作符。 (#44627)
支持 Dataproc SQL 作业中的 多个 SQL 查询 (#44890)
feat: 为 BigQuery 创建表 操作符添加 OpenLineage 支持 (#44783)
feat: 为 S3ToGCSOperator 添加 OpenLineage 支持 (#44426)
feat: 在 DataprocSubmitJobOperator 中自动将 OL 信息注入到 spark 作业中 (#44477)
实现 AlloyDB 操作符:创建/更新/删除 集群 (#45027)
Bug 修复¶
修复 由于重复的别名而导致的 MetastoreHivePartitionSensor 失败 (#45001)
修复 InsertBigQueryOperator 的 OpenLineage 发射失败 (#44650)
BigQueryInsertJobOperator: 记录瞬态错误,并在将任务标记为成功之前检查作业状态 (#44279)
使 'CloudBatchSubmitJobOperator' 在作业失败时失败 (#44425)
其他¶
删除对 AIRFLOW_V_2_9_PLUS 的引用 (#44987)
在 providers 中一致地检查 Airflow 版本 (#44686)
修复 yoda-conditions (#44466)
feat: 为 gcs 和 local 之间的 传输 操作符添加 OpenLineage 支持 (#44417)
将 providers 中的最小 Airflow 版本提升到 Airflow 2.9.0 (#44956)
chore: 从 OpenLineage utils 中删除已弃用的 bigquery facets (#44838)
实现 KubernetesInstallKueueOperator (#44568)
修复 dataform 操作符的 文档 (#44729)
弃用 VertexAI PaLM 文本生成模型 (#44719)
在文档中显示关于弃用的醒目警告 (#44479)
chore: 统一处理 gcs 路径 (#44410)
11.0.0¶
不兼容变更¶
警告
已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:
操作符
已移除
CreateAutoMLTextTrainingJobOperator
。请改用SupervisedFineTuningTrainOperator
。已移除
BigQueryExecuteQueryOperator
。请改用BigQueryInsertJobOperator
。已移除
BigQueryPatchDatasetOperator
。请改用BigQueryUpdateDatasetOperator
。已移除
DataflowCreateJavaJobOperator
。请改用BeamRunJavaPipelineOperator
。移除了
DataflowCreatePythonJobOperator
。请使用BeamRunPythonPipelineOperator
代替。移除了
DataprocSubmitPigJobOperator
。请使用DataprocSubmitJobOperator
代替。移除了
DataprocSubmitHiveJobOperator
。请使用DataprocSubmitJobOperator
代替。移除了
DataprocSubmitSparkSqlJobOperator
。请使用DataprocSubmitJobOperator
代替。移除了
DataprocSubmitSparkJobOperator
。请使用DataprocSubmitJobOperator
代替。移除了
DataprocSubmitHadoopJobOperator
。请使用DataprocSubmitJobOperator
代替。移除了
DataprocSubmitPySparkJobOperator
。请使用DataprocSubmitJobOperator
代替。移除了
GoogleAnalyticsListAccountsOperator
。请使用GoogleAnalyticsAdminListAccountsOperator
代替。移除了
GoogleAnalyticsGetAdsLinkOperator
。请使用GoogleAnalyticsAdminGetGoogleAdsLinkOperator
代替。移除了
GoogleAnalyticsRetrieveAdsLinksListOperator
。请使用GoogleAnalyticsAdminListGoogleAdsLinksOperator
代替。移除了
GoogleAnalyticsDataImportUploadOperator
。请使用GoogleAnalyticsAdminCreateDataStreamOperator
代替。移除了
GoogleAnalyticsDeletePreviousDataUploadsOperator
。请使用GoogleAnalyticsAdminDeleteDataStreamOperator
代替。移除了
GoogleAnalyticsModifyFileHeadersDataImportOperator
。由于 Google Analytics API v3 已停止服务,该类已不再实际使用,因此所涵盖的用例不再相关。移除了
GoogleCampaignManagerDeleteReportOperator.delegate_to
。请使用GoogleCampaignManagerDeleteReportOperator.impersonation_chain
代替。移除了
GoogleCampaignManagerDownloadReportOperator.delegate_to
。请使用GoogleCampaignManagerDownloadReportOperator.impersonation_chain
代替。移除了
GoogleCampaignManagerInsertReportOperator.delegate_to
。请使用GoogleCampaignManagerInsertReportOperator.impersonation_chain
代替。移除了
GoogleCampaignManagerRunReportOperator.delegate_to
。请使用GoogleCampaignManagerRunReportOperator.impersonation_chain
代替。移除了
GoogleCampaignManagerBatchInsertConversionsOperator.delegate_to
。请使用GoogleCampaignManagerBatchInsertConversionsOperator.impersonation_chain
代替。移除了
GoogleCampaignManagerBatchUpdateConversionsOperator.delegate_to
。请使用GoogleCampaignManagerBatchUpdateConversionsOperator.impersonation_chain
代替。移除了
GoogleDisplayVideo360CreateQueryOperator.delegate_to
。请使用GoogleDisplayVideo360CreateQueryOperator.impersonation_chain
代替。移除了
GoogleDisplayVideo360DeleteReportOperator.delegate_to
。请使用GoogleDisplayVideo360DeleteReportOperator.impersonation_chain
代替。移除了
GoogleDisplayVideo360DownloadReportV2Operator.delegate_to
。请使用GoogleDisplayVideo360DownloadReportV2Operator.impersonation_chain
代替。移除了
GoogleDisplayVideo360RunQueryOperator.delegate_to
。请使用GoogleDisplayVideo360RunQueryOperator.impersonation_chain
代替。移除了
GoogleDisplayVideo360DownloadLineItemsOperator.delegate_to
。请使用GoogleDisplayVideo360DownloadLineItemsOperator.impersonation_chain
代替。移除了
GoogleDisplayVideo360UploadLineItemsOperator.delegate_to
。请使用GoogleDisplayVideo360UploadLineItemsOperator.impersonation_chain
代替。移除了
GoogleDisplayVideo360CreateSDFDownloadTaskOperator.delegate_to
。请使用GoogleDisplayVideo360CreateSDFDownloadTaskOperator.impersonation_chain
代替。移除了
GoogleDisplayVideo360SDFtoGCSOperator.delegate_to
。请使用GoogleDisplayVideo360SDFtoGCSOperator.impersonation_chain
代替。移除了
GoogleSheetsCreateSpreadsheetOperator.delegate_to
。请使用GoogleSheetsCreateSpreadsheetOperator.impersonation_chain
代替。移除了
GCSToGoogleDriveOperator.delegate_to
。请使用GCSToGoogleDriveOperator.impersonation_chain
代替。移除了
GCSToGoogleSheetsOperator.delegate_to
。请使用GCSToGoogleSheetsOperator.impersonation_chain
代替。移除了
LocalFilesystemToGoogleDriveOperator.delegate_to
。请使用LocalFilesystemToGoogleDriveOperator.impersonation_chain
代替。移除了
SQLToGoogleSheetsOperator.delegate_to
。请使用SQLToGoogleSheetsOperator.impersonation_chain
代替。移除了
CreateBatchPredictionJobOperator.sync
。此参数不再实际使用。移除了
CreateHyperparameterTuningJobOperator.sync
。此参数不再实际使用。移除了
CustomTrainingJobBaseOperator.sync
。此参数不再实际使用。移除了
GKEStartPodOperator.get_gke_config_file()
。请使用GKEStartPodOperator.fetch_cluster_info()
代替。
触发器
移除了
GCSCheckBlobUpdateTimeTrigger.hook_params
参数中对delegate_to
字段的支持。
传感器
移除了
BigQueryTableExistenceAsyncSensor
。请使用BigQueryTableExistenceSensor
并将 deferrable 属性设置为 True 代替。移除了
BigQueryTableExistencePartitionAsyncSensor
。请使用BigQueryTablePartitionExistenceSensor
并将 deferrable 属性设置为 True 代替。移除了
CloudComposerEnvironmentSensor
。请使用CloudComposerCreateEnvironmentOperator
、CloudComposerUpdateEnvironmentOperator
或CloudComposerDeleteEnvironmentOperator
代替。移除了
GCSObjectExistenceAsyncSensor
。请使用GCSObjectExistenceSensor
并将 deferrable 属性设置为 True 代替。移除了
GoogleCampaignManagerReportSensor.delegate_to
。请使用GoogleCampaignManagerReportSensor.impersonation_chain
代替。移除了
GoogleDisplayVideo360GetSDFDownloadOperationSensor.delegate_to
。请使用GoogleDisplayVideo360GetSDFDownloadOperationSensor.impersonation_chain
代替。移除了
GoogleDisplayVideo360RunQuerySensor.delegate_to
。请使用GoogleDisplayVideo360RunQuerySensor.impersonation_chain
代替。移除了
GoogleDriveFileExistenceSensor.delegate_to
。请使用GoogleDriveFileExistenceSensor.impersonation_chain
代替。
链接
移除了
BigQueryConsoleIndexableLink
。此属性不再实际使用。移除了
BigQueryConsoleLink
。此属性不再实际使用。
Hooks
移除了
GKEDeploymentHook
。请使用GKEKubernetesHook
代替。移除了
GKECustomResourceHook
。请使用GKEKubernetesHook
代替。移除了
GKEPodHook
。请使用GKEKubernetesHook
代替。移除了
GKEJobHook
。请使用GKEKubernetesHook
代替。移除了
GKEPodAsyncHook
。请使用GKEKubernetesAsyncHook
代替。移除了
SecretsManagerHook
。请使用GoogleCloudSecretManagerHook
代替。移除了
GoogleAnalyticsHook
。由于 Google Analytics API v3 已停止服务,该类已不再实际使用。移除了
GoogleBaseHook.delegate_to
。请使用GoogleBaseHook.impersonation_chain
。请注意,delegate_to
参数过去在所有 Google hooks 中都继承,并且从现在起,它在 Google provider 中的所有位置都已被删除。移除了
GoogleDiscoveryApiHook.delegate_to
。请使用GoogleDiscoveryApiHook.impersonation_chain
代替。移除了
GoogleCampaignManagerHook.delegate_to
。请使用GoogleCampaignManagerHook.impersonation_chain
代替。移除了
GoogleDisplayVideo360Hook.delegate_to
。请使用GoogleDisplayVideo360Hook.impersonation_chain
代替。移除了
GoogleSearchAdsHook.delegate_to
。请使用GoogleSearchAdsHook.impersonation_chain
代替。移除了
GoogleCalendarHook.delegate_to
。请使用GoogleCalendarHook.impersonation_chain
代替。移除了
GoogleDriveHook.delegate_to
。请使用GoogleDriveHook.impersonation_chain
代替。移除了
GSheetsHook.delegate_to
。请使用GSheetsHook.impersonation_chain
代替。移除了
BigQueryHook.credentials_path
。此属性不再实际使用。已移除
GKEHook.get_conn()
。请改用GKEHook.get_cluster_manager_client()
已移除
GKEHook.get_client()
。请改用GKEHook.get_cluster_manager_client()
已移除
BigQueryHook.patch_table()
。请改用BigQueryHook.update_table()
已移除
BigQueryHook.patch_dataset()
。请改用BigQueryHook.update_dataset()
已移除
BigQueryHook.get_dataset_tables_list()
。请改用BigQueryHook.get_dataset_tables()
已移除
BigQueryHook.run_table_delete()
。请改用BigQueryHook.delete_table()
已移除
BigQueryHook.get_tabledata()
。请改用BigQueryHook.list_rows()
已移除
BigQueryHook.cancel_query()
。请改用BigQueryHook.cancel_job()
已移除
BigQueryHook.run_with_configuration()
。请改用BigQueryHook.insert_job()
已移除
BigQueryHook.run_load()
。请改用BigQueryHook.insert_job()
已移除
BigQueryHook.run_copy()
。请改用BigQueryHook.insert_job()
已移除
BigQueryHook.run_extract()
。请改用BigQueryHook.insert_job()
已移除
BigQueryHook.run_query()
。请改用BigQueryHook.insert_job()
已移除
BigQueryHook.create_external_table()
。请改用BigQueryHook.create_empty_table()
已移除
BigQueryHook.get_service()
。请改用BigQueryHook.get_client()
后端
已移除
CloudSecretManagerBackend.get_conn_uri()
。请改用CloudSecretManagerBackend.get_conn_value()
其他弃用
已移除
BigQueryBaseCursor.create_empty_table()
。请改用BigQueryHook.create_empty_table()
已移除
BigQueryBaseCursor.create_empty_dataset()
。请改用BigQueryHook.create_empty_dataset()
已移除
BigQueryBaseCursor.get_dataset_tables()
。请改用BigQueryHook.get_dataset_tables()
已移除
BigQueryBaseCursor.delete_dataset()
。请改用BigQueryHook.delete_dataset()
已移除
BigQueryBaseCursor.create_external_table()
。请改用BigQueryHook.create_empty_table()
已移除
BigQueryBaseCursor.patch_table()
。请改用BigQueryHook.update_table()
已移除
BigQueryBaseCursor.insert_all()
。请改用BigQueryHook.insert_all()
已移除
BigQueryBaseCursor.update_dataset()
。请改用BigQueryHook.update_dataset()
已移除
BigQueryBaseCursor.patch_dataset()
。请改用BigQueryHook.update_dataset()
已移除
BigQueryBaseCursor.get_dataset_tables_list()
。请改用BigQueryHook.get_dataset_tables()
已移除
BigQueryBaseCursor.get_datasets_list()
。请改用BigQueryHook.get_datasets_list()
已移除
BigQueryBaseCursor.get_dataset()
。请改用BigQueryHook.get_dataset()
已移除
BigQueryBaseCursor.run_grant_dataset_view_access()
。请改用BigQueryHook.run_grant_dataset_view_access()
已移除
BigQueryBaseCursor.run_table_upsert()
。请改用BigQueryHook.run_table_upsert()
已移除
BigQueryBaseCursor.run_table_delete()
。请改用BigQueryHook.delete_table()
已移除
BigQueryBaseCursor.get_tabledata()
。请改用BigQueryHook.list_rows()
已移除
BigQueryBaseCursor.get_schema()
。请改用BigQueryHook.get_schema()
已移除
BigQueryBaseCursor.poll_job_complete()
。请改用BigQueryHook.poll_job_complete()
已移除
BigQueryBaseCursor.cancel_query()
。请改用BigQueryHook.cancel_job()
已移除
BigQueryBaseCursor.run_with_configuration()
。请改用BigQueryHook.insert_job()
已移除
BigQueryBaseCursor.run_load()
。请改用BigQueryHook.insert_job()
已移除
BigQueryBaseCursor.run_copy()
。请改用BigQueryHook.insert_job()
已移除
BigQueryBaseCursor.run_extract()
。请改用BigQueryHook.insert_job()
已移除
BigQueryBaseCursor.run_query()
。请改用BigQueryHook.insert_job()
从 Google 提供程序中删除已弃用的功能 (#43953)
功能¶
feat: 为 BigQueryToBigQueryOperator 添加 OpenLineage 支持 (#44214)
引入 gcp 高级 API (V3) 转换本机数据集操作符 (#44271)
引入新的 gcp TranslateText 和 TranslateTextBatch 操作符 (#43860)
将 gcloud 命令添加到 DataprocCreateClusterOperator,以便能够在 GKE 集群上创建 dataproc (#44185)
错误修复¶
修复 'BigQueryAsyncHook.create_job_for_partition_get' 中的不正确查询。(#44225)
修复 Dataplex 数据质量的部分更新 (#44262)
其他¶
将 'google-cloud-translate' 升级到 '3.16' (#44297)
将 'google-cloud-datacatalog' 升级到 '3.23' (#44281)
在整个代码库中将 execution_date 重命名为 logical_date (#43902)
10.26.0¶
功能¶
为 CloudSQL 连接添加对 IAM 数据库身份验证的支持 (#43631)
为 'GCSToBigQueryOperator' 提供 'force_delete' 选项 (#43785)
统一 BigQuery 操作符中的 reattach_states 参数逻辑 (#43259)
错误修复¶
从 ListCustomTrainingJobOperator 的 template_fields 中删除不存在的字段 (#43924)
修复 'UploadModelOperator' 中验证 'parent_model' 参数的问题 (#43473)
其他¶
添加对 DbApiHook、PrestoHook 和 TrinoHook 的分号剥离支持 (#41916)
删除 Google 提供程序中 Airflow 2.1 兼容代码 (#43952)
解释如何将 uv 与 airflow virtualenv 一起使用并使其工作 (#43604)
将 python 操作符移动到 Standard 提供程序 (#42081)
更新 Google ADS 的版本 (#43474)
10.25.0¶
功能¶
feat: 为 GCSHook 添加 Hook Level Lineage 支持 (#42507)
feat: 用于检查 Dataform 操作状态的传感器 (#43055)
为 Google Cloud Vertex AI 上下文缓存创建操作符 (#43008)
错误修复¶
修复过时的 CloudRunExecuteJobOperator 文档 (#43195)
修复 TestTranslationLegacyModelPredictLink dataset_id 错误 (#42463)
其他¶
为 在 dataproc 中 创建 批量 工作负载 添加 调试 日志 (#43265)
为 plyvel 添加 最小 版本 (#43129)
Vertex AI 训练 operators: 向 渲染的 字段 添加 display_name (#43028)
使 google provider pyarrow 依赖 显式化 (#42996)
限制 looker-sdk 版本 24.18.0 和 microsoft-kiota-http 1.3.4 (#42954)
10.24.0¶
功能¶
为 DataprocCreateClusterOperator 和 DataprocCreateBatchOperator 添加 'retry_if_resource_not_ready' 逻辑 (#42703)
Bug修复¶
如果 提供了 batch_id,则在 Dataproc Serverless Batch 链接 启动后 发布 (#41153)
修复 PubsubPullTrigger 中的 PubSubAsyncHook 以 使用 gcp_conn_id (#42671)
修复 PubSubPullSensor 返回 一致的 响应 (#42080)
当 拆分 完整的 BigQuery 表 名时,撤消 从 表 名中 排除 分区 (#42541)
修复 gcp 文本转语音 uri 获取 (#42309)
重构 ''GCSHook'' 中的 ''bucket.get_blob'' 调用 以 处理 对 不存在的 对象的验证。 (#42474)
Bugfix/dataflow job location 传递 (#41887)
其他¶
删除 了 airflow 版本 2.8.0 及 以上版本中 对 任务 上下文 日志记录的 条件 检查 (#42764)
将 数据集 相关的 python 变量 名称 重命名 为 asset (#41348)
弃用 AutoMLBatchPredictOperator 并 重构 AutoMl 系统 测试 (#42260)
10.23.0¶
功能¶
添加 在 dataproc 集群中 创建 Flink 作业的 能力 (#42342)
添加 新的 Google Search 360 Reporting Operators (#42255)
将 return_immediately 作为 参数 添加到 PubSubPullSensor 类 (#41842)
在 'UploadModelOperator' 中 添加 parent_model 参数 (#42091)
添加 DataflowStartYamlJobOperator (#41576)
为 Google Vertex AI Rapid Evaluation API 添加 RunEvaluationOperator (#41940)
为 Google Generative AI CountTokensAPI 添加 CountTokensOperator (#41908)
添加 Supervised Fine Tuning Train Operator,Hook,Tests,Docs (#41807)
Bug修复¶
进行小的修复 以 确保 成功的 Vertex AI LLMops pipeline (#41997)
从 BigQuery 表 名中 排除 分区 (#42130)
[修复 #41763]: 当 未指定 或 具有 默认值时,SFTPToGCSOperator 中的 冗余 正斜杠 destination_path (#41928)
修复 GKEJobTrigger 中的 poll_interval (#41712)
更新 dataflow job id 提取的 模式 (#41794)
强制执行 google provider 包的 EOL 弃用 消息 格式 (#41637)
修复 KubernetesJobOperator 的 'do_xcom_push' 和 'get_logs' 功能 (#40814)
其他¶
标记 VertexAI AutoMLText 弃用 (#42251)
排除 google-cloud-spanner 3.49.0 (#42011)
删除 已弃用的 Google analytics operators 的 系统 测试 (#41946)
更新 google-cloud-bigquery 包的 最小 版本 (#41882)
取消固定 Google provider 的 google-cloud-bigquery 包 版本 (#41839)
从 已弃用的 DAG.following_schedule() 方法 迁移 (#41773)
从 providers 中 删除 已弃用的 soft_fail (#41710)
更新 google-ads 的版本 (#41638)
删除 已弃用的 日志 处理程序 参数 filename_template (#41552)
主要¶
警告
之前的 Search Ads 360 Reporting API <https://developers.google.com/search-ads/v2/how-tos/reporting> (当前在 google-provider 中使用)已于 2024 年 6 月 30 日停用(请参阅详细信息 <https://developers.google.com/search-ads/v2/migration>)。所有新的报告开发都应使用新的 Search Ads 360 Reporting API。目前,由于停用,报告 operators、传感器和 hooks 失败。新的 API 不是旧 API 的替代品,它具有不同的方法和端点。因此,为新的 API 实现了新的 operators。
10.22.0¶
注意
如 Apache Airflow providers support policy 中所述,此 provider 版本仅适用于 Airflow 2.8+。
功能¶
添加 'CloudRunServiceHook' 和 'CloudRunCreateServiceOperator' (#40008)
Bug修复¶
fix(providers/google): 向 CloudDataTransferServiceAsyncHook 添加 缺失的 sync_hook_class (#41417)
其他¶
将 providers 中的 最小 Airflow 版本 提升 到 Airflow 2.8.0 (#41396)
重构 'DataprocCreateBatchOperator' (#41527)
升级 包 gcloud-aio-auth>=5.2.0 (#41262)
10.21.1¶
Bug修复¶
修复 CloudSQL hook 的不必要的 导入 (#41009)
将 敏感信息 移动到 系统 测试 google_analytics_admin 的 密钥 管理器 (#40951)
修复 自定义 训练 作业 operators 以 接受 没有 托管 模型 的结果 (#40685)
修复 BigQueryInsertJobOperator 中 reattach_state 参数的 行为 (#40664)
修复 CloudSQLDatabaseHook 临时 文件 处理 (#41092)
其他¶
重构 dataproc 系统 测试 (#40720)
openlineage: 将 OpenLineage 提供程序 迁移到 V2 facet。 (#39530)
解决 CloudSQLDatabaseHook 弃用 警告 (#40834)
修复 BeamRunJavaPipelineOperator 在未设置 job_name 的情况下失败 (#40645)
10.21.0¶
注意
修改 修复 'GCSToGCSOperator' 移动 单个 对象的行为差异 (#40162)
已被撤销,因为它破坏了太多的现有工作流程。 GCSToGCSOperator
的行为已恢复到之前的行为。
功能¶
更新 Google Cloud 生成式 模型 Hooks/Operators 以与 Vertex AI API 保持一致 (#40484)
DataflowStartFlexTemplateOperator。 每次检查周期检查 Dataflow 作业类型。 (#40584)
向 LocalFilesystemToGCSOperator 添加 chunk_size 参数 (#40379)
向 BigQueryCheckOperator 添加 对 查询 参数的支持 (#40558)
在 DataprocCreateBatchOperator 中添加指向 dataproc 作业的链接按钮 (#40643)
Bug 修复¶
还原 "修复 'GCSToGCSOperator' 移动 单个 对象的行为差异 (#40162)" (#40577)
修复 BigQueryInsertJobOperator 的返回值以及可延迟模式下的 openlineage 提取 (#40457)
修复 GCP 可延迟运算符的 OpenLineage 提取 (#40521)
修复 CloudBatchSubmitJobOperator 中对 project_id 的尊重 (#40560)
10.20.0¶
注意
现在,GCSToGCSOperator
在移动或复制单个对象时会保留嵌套的文件夹结构,使其行为与多个对象的行为保持一致。如果此更改影响您的工作流程,您可能需要调整您的 source_object
参数,以包括直到包含您的单个文件的文件夹的完整路径,并明确指定 destination_object
以忽略嵌套的文件夹。例如,如果您之前使用 source_object='folder/nested_folder/'
,要移动文件 'folder/nested_folder/second_nested_folder/file'
,您现在应该使用 source_object='folder/nested_folder/second_nested_folder/'
并指定 destination_object='folder/nested_folder/'
。这将把文件移动到 'folder/nested_folder/file'
,而不是将其移动到 'folder/nested_folder/second_nested_folder/file'
的固定行为。
警告
上面的更改已在 10.21.0 版本中撤销。 GCSToGCSOperator
的行为已恢复到之前的行为。
功能¶
向 google cloud multimodal model operators 添加 generation_config 和 safety_settings (#40126)
向 'BigQueryUpdateTableSchemaOperator' 添加缺少的 location 参数 (#40237)
为 Google Cloud Operators 添加对外部 IdP OIDC 令牌检索的支持。 (#39873)
向 BigQuery operators 添加 encryption_configuration 参数 (#40063)
向 GoogleBaseAsyncHook 添加默认的 gcp_conn_id (#40080)
为 PubSubPublishMessageOperator GCP Operator 添加 排序 键 选项 (#39955)
在 GCSHook 中添加从 GCS blob 获取元数据的方法 (#38398)
在 AutoMLHook 中的 create_auto_ml_forecasting_training_job 中添加 window 参数 (#39767)
实现 CloudComposerDAGRunSensor (#40088)
实现 'CloudDataTransferServiceRunJobOperator' (#39154)
异步获取 GKEStartPod 的中间日志 (#39348)
在 google provider 包中为 AzureBlobStorageToGCSOperator 添加 OpenLineage 支持 (#40290)
Bug 修复¶
修复 hive_partition_sensor 系统 测试 (#40023)
修复 openai 1.32 破坏 openai 测试 (#40110)
修复 google auth 的 mypy 版本显示凭据初始化 (#40108)
修复 DataflowHook 中排除双引号和换行符的正则表达式 (#39991)
修复 BigQueryToPostgresOperator 的替换参数 (#40278)
修复 'GCSToGCSOperator' 移动 单个 对象的行为差异 (#40162)
其他¶
重构 datapipeline operators (#39716)
更新 Python 3.12 的 pandas 最低要求 (#40272)
使用最低直接依赖关系解析实现每个提供程序的测试 (#39946)
openlineage: 在单独的进程中执行提取和消息发送 (#40078)
将 google-auth 的最低版本提升到 2.29.0 (#40190)
提升 google-ads 版本以默认使用 v17 (#40158)
google: 将 openlineage 导入移动到方法内部 (#40062)
在 DataplexGetDataQualityScanResultOperator 中添加 job_id 作为 template_field (#40041)
向 httpx >= 0.25.0 添加依赖项 (#40256)
10.19.0¶
注意
在 AutoML Natural Language、Tables、Vision 和 Video Intelligence 服务的旧版本关闭后,几个 AutoML 运算符已停止支持。这包括 AutoMLDeployModelOperator
、AutoMLTablesUpdateDatasetOperator
、AutoMLTablesListTableSpecsOperator
和 AutoMLTablesListColumnSpecsOperator
。请参阅运算符文档以了解可用的替代方案(如果有)。有关 AutoML 关闭的更多信息,请参见
功能¶
在 GCP base hook 中引入匿名凭据 (#39695)
Bug 修复¶
如果 parent_model 版本后缀传递给 Vertex AI operators,则删除它 (#39640)
如果缺少 location,则修复 BigQueryCursor execute 方法 (#39659)
修复 PubSubPullSensor 在 可延迟模式 下的 已确认功能 (#39711)
将 AutoML Operator 链接 重定向 到 Google 翻译 链接 (#39668)
将 google-cloud-bigquery 锁定 到 < 3.21.0 (#39583)
其他¶
移除 Google 和 Snowflake Provider 中的 'openlineage.common' 依赖项 (#39614)
弃用 AutoML Tables Operator (#39752)
解决 Azure FileShare-to-GCS 测试 中的 弃用警告 (#39599)
拼写错误: spec 中错误的 OpenLineage facet key (#39782)
从 StackdriverTaskHandler 中 移除 陈旧代码 (#39744)
10.18.0¶
注意
如Apache Airflow Provider支持策略中所述,此 Provider 版本仅适用于 Airflow 2.7+。
功能¶
为 Google LLM Operator 添加 模板化 字段 (#39174)
添加 逻辑 以处理 当 deferrable=True 时 BigQueryInsertJobOperator 的 on_kill (#38912)
创建 'CloudComposerRunAirflowCLICommandOperator' Operator (#38965)
Dataflow Sensor 的 可延迟 模式 (#37693)
自定义 训练 Job Operator 的 可延迟 模式 (#38584)
CloudSQLExecuteQueryOperator 中对 SSL 支持的 增强 (#38894)
创建 GKESuspendJobOperator 和 GKEResumeJobOperator Operator (#38677)
为 Google Transfer Service Operator 中的 AWS 凭据 添加 对 role arn 的支持 (#38911)
将 encryption_configuration 参数 添加到 BigQueryCheckOperator 和 BigQueryTableCheckOperator (#39432)
将 'job_id' 参数 添加到 'BigQueryGetDataOperator' (#39315)
Bug修复¶
修复 DataflowTemplatedJobStartOperator 和 DataflowStartFlexTemplateOperator 的 可延迟模式 (#39018)
修复 BigQueryToPostgresOperator 的 批量处理 (#39233)
修复 当 任务 被标记为 失败时 deferrable mode=True 下的 DataprocSubmitJobOperator (#39230)
修复 GCSObjectExistenceSensor Operator 以在 可延迟 和 非可延迟 模式下返回相同的 XCOM 值 (#39206)
修复 conn_id BigQueryToMsSqlOperator (#39171)
修复 在 Google 身份验证 刷新凭据 错误的情况下添加重试逻辑 (#38961)
修复 可延迟模式下 BigQueryCheckOperator 跳过的 值 和 错误检查 (#38408)
修复 在 GCSDeleteObjectsOperator 中使用 前缀 而不是所有文件路径来表示 OpenLineage 数据集 (#39059)
修复 在 GCSToGCSOperator 中使用 前缀 而不是完整文件路径来表示 OpenLineage 数据集 (#39058)
修复 GCSTimeSpanFileTransformOperator 中的 OpenLineage 数据集 (#39064)
修复 'DataprocSubmitPySparkJobOperator' 中 临时 文件名生成 (#39498)
修复 当 TaskInstance 未处于 running 或 deferred 状态时 DataprocSubmitJobOperator 取消外部 Job 的逻辑 (#39447)
修复 当 TaskInstance 未处于 running 或 deferred 状态时 BigQueryInsertJobOperator 取消外部 Job 的逻辑 (#39442)
修复 当 TaskInstance 未处于 running 或 deferred 状态时 DataprocCreateClusterOperator 取消外部 Job 的逻辑 (#39446)
修复 使用 'result_retry' 时 'DataprocCreateBatchOperator' 引发 'AttributeError' (#39462)
修复 GKEStartKueueInsideClusterOperator 的 YAML 解析 (#39234)
修复 BigQueryInsertJobOperator 中标签值的验证 (#39568)
其他¶
将 Provider 中的 最低 Airflow 版本 提升到 Airflow 2.7.0 (#39240)
改进 'DataprocCreateClusterOperator' 的 Trigger,以实现更好的错误处理和资源清理 (#39130)
在 Microsoft Azure Provider 中添加 MSGraphOperator (#38111)
在 Google Provider 中应用 PROVIDE_PROJECT_ID mypy 解决方法 (#39129)
处理 KubernetesDeleteJobOperator 导入 (#39036)
移除 Airflow 2.6 向后兼容代码 (#39558)
重新应用 所有 Provider 的模板 (#39554)
更快地 导入 'airflow_version' (#39552)
为 已弃用的 添加 弃用警告并引发异常 (#38673)
简化 'airflow_version' 导入 (#39497)
断开 GKE Operator 与已弃用 Hook 的连接 (#39434)
10.17.0¶
功能¶
将 'impersonation_scopes' 添加到 BigQuery (#38169)
将 可延迟模式 添加到 RunPipelineJobOperator (#37969)
添加 GKECreateCustomResourceOperator 和 GKEDeleteCustomResourceOperator Operator (#37616)
为 Google Cloud Generative AI 使用添加 VertexAI 语言模型和多模态模型操作符 (#37721)
添加 GKEListJobsOperator 和 GKEDescribeJobOperator (#37598)
创建 GKEStartKueueJobOperator 操作符 (#37477)
创建 DeleteKubernetesJobOperator 和 GKEDeleteJobOperator 操作符 (#37793)
更新 GCS hook 以获取 CMEK 保护对象的 crc32c 哈希 (#38191)
为 BigQuery 作业设置作业标签以进行可追溯性 (#37736)
CreateBatchPredictionJobOperator 的可延期模式 (#37818)
Bug 修复¶
修复 BigQuery 连接并添加文档 (#38430)
fix(google,log): 避免日志名称覆盖 (#38071)
修复 S3ToGCSOperator 触发器的凭据错误 (#37518)
修复 GCP Vertex AI AutoML 和自定义作业操作符中的 'parent_model' 参数 (#38417)
fix(google): 添加 return 语句以在触发器中的 while 循环内生成 (#38394)
修复 'PostgresToGCSOperator' 中游标唯一名称超出 Postgres 标识符限制的问题 (#38040)
修复 gcs 匿名用户问题,因为无 token (#38102)
修复 BigQueryTablePartitionExistenceTrigger 分区查询 (#37655)
其他¶
添加 google-cloud-bigquery 作为显式的 google-provider 依赖项 (#38753)
避免在 'google' provider 的类方法中使用 'functools.lru_cache' (#38652)
重构 GKE hooks (#38404)
从 airflow 包中删除未使用的循环变量 (#38308)
cloud_storage_transfer_service 的模板化字段逻辑检查 (#37519)
重命名 mlengine 操作符的字段名称以符合模板化字段验证 (#38053)
重命名 Vertex AI AutoML 操作符的字段名称以符合模板化字段验证 (#38049)
重命名 'DeleteCustomTrainingJobOperator' 的字段名称以符合模板化字段验证 (#38048)
恢复从 Google Cloud 检索的 Google Transfer 操作符的 delegate_to (#37925)
重构 CreateHyperparameterTuningJobOperator (#37938)
升级 google-ads 版本 (#37787)
10.16.0¶
特性¶
'CloudRunExecuteJobOperator': 添加 project_id 到 hook.get_job 调用 (#37201)
添加开发者 token 作为 GoogleAdsHook 的身份验证方法 (#37417)
添加 GKEStartKueueInsideClusterOperator (#37072)
为 BigQueryInsertJobTrigger 添加可选的 'location' 参数 (#37282)
feat(GKEPodAsyncHook): 使用异步凭据 token 实现 (#37486)
创建 GKEStartJobOperator 和 KubernetesJobOperator (#36847)
Bug 修复¶
修复 'DataFusionPipelineLinkHelper' 的无效弃用 (#37755)
修复模板化字段赋值 'google/cloud/operators/compute.py' (#37659)
修复 bq_to_mysql 初始化检查 (#37653)
修复 Async GCSObjectsWithPrefixExistenceSensor xcom push (#37634)
修复 GCSSynchronizeBucketsOperator 超时错误 (#37237)
fix: insert_rows 的签名与超类型 DbApiHook 不兼容 (#37391)
在 _CredentialsToken 中使用 offset-naive datetime (#37539)
在 DataprocInstantiateInlineWorkflowTemplateOperator 中使用 wait_for_operation (#37145)
其他¶
修复 DataflowStartFlexTemplateOperator 文档中的拼写错误 (#37595)
仅在 'DbApiHook.insert_rows' 中将 'executemany' 关键字参数设为仅关键字参数 (#37840)
统一 'aws_conn_id' 类型,始终为 'str | None' (#37768)
限制 'pandas' 到 '<2.2' (#37748)
移除 Google provider 操作符中损坏的已弃用回退 (#37740)
实现 AIP-60 数据集 URI 格式 (#37005)
解决 'bigquery' 的模板字段初始化检查 (#37586)
更新 DataprocCreateBatchOperator 的文档 (#37562)
替换 providers 中 'datetime.utcnow' 和 'datetime.utcfromtimestamp' 的用法 (#37138)
10.15.0¶
特性¶
添加 service_file 支持到 GKEPodAsyncHook (#37081)
更新 GCP Dataproc ClusterGenerator 以支持 GPU 参数 (#37036)
创建 DataprocStartClusterOperator 和 DataprocStopClusterOperator (#36996)
为 CreateHyperparameterTuningJobOperator 实现可延期模式 (#36594)
为 GKEPodHook 启用 '_enable_tcp_keepalive' 功能 (#36999)
Bug 修复¶
fix(providers/google): 修复 GKEPodAsyncHook.service_file_as_context 的使用方式 (#37306)
修复 ComputeEngineSSHHook 的元数据覆盖 (#37192)
修复 '__init__' 中 'custom_job' 中模板字段的赋值 (#36789)
修复 DataflowTemplatedJobStartOperator 中的 location 要求 (#37069)
修复 'CloudDataTransferServiceCreateJobOperator' 中 '__init__' 里 template 字段 的 赋值 (#36909)
修复了 GCP Data Fusion 链接的 硬编码 默认 namespace 值。 (#35379)
如果在 Dataproc 集群 配置中 internal_ip_only 设置为 false, 则不要 忽略 它 (#37014)
其他¶
恢复 针对 google-core-api 的 向后兼容性 问题的 保护 (#37111)
特性: 将所有 类、 函数、 方法 弃用 切换到 装饰器 (#36876)
10.14.0¶
注意
BaseSQLToGCSOperator
中的 parquet_row_group_size
的默认值已从 1 更改为 100000,以便拥有一个默认值,该默认值提供更好的压缩效率和读取输出 Parquet 文件的数据的性能。在许多情况下,先前的值 1 导致非常大的文件、长时间的任务持续时间和内存不足的问题。默认值 100000 可能需要更多内存来执行运算符,在这种情况下,用户可以覆盖运算符中的 parquet_row_group_size
参数。当 export_format
为 parquet
时,所有派生自 BaseSQLToGCSOperator
的运算符都会受到影响:MySQLToGCSOperator
、PrestoToGCSOperator
、OracleToGCSOperator
、TrinoToGCSOperator
、MSSQLToGCSOperator
和 PostgresToGCSOperator
。鉴于以上情况,我们将此更改视为错误修复。
功能¶
将 templated 字段 添加到 来自 'BigQueryToPostgresOperator' 的 'BigQueryToSqlBaseOperator' (#36663)
添加了 检查 取消 工作流 调用 并添加了 新的 查询 工作流 调用 运算符 (#36351)
实现 Google Analytics Admin (GA4) 运算符 (#36276)
添加 运算符 来 诊断 集群 (#36899)
将 scopes 添加到 GCP token 中 (#36974)
特性: 在 gcloud-aio 客户端中 完全 支持 google 凭据 (#36849)
错误修复¶
修复 templated 字段 到 super 构造函数 (#36934)
修复: 在 GKEStartPodOperator 中 尊重 连接 ID 和 模拟 (#36861)
修复 warnings.warn 中 的 stacklevel 到 providers 中 (#36831)
修复 GCP Dataproc 链接中 的 弃用 (#36834)
修复 构造函数中 templated 字段 的 赋值 (#36603)
在 将 Dataproc 运算符 推迟 到 触发器 之前 检查 集群 状态 (#36892)
防止 运算符 __init__ 中 的 templated 字段 逻辑 检查 (#36489)
直接 通过 BigQuery 加载 API 保留 ASCII 控制 字符 (#36533)
更改 'BaseSQLToGCSOperator' 中的 默认 'parquet_row_group_size' (#36817)
修复 google 运算符 处理 模拟 链 的问题 (#36903)
其他¶
样式(providers/google): 改进 BigQueryInsertJobOperator 类型 提示 (#36894)
弃用 用于 视觉和视频的 AutoMLTrainModelOperator (#36473)
删除 KubernetesPodOperator 模块的 向后兼容性 检查 (#36724)
删除 KubernetesPodTrigger 模块的 向后兼容性 检查 (#36721)
将 所有 providers 和 airflow 的 最小 pandas 依赖项 设置为 1.2.5 (#36698)
删除 不必要的 templated 字段 (#36491)
文档(providers/google): 在 文档字符串中将 GoogleBaseHookAsync 改写为 GoogleBaseAsyncHook (#36946)
10.13.1¶
其他¶
删除 stackdriver 的 向后兼容 代码 (#36442)
删除 未使用的 '_parse_version' 函数 (#36450)
从 GCS 任务 处理程序中 删除 剩余的 Airflow 2.5 向后兼容 代码 (#36443) (#36457)
10.13.0¶
注意
此 provider 版本仅适用于 Airflow 2.6+,如 Apache Airflow providers 支持策略中所述。
功能¶
GCP Secrets 后端 模拟 (#36072)
向 GcsOperators 添加 OpenLineage 支持 - 删除、 转换 和 TimeSpanTransform (#35838)
添加 对 使用 computeEngineSSHHook (google provider) 和 IAP 隧道 进行 服务帐户 模拟的 支持 (#35136)
添加 Datascan 分析 (#35696)
向 Google Cloud Run 作业 执行 运算符的 模板 字段添加 覆盖 (#36133)
为 BeamRunJavaPipelineOperator 实现 可延期 模式 (#36122)
添加 在非 可延期 模式下为 BeamRunPythonPipelineOperator 运行 流式 作业的 能力 (#36108)
将 use_glob 添加到 GCSObjectExistenceSensor (#34137)
错误修复¶
修复 DataprocSubmitJobOperator 以检索 失败 作业 错误 消息 (#36053)
修复 CloudRunExecuteJobOperator 无法在 可延期 模式下检索 Cloud Run 作业 状态 (#36012)
修复 gcs 列表 - 确保 blobs 已加载 (#34919)
允许 模拟 链中的 多个 元素 (#35694)
将 Google Dataflow 客户端的 重试 类型更改为 异步 重试 (#36141)
DataprocCreateClusterOperator 运算符文档的 小幅修复。 (#36322)
修复(bigquery.py): 将正确的 project_id 传递给 触发器 (#35200)
在检查 前缀之前 迭代 blobs (#36202)
修复 与 google-cloud-monitoring 2.18.0 的不兼容性 (#36200)
更新 PubSubAsyncHook 中的 'retry' 参数 类型 (#36198)
其他¶
将 providers 中的最低 Airflow 版本提升至 Airflow 2.6.0 (#36017)
弃用 'CloudComposerEnvironmentSensor',推荐使用带有 defer 模式的 'CloudComposerCreateEnvironmentOperator' (#35775)
在子类中遵循 BaseHook 连接字段方法签名 (#36086)
允许传递存储选项 (#35820)
添加从源码构建 "chicken-egg" 包的功能 (#35890)
从 Google Provider 中移除剩余的 Airflow 2.5 向后兼容代码 (#36366)
将 KubernetesPodTrigger hook 移动到缓存属性 (#36290)
通过 Ruff 在文档字符串中添加代码片段格式 (#36262)
10.12.0¶
功能¶
为 schema_settings 和 message_retention_duration 添加了主题参数。 (#35767)
添加对 GCSToBigQueryOperator 的 OpenLineage 支持 (#35778)
添加对 BigQueryToGCSOperator 的 OpenLineage 支持 (#35660)
为 Dataproc 添加对驱动程序池、实例灵活性策略和 min_num_instances 的支持 (#34172)
为 Dataproc worker 添加 "NON_PREEMPTIBLE" 作为有效的抢占类型 (#35669)
添加将 impersonation_chain 传递给 BigQuery 触发器的能力 (#35629)
在 GoogleDisplayVideo360CreateQueryOperator 中为本地文件添加过滤器 (#35635)
扩展使用 GCP GCS 的远程日志记录的任务上下文日志记录支持 (#32970)
Bug 修复¶
修复并重新应用 provider 文档的模板 (#35686)
修复检查 dataflow 作业状态的逻辑 (#34785)
其他¶
从 BigQueryToBigQueryOperator 中移除对已弃用方法的使用 (#35605)
在父类而不是 TaskContextLogger set_context 中检查 attr (#35780)
移除 providers 中与 Airflow 2.3/2.4 的向后兼容 (#35727)
在 GoogleDiscoveryApiHook 中恢复 delegate_to 参数 (#35728)
移除对 BigQueryCursor 中已弃用方法的使用 (#35606)
对齐 'MSSQLToGCSOperator' 的文档 (#35715)
10.11.1¶
其他¶
将 Google Ads API 版本从 v14 更新到 v15 (#35295)
10.11.0¶
功能¶
AIP-58:添加 Airflow 对象存储 (AFS) (#34729)
改进 Dataprep hook (#34880)
其他¶
将 'overrides' 参数添加到 CloudRunExecuteJobOperator (#34874)
10.10.1¶
其他¶
添加与 Google Cloud Storage 相关的文档之间的链接 (#34994)
将 AI Platform Prediction 的旧版本迁移到 VertexAI (#34922)
在 DataprocInstantiate{Inline}WorkflowTemplateOperator 的 on_kill 中取消工作流 (#34957)
10.10.0¶
注意
如Apache Airflow providers 支持策略中所述,此 provider 版本仅适用于 Airflow 2.5+。
功能¶
改进:在 BigQueryIntervalCheckOperator 中引入 project_id (#34573)
Bug 修复¶
在为 google sensors 引发异常时遵守 soft_fail 参数 (#34501)
修复 GCSToGoogleDriveOperator 和 gdrive 系统测试 (#34545)
修复 LookerHook 序列化缺少 1 个参数错误 (#34678)
修复 Dataform 系统测试 (#34329)
其他¶
提升 providers 的最低 airflow 版本 (#34728)
重构 DataFusionInstanceLink 用法 (#34514)
在 Google Provider 示例中使用 'airflow.models.dag.DAG' (#34614)
弃用 Life Sciences Operator 和 Hook (#34549)
在 providers 中使用 'airflow.exceptions.AirflowException' (#34511)
10.9.0¶
功能¶
为 CloudDataFusionStartPipelineOperator 添加对流(实时)管道的显式支持 (#34271)
将 'expected_terminal_state' 参数添加到 Dataflow operators (#34217)
Bug 修复¶
修复:当在 body 参数中给出时,'ComputeEngineInsertInstanceOperator' 不遵守 jinja 模板化的实例名称 (#34171)
修复:BigQuery 作业错误消息 (#34208)
GKEPodHook 忽略 gcp_conn_id 参数。 (#34194)
其他¶
提升 Google provider 的 min common-sql provider 版本 (#34257)
移除 字典上不必要的 keys() 方法调用 (#34260)
重构: 在 providers 中积极思考 (#34279)
重构: 简化 providers/google 中的代码 (#33229)
重构: 简化比较 (#34181)
弃用 NL 的 AutoMLTrainModelOperator (#34212)
简化为 bool(...) (#34258)
使 Google Dataform operators 的 templated_fields 更加一致 (#34187)
10.8.0¶
特性¶
为 Dataplex DataQuality 添加 deferrable 模式。 (#33954)
允许在 Google Cloud 连接上设置 impersonation_chain (#33715)
Bug 修复¶
fix(providers/google-marketing-platform): 当引发异常时,尊重 soft_fail 参数 (#34165)
fix: endpoint_service.py 中的文档字符串 (#34135)
修复 BigQueryValueCheckOperator deferrable 模式优化 (#34018)
Datafusion pipelines 的 artifact 版本动态设置 (#34068)
如果 Dataproc 集群以 ERROR 状态启动,则尽早删除它。 (#33668)
当使用 DataFusionAsyncHook 时,通过将 sleep 替换为 asyncio.sleep 来避免阻塞事件循环 (#33756)
其他¶
整合 os.path.* 的导入 (#34060)
重构 providers 中的正则表达式 (#33898)
在 Google provider 中,如果可能,将 try 移到循环外部 (#33976)
合并 providers 中类似的 if 逻辑 (#33987)
从 providers 中删除无用的字符串连接 (#33968)
更新 Azure fileshare hook 以使用 azure-storage-file-share 而不是 azure-storage-file (#33904)
重构 providers 中不需要的跳转 (#33833)
当在 providers 中寻找正值时,用 any 替换循环 (#33984)
在 providers 中,用 contextlib.suppress 替换 try - except pass (#33980)
从 providers 代码中删除一些无用的 try/except (#33967)
在 Airflow providers 中,用解包替换序列连接 (#33933)
从 'BigQueryHook.get_pandas_df' 中删除一个已弃用的选项 (#33819)
在 providers 中,用 dict() 替换不必要的字典推导式 (#33857)
通过将其中一些移到类型检查块中,改进 google provider 中的模块导入 (#33783)
在 providers 中,使用带有多个上下文的单个语句,而不是嵌套语句 (#33768)
在 providers 中,使用字面量字典而不是调用 dict() (#33761)
删除不必要的,并使用 providers 中的列表重写它 (#33763)
重构: 简化一些循环 (#33736)
E731: 在 Airflow providers 中,用 def 方法替换 lambda (#33757)
在 Airflow providers 中使用 f-string (#33752)
10.7.0¶
特性¶
添加 CloudRunHook 和 operators (#33067)
添加 'CloudBatchHook' 和 operators (#32606)
添加对 Google Cloud 的 Data Pipelines Run Operator 的支持 (#32846)
将参数 sftp_prefetch 添加到 SFTPToGCSOperator (#33274)
添加 Google Cloud 的 Data Pipelines Create Operator (#32843)
添加 Dataplex Data Quality operators。 (#32256)
Bug 修复¶
修复了当使用不同于 CSV 的格式时 BigQueryCreateExternalTableOperator 的问题 (#33540)
修复 DataplexDataQualityJobStatusSensor 并添加单元测试 (#33440)
避免在运行时和模块级别导入 pandas 和 numpy (#33483)
其他¶
将缺少的模板字段添加到 DataformCreateCompilationResultOperator (#33585)
整合 pandas 的导入和使用 (#33480)
从 datetime 导入 utc 并规范化其导入 (#33450)
10.6.0¶
特性¶
openlineage, bigquery: 为 BigQueryExecuteQueryOperator 添加 openlineage 方法支持 (#31293)
将 GCS Requester Pays bucket 支持添加到 GCSToS3Operator (#32760)
为 CloudDataTransferServiceGCSToGCSOperator 添加系统测试和文档 (#32960)
为SQL运算符添加一个新参数,以指定conn id字段(#30784)
Bug 修复¶
修复 'DataFusionAsyncHook' 捕获 404 错误 (#32855)
修复 MetastoreHivePartitionSensor 的系统测试 (#32861)
修复捕获 409 错误 (#33173)
使 'sql' 成为 'BigQueryInsertJobOperator' 中的缓存属性 (#33218)
其他¶
refactor(providers.google): 对 DATAPROC_JOB_LOG_LINK 使用模块级别的 __getattr__ 到 DATAPROC_JOB_LINK 并添加弃用警告 (#33189)
10.5.0¶
新特性¶
openlineage, gcs: 为 GcsToGcsOperator 添加 openlineage 方法 (#31350)
使用 Dataproc Operators 添加 Spot 实例支持 (#31644)
将 sqlalchemy-spanner 包安装到 Google provider 中 (#31925)
过滤和排序 DataprocListBatchesOperator 的结果 (#32500)
Bug 修复¶
修复 BigQueryGetDataOperator 在 deferrable 模式下不遵守 project_id 的问题 (#32488)
刷新 GKE OAuth2 令牌 (#32673)
修复 'BigQueryInsertJobOperator' 没有退出 deferred 状态 (#31591)
其他¶
修复已弃用的 DataprocSubmitSparkJobOperator 的文档字符串,并重构系统测试 (#32743)
为 DbApiHook.run 方法添加更准确的类型提示 (#31846)
将弃用信息添加到 providers 模块和类的文档字符串中 (#32536)
修复已弃用的 DataprocSubmitHiveJobOperator 的文档字符串 (#32723)
修复已弃用的 DataprocSubmitPigJobOperator 的文档字符串 (#32739)
修复 Datafusion 系统测试 (#32749)
10.4.0¶
新特性¶
为 S3ToGCSOperator 实现 deferrable 模式 (#29462)
Bug 修复¶
当复制文件到没有通配符的文件夹时,修复 GCSToGCSOperator (#32486)
修复 'GCSHook' 中 upload 函数的 'cache_control' 参数 (#32440)
修复 BigQuery transfer operators 以遵守 project_id 参数 (#32232)
修复在空列表上 gcp_gcs_delete_objects 的问题 (#32383)
修复 cloud_build 中 defer 的无限循环问题 (#32387)
修复 GCSToGCSOperator 在没有通配符且 exact_match=True 的情况下的复制问题 (#32376)
其他¶
允许提供目标文件夹 (#31885)
将 'AzureBlobStorageToGCSOperator' 从 Azure 移动到 Google provider (#32306)
在 BigQueryInsertJobOperator 中提供更好的 job configuration docs 链接 (#31736)
10.3.0¶
新特性¶
将 'on_finish_action' 添加到 'KubernetesPodOperator' (#30718)
将 deferrable 模式添加到 CloudSQLExportInstanceOperator (#30852)
将 'src_fmt_configs' 添加到模板字段列表中 (#32097)
Bug 修复¶
[Issue-32069] 修复批量请求中的名称格式 (#32070)
修复 'BigQueryInsertJobOperator' 在 deferrable 模式下的错误处理 (#32034)
修复 'BigQueryConsoleLink' 中的 'BIGQUERY_JOB_DETAILS_LINK_FMT' (#31953)
使 DataprocCreateBatchOperator 的 deferrable 版本能够处理已存在的 batch_id (#32216)
其他¶
将 Google Ads API 版本从 v13 切换到 v14 (#32028)
弃用 GCS 中的 'delimiter' 参数和源对象的通配符,引入 'match_glob' 参数 (#31261)
重构 GKECreateClusterOperator 的 body 验证 (#31923)
优化 'BigQueryValueCheckOperator' 的 deferrable 模式执行 (#31872)
添加 default_deferrable 配置 (#31712)
10.2.0¶
注意
此版本放弃了对 Python 3.7 的支持
新特性¶
在循环中生成事件时添加 return 以停止执行 (#31985)
将 deferrable 模式添加到 PubsubPullSensor (#31284)
添加一个新参数,以在 'BaseSQLToGCSOperator' 中设置 parquet 行组大小 (#31831)
将 'cacheControl' 字段添加到 google cloud storage (#31338)
将 'preserveAsciiControlCharacters' 添加到 'src_fmt_configs' (#31643)
将 credential configuation 文件身份验证支持添加到 Google Secrets Manager secrets 后端 (#31597)
将 credential configuration 文件支持添加到 Google Cloud Hook (#31548)
将 deferrable 模式添加到 'GCSUploadSessionCompleteSensor' (#31081)
在 DataflowStartFlexTemplateOperator 中添加 append_job_name 参数 (#31511)
FIPS 环境:将 md5 的使用标记为“不用于安全目的” (#31171)
实现 MetastoreHivePartitionSensor (#31016)
Bug 修复¶
Bigquery: 修复已存在的表和数据集的链接 (#31589)
为 TabularDataset 提供缺少的 project id 和 creds (#31991)
其他¶
优化 'DataprocSubmitJobOperator' 的 deferrable 模式执行 (#31317)
优化 可延期模式 执行 ,针对 'BigQueryInsertJobOperator' (#31249)
移除 在 yield from triggers 类 后的 return 语句 (#31703)
用 标准 csv 库 替换 unicodecsv (#31693)
优化 可延期模式 (#31758)
移除 Python 3.7 支持 (#30963)
10.1.1¶
Bug修复¶
修复 通过 私有 端点 在 'GKEStartPodOperator' 中 访问 GKE 集群 的问题 (#31391)
修复 'BigQueryGetDataOperator' 在 可延期模式 下的 查询 作业 错误 (#31433)
10.1.0¶
注意
正如 Apache Airflow providers 支持策略中所述,此 provider 版本仅适用于 Airflow 2.4+。
注意
此版本将默认的 Google Ads 更新为 v13。由于 Google 已弃用 v12 并且即将删除它,因此我们不认为这是 Airflow 中的一项重大更改。
注意
此版本的 provider 更新了许多 Google 包。请查看包更改日志
特性¶
添加 可延期模式 到 DataprocInstantiateInlineWorkflowTemplateOperator (#30878)
添加 可延期模式 到 'GCSObjectUpdateSensor' (#30579)
添加 协议 来 定义 KubernetesPodOperator 依赖的 方法 (#31298)
添加 BigQueryToPostgresOperator (#30658)
Bug修复¶
'DataflowTemplatedJobStartOperator' 修复了 当 提供了 区域时, 用 默认值 覆盖 location 的问题。 (#31082)
在 为 GCSObjectsWithPrefixExistenceSensor 延期 之前 先 轮询 一次 (#30939)
添加 可延期模式 到 'GCSObjectsWithPrefixExistenceSensor' (#30618)
允许 在 gcs 删除/列表 hooks 和 operators 中使用 多个 前缀 (#30815)
修复 在 可延期 GCS 传感器中 删除的 delegate_to 参数 (#30810)
其他¶
添加 'use_legacy_sql' 参数 到 'BigQueryGetDataOperator' (#31190)
添加 'as_dict' 参数 到 'BigQueryGetDataOperator' (#30887)
添加 标记 apply_gcs_prefix 到 S3ToGCSOperator (b/245077385) (#31127)
添加 'priority' 参数 到 BigQueryHook (#30655)
提升 providers 中的 最低 Airflow 版本 (#30917)
为 BigQueryCreateExternalTableOperator 实现 gcs_schema_object (#30961)
优化 延迟 执行 模式 (#30946)
优化 可延期模式 执行 (#30920)
优化 在 'GCSObjectExistenceSensor' 中的 可延期模式 (#30901)
'CreateBatchPredictionJobOperator' 为 Vertex AI BatchPredictionJob 对象 添加 batch_size 参数 (#31118)
GKEPodHook 需要 具有 KPO 调用的 所有 方法 (#31266)
添加 CloudBuild 构建 id 日志 (#30516)
将 默认 Google ads 切换到 v13 (#31382)
切换到 google ads v13 (#31369)
更新 google provider 包的 SDK (#30067)
10.0.0¶
重大更改¶
Google 宣布将于 2023 年 4 月 20 日停止 Campaign Manager 360 v3.5。有关更多信息,请查看:https://developers.google.com/doubleclick-advertisers/deprecation 。因此,Campaign Manager 360 operator 的默认 api 版本已更新为最新的 v4 版本。
警告
在此版本的 provider 中,已从所有 GCP operators、hooks 和 triggers 中删除已弃用的 delegate_to
参数,以及与 GCS 交互的 firestore 和 gsuite transfer operators。可以通过使用 impersonation_chain
参数来实现模拟。delegate_to
参数仍仅在 gsuite 和 marketing platform hooks 和 operators 中可用,它们不与 Google Cloud 交互。
从 GCP operators 和 hooks 中 移除 delegate_to (#30748)
更新 Google Campaign Manager360 operators 以使用 API v4 (#30598)
Bug修复¶
更新 DataprocCreateCluster operator 以正确使用 'label' 参数 (#30741)
其他¶
在 BigQueryGetDataOperator 中 添加 缺失的 project_id (#30651)
展示 Video 360 清理 v1 API 用法 (#30577)
9.0.0¶
重大更改¶
Google 宣布将于 2023 年 4 月 27 日停止 Bid manager API v1 和 v1.1,有关更多信息,请查看:docs 因此,GoogleDisplayVideo360Hook 和相关 operators 中的 api_version 默认值已更新为 v2
此版本的 provider 包含一个临时解决方法,用于解决 google-ads API 的 v11
版本已停止使用的问题,而 google provider 依赖项阻止安装任何支持 v12
API 的 google-ads 客户端。此版本包含 google-ads 库的内置版本 20.0.0
,仅支持 v12。一旦 provider 的依赖项允许使用支持更新版本的 google-ads API 的 google-ads,此解决方法(和内置库)将被删除。
注意
仅支持 google ads 的 v12 版本。创建 operator 或客户端时,应设置 v12。
更新 DV360 operators 以使用 API v2 (#30326)
修复 google ads 内置库中的 动态 导入 (#30544)
修复 vendored-in google ads 所需的 另一个 动态 导入 (#30564)
特性¶
添加 可延期模式 到 GKEStartPodOperator (#29266)
Bug修复¶
BigQueryHook list_rows/get_datasets_list 可以返回 迭代器 (#30543)
修复 云 构建 异步 凭据 (#30441)
8.12.0¶
特性¶
在 Bigquery operator 中 添加 缺失的 'poll_interval' (#30132)
在 BigQueryInsertJobOperator 中添加 poll_interval 参数 (#30091)
添加 'job_id' 到 'BigQueryToGCSOperator' templated_fields (#30006)
支持 在 使用 远程 日志记录 时 删除 本地 日志 文件 (#29772)
Bug 修复¶
修复 设置 gs 到 bq 和 bq 到 gs 的 project_id (#30053)
修复 云构建 操作符上的 location (#29937)
'GoogleDriveHook': 修复 日志 消息 + 添加 更详细的 文档 (#29694)
将 "BOOLEAN" 添加到 MSSQLToGCSOperator 的 type_map,修复 不正确的 bit->int 类型 转换,通过 显式指定 BIT 字段 (#29902)
Google Cloud Providers - 修复 _MethodDefault deepcopy 失败 (#29518)
处理 异步 BigQuery dts 触发器上的 项目 location 参数 (#29786)
支持 CloudDataTransferServiceJobStatusSensor 而不指定 project_id (#30035)
在 正常 模式下 等待 insert_job 结果 (#29925)
其他¶
将 BigQueryTableExistenceAsyncSensor 合并到 BigQueryTableExistenceSensor (#30235)
从 google provider 中删除 不必要的 上限 约束 (#29915)
将 BigQueryTableExistencePartitionAsyncSensor 合并到 BigQueryTableExistencePartitionSensor (#30231)
将 GCSObjectExistenceAsyncSensor 逻辑 合并到 GCSObjectExistenceSensor (#30014)
将 cncf provider 文件名 与 AIP-21 对齐 (#29905)
切换到 使用 供应商提供的 google ads。 (#30410)
合并 google ads 供应商提供的 代码。 (#30399)
8.11.0¶
特性¶
为 BigQueryTablePartitionExistenceSensor 添加 可延期 模式。 (#29735)
为 BigQuery 操作符添加 一个 新 参数,以 支持 资源 存在时的 其他 操作 (#29394)
为 DataprocInstantiateWorkflowTemplateOperator 添加 可延期 模式 (#28618)
Dataproc 批处理 (#29136)
添加 'CloudSQLCloneInstanceOperator' (#29726)
Bug 修复¶
修复 'NoneType' 对象 不可下标。 (#29820)
修复 并 增强 'check-for-inclusive-language' CI 检查 (#29549)
不要 在 BigQueryCreateDataTransferOperator 的 XCOM 中推送 secret (#29348)
其他¶
Google Cloud Providers - 引入 GoogleCloudBaseOperator (#29680)
更新 google cloud dlp 包,并调整 hook 和 operators (#29234)
重构 Dataproc 触发器 (#29364)
删除 google-cloud-bigtable 上的 <2.0.0 限制 (#29644)
将 帮助 消息 移动到 google auth 代码 (#29888)
8.10.0¶
特性¶
为 GKECreateClusterOperator 和 GKEDeleteClusterOperator 添加 延迟 模式 (#28406)
Bug 修复¶
将 cloud_sql_binary_path 从 connection 移动到 Hook (#29499)
检查 cloud sql provider 版本是否有效 (#29497)
'GoogleDriveHook': 为 upload_file 添加 folder_id 参数 (#29477)
其他¶
为 BigQuery 传输 操作符添加 文档 (#29466)
8.9.0¶
特性¶
为现有 ''DataprocDeleteClusterOperator'' 添加 可延期 功能 (#29349)
为 dataflow 操作符添加 可延期 模式 (#27776)
为 DataprocCreateBatchOperator 添加 可延期 模式 (#28457)
为 DataprocCreateClusterOperator 和 DataprocUpdateClusterOperator 添加 可延期 模式 (#28529)
为 MLEngineStartTrainingJobOperator 添加 可延期 模式 (#27405)
为 DataFusionStartPipelineOperator 添加 可延期 模式 (#28690)
为 Big Query Transfer 操作符添加 可延期 模式 (#27833)
添加 对 BaseSQLToGCSOperator 中 write_on_empty 的支持 (#28959)
添加 DataprocCancelOperationOperator (#28456)
启用 单独的 触发器 日志记录 (#27758)
Auto ML 资产 (#25466)
Bug 修复¶
修复 GoogleDriveHook 在上传 v2 时将文件写入已放入回收站的文件夹 (#29119)
修复 Google provider CHANGELOG.rst (#29122)
修复 Google provider CHANGELOG.rst (#29114)
Keyfile dict 可以是 dict 而不是 str (#29135)
GCSTaskHandler 可能使用 远程 日志 conn id (#29117)
其他¶
弃用 GCP 操作符中的 'delegate_to' 参数并更新文档 (#29088)
8.8.0¶
特性¶
添加 可延期 ''GCSObjectExistenceSensorAsync'' (#28763)
支持 BaseSQLToGCSOperator 中的 partition_columns (#28677)
Bug 修复¶
'BigQueryCreateExternalTableOperator' 修复了 字段 分隔符 不适用于 csv 的问题 (#28856)
修复了使用私有 _get_credentials 而不是公共 get_credentials 的问题 (#28588)
修复了 'QUEUED' 状态的 'GoogleCampaignManagerReportSensor' (#28735)
修复了 BigQueryColumnCheckOperator 运行时错误 (#28796)
将 "datasetReference" 属性分配给 dataset_reference dict。 如果 在 bigquery hook 的 create_empty_dataset 方法中尚未设置,则默认使用 (#28782)
8.7.0¶
特性¶
将 table_resource 添加到 template 字段中, 用于 BigQueryCreateEmptyTableOperator (#28235)
在 GCSObjectExistenceSensor 中添加 retry 参数 (#27943)
将 preserveAsciiControlCharacters 添加到 src_fmt_configs (#27679)
将 deferrable 模式 添加到 CloudBuildCreateBuildOperator (#27783)
GCSToBigQueryOperator 允许 自动检测 None 并推断 schema (#28564)
改进 Dataproc deferrable operators 中的 内存 使用 (#28117)
为 dataproc submit job op 推送 job_id 到 xcom (#28639)
Bug修复¶
修复了 GCSToBigQueryOperator 中读取 JSON 文件的 schema 字段的问题 (#28284)
修复 GCSToBigQueryOperator 不遵守 schema_obj 的问题 (#28444)
修复 GCSToGCSOperator 复制不带 通配符的 对象列表 的问题 (#28111)
修复: 重新启用 在 gcs_to_bq 中使用参数, 之前已被禁用 (#27961)
正确设置 bigquery ''use_legacy_sql'' 参数 在 job config 中 (#28522)
其他¶
删除 'pylint' 消息 控制 指令 (#28555)
从 google/provider.yaml 删除已弃用的 AIPlatformConsoleLinkk (#28449)
在 config.yml 中使用 object 代替 array 作为 config template (#28417)
[misc] 移除 conditions 中的 'pass' 语句 (#27775)
当 google secret manager 找不到 secret 时, 将 log 级别更改为 DEBUG (#27856)
[misc] 在 providers 中使用 'exactly_one' 辅助函数替换 XOR '^' 条件 (#27858)
8.6.0¶
特性¶
无论 job 状态如何,都为 workflow operators 保留 DataprocLink (#26986)
BigQueryToGCSOperator 的可延迟 模式 (#27683)
在 BigQueryToGCSOperator 中的 模板 字段中添加 导出 格式 (#27910)
Bug修复¶
修复 BigQueryToBigQueryOperator 中正确读取 location 参数的问题 (#27661)
将 common.sql provider 升级到 1.3.1 (#27888)
8.5.0¶
注意
正如 Apache Airflow providers 支持策略中所述,此 provider 版本仅适用于 Airflow 2.3+
其他¶
将 所有 providers 的最小 airflow 版本移动到 2.3.0 (#27196)
将 hook bigquery 函数 '_bq_cast' 重命名为 'bq_cast' (#27543)
在 BigQueryHook 中使用非弃用方法 on_kill (#27547)
类型转换 biquery job response col value (#27236)
删除 google-cloud-storage 上 <2 的限制 (#26922)
将 urlparse 替换为 urlsplit (#27389)
特性¶
当在环境变量或 secrets backend 中定义连接时,之前 extra
字段需要使用前缀 extra__google_cloud_platform__
定义。现在不再需要了。因此,例如,您可以将 keyfile json 存储为 keyfile_dict
而不是 extra__google_cloud_platform__keyfile_dict
。如果两者都存在,则优先使用短名称。
添加与旧版本的 Apache Beam 的向后兼容性 (#27263)
为 GCSToBigQueryOperator 添加 deferrable 模式 + 测试 (#27052)
在新方法中为 Vertex AI operators 添加系统测试 (#27053)
Dataform operators、链接、更新系统测试和文档 (#27144)
允许 WorkflowsCreateExecutionOperator execution 参数中的值是字典 (#27361)
DataflowStopJobOperator Operator (#27033)
允许覆盖 Postgres 中 json/jsonb 列数据类型的 stringify_dict #26875 (#26876)
允许并优先使用 dataprep hook 的非前缀 extra 字段 (#27039)
更新 google hooks 以优先使用非前缀 extra 字段 (#27023)
Bug修复¶
添加新的 Compute Engine Operators 并修复系统测试 (#25608)
Common sql bugfixes 和改进 (#26761)
修复 Dataproc CreateBatch operator 中的延迟 (#26126)
删除 signature 中单个参数周围的不必要换行符 (#27525)
取消 BigQuery job 时,设置 project_id 和 location (#27521)
使用正确的 key 来检索 dataflow job_id (#27336)
当没有值时,使 GSheetsHook 返回一个空列表 (#27261)
Cloud ML Engine operators assets (#26836)
8.4.0¶
特性¶
添加 BigQuery 列和表检查 Operators (#26368)
添加 deferrable big query operators 和 sensors (#26156)
将 'output' 属性添加到 MappedOperator (#25604)
为 DataflowTemplatedJobStartOperator 添加 append_job_name 参数 (#25746)
在 GoogleDriveHook 中添加一个参数用于排除已放入回收站的文件 (#25675)
云数据防丢失 (Data Loss Prevention) 操作符资产 (#26618)
云存储转移 (Storage Transfer) 操作符资产 & 系统测试迁移 (AIP-47) (#26072)
将可延期的 (deferrable) BigQuery 操作符合并到现有操作符中 (#26433)
在 delete/create cluster 中调用 wait_for_operation 时指定 project id (#26418)
在 Web UI 中自动跟踪文件日志 (#26169)
云函数 (Cloud Functions) 操作符资产 & 系统测试迁移 (AIP-47) (#26073)
GCSToBigQueryOperator 解决 'max_id_key' 作业检索和 xcom 返回问题 (#26285)
允许覆盖 BaseSQLToGCSOperator 上 json 导出格式的 'stringify_dict' (#26277)
在链接类中附加 GoogleLink 基础链接 (#26057)
云视频智能 (Cloud Video Intelligence) 操作符资产 & 系统测试迁移 (AIP-47) (#26132)
生命科学 (Life Science) 资产 & 系统测试迁移 (AIP-47) (#25548)
GCSToBigQueryOperator 允许 schema_object 位于备用 GCS Bucket 中 (#26190)
在可延期模式下,为 Composer 操作符使用 AsyncClient (#25951)
使用 project_id 获取已认证的客户端 (#25984)
云构建 (Cloud Build) 资产 & 系统测试迁移 (AIP-47) (#25895)
Dataproc 提交作业操作符异步 (#25302)
在 BigQueryGetDataOperator 中支持 project_id 参数 (#25782)
Bug 修复¶
修复 Datafusion 操作符中的 JSONDecodeError (#26202)
修复 CreateWorkflowInvocation 中永不结束的循环 (#25737)
更新 gcs.py (#26570)
当 BQ cursor 作业没有 schema 时,不要抛出异常 (#26096)
用于队列为空的 Google Cloud Tasks Sensor (#25622)
更正传输配置名称。 (#25719)
修复 BigQuery 结果 Schema 中可选 'mode' 字段的解析 (#26786)
修复 GCSToBigQueryOperator 的 MaxID 逻辑 (#26768)
其他¶
Sql to GSC 操作符更新 parquet 格式的文档 (#25878)
限制 Google Protobuf,以兼容 biggtable 客户端 (#25886)
使 GoogleBaseHook 凭证函数公开 (#25785)
整合到一个 'schedule' 参数 (#25410)
8.3.0¶
新特性¶
在 BigQueryCursor 类中添加 description 方法 (#25366)
在两个 BQ 操作符中添加 project_id 作为模板变量 (#24768)
删除 Amazon provider 中已弃用的模块 (#25543)
将所有 "旧" SQL 操作符移动到 common.sql providers (#25350)
使用 ParamSpec 改进 taskflow 类型提示 (#25173)
使用覆盖它的方法统一 DbApiHook.run() 方法 (#23971)
为 ParamSpec 提升 typing-extensions 和 mypy (#25088)
弃用 hql 参数并同步 DBApiHook 方法 API (#25299)
Dataform 操作符 (#25587)
Bug 修复¶
修复 GCSListObjectsOperator 文档字符串 (#25614)
修复 BigQueryInsertJobOperator cancel_on_kill (#25342)
修复 BaseSQLToGCSOperator approx_max_file_size_bytes (#25469)
修复 PostgresToGCSOperat bool dtype (#25475)
修复 Vertex AI 自定义作业训练问题 (#25367)
修复 Flask Login 用户设置为 Flask 2.2 和 Flask-Login 0.6.2 (#25318)
8.2.0¶
新特性¶
PubSub 资产 & 系统测试迁移 (AIP-47) (#24867)
添加对现有 Dataproc 批处理状态的处理 (#24924)
为 Google Kubernetes Engine 操作符添加链接 (#24786)
向 'GoogleBaseHook' 添加 test_connection 方法 (#24682)
将 gcp_conn_id 参数添加到 GoogleDriveToLocalOperator (#24622)
为 AutoML 中的 column_transformations 参数添加 DeprecationWarning (#24467)
修改 BigQueryCreateExternalTableOperator 以使用更新后的 hook 函数 (#24363)
将所有 SQL 类移动到 common-sql provider (#24836)
Datacatalog 资产 & 系统测试迁移 (AIP-47) (#24600)
将 FAB 升级到 4.1.1 (#24399)
Bug 修复¶
GCSDeleteObjectsOperator 空前缀 bug 修复 (#24353)
perf(BigQuery): 将 table_id 作为 str 类型传递 (#23141)
更新 providers 以使用 functools compat for ''cached_property'' (#24582)
8.1.0¶
新特性¶
将 Oracle 库更新到最新版本 (#24311)
公开 SQL to GCS 元数据 (#24382)
Bug 修复¶
修复 google provider additional extras 中的拼写错误 (#24431)
在 BigQueryToGCPOpertor 中使用 insert_job 并调整链接 (#24416)
8.0.0¶
重大变更¶
注意
此 provider 版本仅适用于 Airflow 2.2+,如 Apache Airflow providers 支持策略中所述。
功能特性¶
添加 key_secret_project_id 参数,用于指定包含 KeyFile 的项目 (#23930)
为 DataflowStartFlexTemplateOperator 和 DataflowStartSqlJobOperator 添加了 impersonation_chain (#24046)
向 CLOUD_SQL_EXPORT_VALIDATION 添加 字段。 (#23724)
在使用 Compute Engine 中的 ADC 时,更新 凭据 (#23773)
在 cloud_sql.py 中,为 operators 设置 颜色 (#24000)
从 SQL 到 GCS,支持 排除 列 (#23695)
[Issue#22846] 允许选择是否对UUID进行编码,当从Cassandra上传到GCS时 (#23766)
工作流资产&系统测试迁移(AIP-47) (#24105)
Spanner 资产 & 系统 测试 迁移 (AIP-47) (#23957)
语音 转 文本 资产 & 系统 测试 迁移 (AIP-47) (#23643)
Cloud SQL 资产 & 系统 测试 迁移 (AIP-47) (#23583)
Cloud Storage 资产 & StorageLink 更新 (#23865)
Bug 修复¶
修复 BigQueryInsertJobOperator (#24165)
修复指向googleworkplace的链接 (#24080)
修复 DataprocJobBaseOperator 与 点式 名称 不兼容的问题 (#23439). (#23791)
从 BigQuery DTS hook 中 删除 hack (#23887)
修复 GCSToGCSOperator 无法 复制 单个 文件/文件夹,而不会复制 具有 该 前缀的 其他 文件/文件夹的问题 (#24039)
解决 biguery 到 gcs 传输 的 job 竞争 bug (#24330)
其他¶
修复 BigQuery 系统 测试 (#24013)
确保 @contextmanager 修饰 生成器 函数 (#23103)
将 Dataproc 迁移到 新的 系统 测试 设计 (#22777)
AIP-47 - 将 google leveldb DAG 迁移到 新的 设计 ##22447 (#24233)
将 per-run 日志 模板 应用于 日志 处理程序 (#24153)
7.0.0¶
重大更改¶
从 PubSub operators 中 删除 已弃用的 参数: (#23261)
升级以支持GoogleAdsv10 (#22965)
'DataprocJobBaseOperator' 更改 (#23350)
'DataprocJobBaseOperator': 参数 的 顺序 已更改。
'region' 参数 没有 默认值 受影响的函数/类: 'DataprocHook.cancel_job' 'DataprocCreateClusterOperator' 'DataprocJobBaseOperator'
'DatastoreHook': 删除 'datastore_conn_id'。 请使用 'gcp_conn_id' (#23323)
'CloudBuildCreateBuildOperator': 删除 'body'。 请使用 'build' (#23263)
副本 集群 id 删除 (#23251)
'BigtableCreateInstanceOperator' 删除 'replica_cluster_id', 'replica_cluster_zone'。 请使用 'replica_clusters'
'BigtableHook.create_instance': 删除 'replica_cluster_id', 'replica_cluster_zone'。 请使用 'replica_clusters'
删除 参数 (#23230)
'GoogleDisplayVideo360CreateReportOperator': 删除 'params'。 请使用 'parameters'
'FacebookAdsReportToGcsOperator': 删除 'params'。 请使用 'parameters'
'GoogleDriveToGCSOperator': 删除 'destination_bucket' 和 'destination_object'。 请使用 'bucket_name' 和 'object_name' (#23072)
'GCSObjectsWtihPrefixExistenceSensor' 已删除。 请使用 'GCSObjectsWithPrefixExistenceSensor' (#23050)
删除 'project': (#23231)
'PubSubCreateTopicOperator': 删除 'project'。 请使用 'project_id'
'PubSubCreateSubscriptionOperator': 删除 'topic_project'。 请使用 'project_id'
'PubSubCreateSubscriptionOperator': 删除 'subscription_project'。 请使用 'subscription_project_id'
'PubSubDeleteTopicOperator': 删除 'project'。 请使用 'project_id'
'PubSubDeleteSubscriptionOperator': 删除 'project'。 请使用 'project_id'
'PubSubPublishMessageOperator': 删除 'project'。 请使用 'project_id'
'PubSubPullSensor': 删除 'project'。 请使用 'project_id'
'PubSubPullSensor': 删除 'return_immediately'
删除 'location' - 已替换为 'region' (#23250)
'DataprocJobSensor': 删除 'location'。 请使用 'region'
'DataprocCreateWorkflowTemplateOperator': 删除 'location'。 请使用 'region'
'DataprocCreateClusterOperator': 删除 'location'。 请使用 'region'
'DataprocSubmitJobOperator': 删除 'location'。 请使用 'region'
'DataprocHook': 删除 'location' 参数。 请使用 'region'
受影响的函数有:
'cancel_job'
'create_workflow_template'
'get_batch_client'
'get_cluster_client'
'get_job'
'get_job_client'
'get_template_client'
'instantiate_inline_workflow_template'
'instantiate_workflow_template'
'submit_job'
'update_cluster'
'wait_for_job'
'DataprocHook': 'wait_for_job' 函数中 参数的顺序 已更改
'DataprocSubmitJobOperator': 参数的顺序 已更改。
移除 xcom_push (#23252)
'CloudDatastoreImportEntitiesOperator': 删除 'xcom_push'。 请使用 'BaseOperator.do_xcom_push'
'CloudDatastoreExportEntitiesOperator': 移除 'xcom_push'。 请使用 'BaseOperator.do_xcom_push'。
'bigquery_conn_id' 和 'google_cloud_storage_conn_id' 已被移除。 请使用 'gcp_conn_id' (#23326)
.受影响的类:
'BigQueryCheckOperator'
'BigQueryCreateEmptyDatasetOperator'
'BigQueryDeleteDatasetOperator'
'BigQueryDeleteTableOperator'
'BigQueryExecuteQueryOperator'
'BigQueryGetDataOperator'
'BigQueryHook'
'BigQueryIntervalCheckOperator'
'BigQueryTableExistenceSensor'
'BigQueryTablePartitionExistenceSensor'
'BigQueryToBigQueryOperator'
'BigQueryToGCSOperator'
'BigQueryUpdateTableSchemaOperator'
'BigQueryUpsertTableOperator'
'BigQueryValueCheckOperator'
'GCSToBigQueryOperator'
'ADLSToGCSOperator'
'BaseSQLToGCSOperator'
'CassandraToGCSOperator'
'GCSBucketCreateAclEntryOperator'
'GCSCreateBucketOperator'
'GCSDeleteObjectsOperator'
'GCSHook'
'GCSListObjectsOperator'
'GCSObjectCreateAclEntryOperator'
'GCSToBigQueryOperator'
'GCSToGCSOperator'
'GCSToLocalFilesystemOperator'
'LocalFilesystemToGCSOperator'
'S3ToGCSOperator': 移除 'dest_gcs_conn_id'。 请使用 'gcp_conn_id' (#23348)
'BigQueryHook' 变更 (#23269)
'BigQueryHook.create_empty_table' 移除 'num_retries'。 请使用 'retry'
'BigQueryHook.run_grant_dataset_view_access' 移除 'source_project'。 请使用 'project_id'
'DataprocHook': 移除已弃用的函数 'submit' (#23389)
功能¶
[功能] google provider - BigQueryInsertJobOperator 日志查询 (#23648)
[功能] google provider - 拆分 GkeStartPodOperator 执行 (#23518)
添加 exportContext.offload 标志到 CLOUD_SQL_EXPORT_VALIDATION。 (#23614)
为 BiqTable 操作符创建链接 (#23164)
实现 #22859 - 添加 .sql 作为可模板化的扩展 (#22920)
'GCSFileTransformOperator': 新的模板化字段 'source_object', 'destination_object' (#23328)
Bug 修复¶
修复 'PostgresToGCSOperator' 不允许嵌套的 JSON (#23063)
修复 GCSToGCSOperator 忽略 replace 参数,当没有通配符时 (#23340)
更新 processor 以修复损坏的下载链接 (#23299)
'LookerStartPdtBuildOperator', 'LookerCheckPdtBuildSensor' : 修复空的物化 id 处理 (#23025)
更改 ComputeSSH 抛出 provider 导入错误,而不是 paramiko (#23035)
修复 DataprocSubmitJobOperator 在执行超时后 cancel_on_kill (#22955)
修复 BigQueryGetDataOperator 的 select * 查询 xcom push (#22936)
MSSQLToGCSOperator 失败: datetime 不是 JSON 可序列化的 (#22882)
其他¶
添加 Stackdriver 资产并迁移系统测试到 AIP-47 (#23320)
CloudTasks 资产 & 系统测试迁移 (AIP-47) (#23282)
TextToSpeech 资产 & 系统测试迁移 (AIP-47) (#23247)
修复 google provider 中的代码片段 (#23438)
Bigquery 资产 (#23165)
移除 'BigQueryUpdateTableSchemaOperator' 中冗余的文档字符串 (#23349)
将 gcs 迁移到新的系统测试设计 (#22778)
在 'BigQueryHook.create_empty_table' 中添加缺失的文档字符串 (#23270)
清理 Google provider CHANGELOG.rst (#23390)
将系统测试 gcs_to_bigquery 迁移到新设计 (#22753)
添加用于演示 GCS 传感器用法的示例 DAG (#22808)
清理行内 f-string 连接 (#23591)
更新 pre-commit hook 版本 (#22887)
使用新的 Breese 来构建、拉取和验证镜像。 (#23104)
修复主分支中的新的 MyPy 错误 (#22884)
6.8.0¶
功能¶
在 BQCreateExternalTable Operator 中添加 autodetect 参数 (#22710)
为 BigQuery 数据传输添加链接 (#22280)
修改传输操作符以处理更多数据 (#22495)
为 Vertex AI 服务创建端点和服务模型、批量预测和超参数调整任务操作符 (#22088)
PostgresToGoogleCloudStorageOperator - 时区感知字段的 BigQuery schema 类型 (#22536)
更新 secrets 后端以使用 get_conn_value 代替 get_conn_uri (#22348)
Bug 修复¶
修复文档字符串 (#22497)
修复 'GoogleDisplayVideo360SDFtoGCSOperator' 中的 'download_media' 链接 (#22479)
修复 'CloudBuildRunBuildTriggerOperator' 无法找到 build id。 (#22419)
如果 src 不存在,则 Fail ''LocalFilesystemToGCSOperator'' (#22772)
从 GCSTimeSpanFileTransformOperator 中移除 coerce_datetime 的用法 (#22501)
其他¶
重构: BigQuery 到 GCS Operator (#22506)
在 PubSub 操作符中移除对已弃用的操作符/参数的引用 (#22519)
系统测试的新设计 (#22311)
6.7.0¶
功能¶
将 dataflow_default_options 添加到 templated_fields (#22367)
添加 'LocalFilesystemToGoogleDriveOperator' (#22219)
向 BigQueryInsertJobOperator 添加超时和重试 (#22395)
Bug 修复¶
修复跳过非 GCS 定位的 jars (#22302)
[FIX] gcs operator 的 typo 文档 (#22290)
修复错误地为所有 provider 添加的 install_requires (#22382)
6.6.0¶
功能¶
支持 上传 更大 的文件 到 Google Drive (#22179)
更改 默认 的 'chunk_size' 为一个 清晰的 表示 & 添加 文档 (#22222)
添加 DataprocInstantiateInlineWorkflowTemplateOperator 的 指南 (#22062)
允许 使用 GCS Hook 上传 来 上传 元数据 (#22058)
添加 Dataplex 操作符 (#20377)
其他¶
添加 对 ARM 平台 的支持 (#22127)
在 PyPI 中 添加 Trove 分类器 (Framework :: Apache Airflow :: Provider)
使用 yaml safe load (#22091)
6.5.0¶
功能¶
添加 Looker PDT 操作符 (#20882)
添加 自动检测 参数 到 GCSToBigQueryOperator 中 的 外部 表 创建 (#21944)
添加 Dataproc 资产/链接 (#21756)
为 Vertex AI 服务 添加 Auto ML 操作符 (#21470)
添加 GoogleCalendarToGCSOperator (#20769)
使 project_id 参数 在 所有 dataproc 操作符 中 变为 可选 (#21866)
允许 在 更多 DataprocUpdateClusterOperator 字段 中使用 模板 (#21865)
Dataflow 资产 (#21639)
提取 ClientInfo 到 模块级别 (#21554)
Datafusion 资产 (#21518)
Dataproc 元数据存储 资产 (#21267)
标准化 BigQuery 传感器 中 的 *_conn_id 参数 (#21430)
缺陷修复¶
修复 bigquery_dts 参数 文档字符串 拼写错误 (#21786)
修复 当 use_server_side_cursor=True 时, PostgresToGCSOperator 在 空 结果集上 失败 (#21307)
修复 bigquery 示例 DAG 中 的 多 查询 场景 (#21575)
其他¶
支持 Python 3.10
取消固定 'google-cloud-memcache' (#21912)
取消固定 ''pandas-gbq'' 并 删除 未使用的 代码 (#21915)
抑制 来自 Bigquery 传输 的 hook 警告 (#20119)
6.4.0¶
功能¶
添加 与 Google 日历 集成 的 hook (#20542)
将 编码 参数 添加到 'GCSToLocalFilesystemOperator' 以修复 #20901 (#20919)
将 batch 作为 DataprocCreateBatchOperator 中的 模板化 字段 (#20905)
使 timeout 对于 wait_for_operation 变为 可选 (#20981)
添加
更多 SQL 模板 字段 渲染器 (#21237) 为 Vertex AI 服务 创建 CustomJob 和 Datasets 操作符 (#21253)
支持 将 文件 上传 到 Google 共享云盘 (#21319)
(providers_google) 在 bigquery 中 添加 位置 检查 (#19571)
添加 对 BeamGoPipelineOperator 的支持 (#20386)
Google Cloud Composer 操作符 (#21251)
在 BigQuery hook 中 启用 异步 作业 提交 (#21385)
如果 源文件 在 GCSToGCSOperator 中 不存在, 则 可以选择 引发 错误 (#21391)
缺陷修复¶
Cloudsql 导入 链接 修复。 (#21199)
修复 BigQueryDataTransferServiceHook.get_transfer_run() 请求 参数 (#21293)
:bug: (BigQueryHook) 修复 与 sqlalchemy 引擎 的 兼容性 (#19508)
其他¶
重构 操作符 链接 以避免 创建 ad hoc TaskInstances (#21285)
6.3.0¶
功能¶
向 bigquery 数据 传输 服务 添加 可选 位置 (#15088) (#20221)
添加 Google Cloud Tasks 操作指南 文档 (#20145)
为 MSSQL 到 Google Cloud Storage (GCS) 添加 示例 DAG (#19873)
支持 区域性 GKE 集群 (#18966)
在 KubernetesPodOperator 中 默认 删除 pod (#20575)
缺陷修复¶
修复 PubSubCreateSubscriptionOperator 的 文档字符串 (#20237)
修复 Dataproc Metastore 缺少 get_backup 方法 (#20326)
BigQueryHook 修复 run_load 文档 字符串 中的 拼写错误 (#19924)
修复 在 sftp_to_gcs 上传递 gzip 压缩 参数 的问题。 (#20553)
在 CloudSQL provider 中 切换到 httpx.get 调用 中的 follow_redirects (#20239)
避免 BigQuery 传输 操作符 中 的 弃用 警告 (#20502)
将 download_video 参数 更改为 resourceName (#20528)
修复 big query 到 mssql/mysql 传输 问题 (#20001)
修复 在 ''provide_authorized_gcloud'' 中 设置 项目 ID 的问题 (#20428)
其他¶
将 source_objects 数据类型 检查 移出 GCSToBigQueryOperator.__init__ (#20347)
在 Amazon Provider 中 组织 S3 类 (#20167)
提供者 facebook hook 多账户 (#19377)
移除已弃用的方法调用 (blob.download_as_string) (#20091)
从 GoogleDriveToGCSOperator 移除已弃用的 template_fields (#19991)
注意! apache-airflow-providers-facebook
和 apache-airflow-providers-amazon
的可选功能需要更新版本的提供者(如依赖项中所指定)
6.2.0¶
新特性¶
为 DataprocJobSensor 添加等待机制,以避免在作业不可用时出现 509 错误 (#19740)
在 GCP 连接中添加支持,以便从 Secret Manager 读取密钥 (#19164)
添加 dataproc metastore 运算符 (#18945)
为 GCloud Storage Transfer Service 运算符添加对 'path' 参数的支持 (#17446)
将 Google Marketing Platform 运算符中的 'bucket_name' 验证移出 '__init__' (#19383)
创建 dataproc serverless spark batches 运算符 (#19248)
更新 pipeline_timeout CloudDataFusionStartPipelineOperator (#18773)
在 GKEStartPodOperator 中支持 impersonation_chain 参数 (#19518)
Bug 修复¶
修复 GKEPodOperator 中合并错误的模拟 (#19696)
6.1.0¶
新特性¶
为查询的 'namespaceId' 添加值 (#19163)
添加 pre-commit hook 以检查文件中的常见拼写错误 (#18964)
在 CassandraToGCSOperator 中支持查询超时作为参数 (#18927)
更新 BigQueryCreateExternalTableOperator 文档和参数 (#18676)
替换 BigQueryToMsSqlOperator 的非属性 template_fields (#19052)
将 Dataproc 包升级到 3.0.0,并从 v1beta2 迁移到 v1 api (#18879)
在子进程中执行 beam 命令时使用 google cloud 凭据 (#18992)
替换 FacebookAdsReportToGcsOperator 的默认 api_version (#18996)
Dataflow 运算符 - 在 on_kill 方法中使用作业中的项目和位置。 (#18699)
Bug 修复¶
修复 CloudSQL Hook 中硬编码的 /tmp 目录 (#19229)
修复 Dataflow hook 中没有返回作业时的错误 (#18981)
修复 BigQueryToMsSqlOperator 文档 (#18995)
将模板化输入参数的验证移动到上下文初始化之后运行 (#19048)
Google provider 捕获无效的 secret 名称 (#18790)
6.0.0¶
重大变更¶
将 Google Cloud Build 从 Discovery API 迁移到 Python SDK (#18184)
新特性¶
将索引添加到数据集名称,以便为每个示例 DAG 拥有单独的数据集 (#18459)
为某些测试包添加缺少的 __init__.py 文件 (#18142)
添加从系统测试运行 DAG 并查看 DAG 日志的可能性 (#17868)
将 AzureDataLakeStorage 重命名为 ADLS (#18493)
使 next_dagrun_info 接受数据间隔 (#18088)
使用 parameters 代替 params (#18143)
新的 google 运算符: SQLToGoogleSheetsOperator (#17887)
Bug 修复¶
修复 Google 系统测试的一部分 (#18494)
修复 kubernetes engine 系统测试 (#18548)
修复 BigQuery 系统测试 (#18373)
修复使用表资源创建外部表时出现的错误 (#17998)
修复 ''BigQueryToMySqlOperator'' 中 ''BigQuery'' 数据提取 (#18073)
使用 eager 升级修复 main 分支中的 providers 测试 (#18040)
fix(CloudSqlProxyRunner): 不要从 Airflow DB 查询连接 (#18006)
删除 GCSToBigquery 中至少一个 schema 的检查 (#18150)
在 BigQueryInsertJobOperator 上删除重复的运行作业 (#17496)
5.1.0¶
新特性¶
在 GKEStartPodOperator 中为 config_file 参数添加错误检查 (#17700)
Gcp ai 超参数调整 (#17790)
如果指定了 'node_pools',则允许省略 'initial_node_count' (#17820)
[Airflow 13779] 在 wait_for_pipeline_state hook 中使用提供的参数 (#17137)
在 'template_fields_renderers' 中启用指定字典路径 (#17321)
不要缓存 Google Secret Manager 客户端 (#17539)
[AIRFLOW-9300] 添加 DatafusionPipelineStateSensor 和 aync 选项 到 CloudDataFusionStartPipelineOperator (#17787)
Bug 修复¶
GCP Secret Manager 处理 缺失 凭据的 错误 (#17264)
其他¶
优化 Airflow 2.2.0 的 连接 导入
添加 secrets 后端/日志/身份验证 信息 到 provider yaml 中 (#17625)
5.0.0¶
重大变更¶
更新 GoogleAdsHook 以支持 较新的 API 版本, 在 google 弃用 v5 之后。 Google Ads v8 是 新的 默认 API。 (#17111)
Google Ads Hook: 支持 google-ads 库的 较新 版本 (#17160)
警告
底层 google-ads 库有重大变更。
以前,google ads 库将数据作为原生 protobuf 消息返回。 现在它将数据作为 proto-plus 对象返回,这些对象更像传统的 Python 对象。
为了保持兼容性,hook 的 search()
将数据转换回原生 protobuf 然后再返回。 您现有的运算符 *应该* 像以前一样工作,但由于 v5 API 被弃用的紧迫性,因此没有经过非常彻底的测试。 因此,您应该仔细评估此新版本的运算符和 hook 功能。
为了使用 API 的新 proto-plus 格式,您可以使用 search_proto_plus()
方法。
有关更多信息,请参阅 google-ads 迁移文档
功能¶
将 dataproc 位置 参数 标准化为 区域 (#16034)
添加 自定义 Salesforce 连接 类型 + SalesforceToS3Operator 更新 (#17162)
Bug 修复¶
更新 Google Memmcache 中 field_mask 的 别名 (#16975)
fix: dataprocpysparkjob project_id 作为 self.project_id (#17075)
修复 GCStoGCS 运算符, 其中 replace 禁用, 并且存在 目标 对象 (#16991)
4.0.0¶
重大变更¶
自动应用 apply_default 装饰器 (#15667)
警告
由于删除了 apply_default 装饰器,此 provider 版本需要 Airflow 2.1.0+。 如果您的 Airflow 版本 < 2.1.0,并且您想安装此 provider 版本,请首先将 Airflow 升级到至少版本 2.1.0。 否则,您的 Airflow 包版本将自动升级,您必须手动运行 airflow upgrade db
才能完成迁移。
将 plyvel 移动到 google provider 额外 项 (#15812)
修复 AzureFileShare 连接 额外 项 (#16388)
功能¶
为 google dataproc 添加 额外的 链接 (#10343)
添加 oracle 连接 链接 (#15632)
将 wait_for_done 参数 向下 传递给 _DataflowJobsController (#15541)
仅在 GoogleAdsHook 中 使用 api 版本, 而不是 运算符 (#15266)
实现 BigQuery 表 架构 更新 运算符 (#15367)
添加 BigQueryToMsSqlOperator (#15422)
Bug 修复¶
修复: GCS To BigQuery source_object (#16160)
修复: ``GCSToLocalFilesystemOperator 中 不必要的 下载
(#16171)``修复 当 导出 格式 为 parquet 时,bigquery 类型 错误 (#16027)
修复 bucket 和 object 的 参数 排序 和 类型 (#15738)
修复 sql_to_gcs docstring lint 错误 (#15730)
fix: 确保 datetime 相关 值 完全 兼容 MySQL 和 BigQuery (#15026)
修复 google provider 中的 弃用 警告 位置 (#16403)
3.0.0¶
重大变更¶
AutoMLPredictOperator
中的更改¶
airflow.providers.google.cloud.operators.automl.AutoMLPredictOperator
类中的 params
参数已重命名为 operation_params
,因为它与 BaseOperator
类中的 param
参数冲突。
与 apache.beam
provider 的集成¶
在 provider 的 3.0.0 版本中,我们更改了与 apache.beam
provider 集成的方式。 当尝试使用 PIP > 20.2.4 将两个 provider 一起安装时,之前的 provider 版本会导致冲突。 PIP 20.2.4 及以下版本未检测到此冲突,但冲突确实存在,并且 Google BigQuery
python 客户端的版本在两端不匹配。 因此,当同时安装 apache.beam
和 google
provider 时,BigQuery
运算符的某些功能可能无法正常工作。 这是由 apache-beam
客户端尚未支持新的 google python 客户端造成的,当使用 apache-beam[gcp]
额外项时。 Dataflow
运算符使用 apache-beam[gcp]
额外项,虽然它们可以使用较新版本的 Google BigQuery
python 客户端,但这不能保证。
此版本为 google
provider 的 apache.beam
额外项引入了额外的额外需求,并且对称地为 apache.beam
provider 的 google
额外项引入了额外的需求。 google
和 apache.beam
provider 默认情况下不使用这些额外项,但您可以在安装 provider 时指定它们。 这样做的后果是 Dataflow
运算符的某些功能可能不可用。
不幸的是,解决此问题的唯一 完整
解决方案是 apache.beam
迁移到新的 (>=2.0.0) Google Python 客户端。
这是 google
provider 的额外项
extras_require = (
{
# ...
"apache.beam": ["apache-airflow-providers-apache-beam", "apache-beam[gcp]"],
# ...
},
)
同样,这是 apache.beam
provider 的额外项
extras_require = ({"google": ["apache-airflow-providers-google", "apache-beam[gcp]"]},)
您仍然可以使用 PIP 版本 <= 20.2.4 运行此代码并返回到之前的行为
pip install apache-airflow-providers-google[apache.beam]
或
pip install apache-airflow-providers-apache-beam[google]
但请注意,在这种情况下,某些 BigQuery
运算符功能可能不可用。
功能¶
[Airflow-15245] - 将 自定义 镜像 系列 名称 传递给 DataProcClusterCreateoperator (#15250)
Bug 修复¶
Bugfix: 修复 ''GCSToLocalFilesystemOperator'' 中 ''object_name'' 的 呈现 (#15487)
修复 DataprocCreateClusterOperator 中的 拼写错误 (#15462)
修复 leveldb hook 中错误 指定的 路径 (#15453)
2.2.0¶
特性¶
添加 'Trino' 提供者 (测试时占用 更少的 内存) (#15187)
更新 operators 剩余的 旧 导入 路径 (#15127)
覆盖 dataprocSubmitJobOperator 中的 project (#14981)
带有 标签 和 描述 参数的 GCS 到 BigQuery 传输 Operator (#14881)
添加 GCS 时间跨度 转换 operator (#13996)
向 bigquery 检查 operators 添加 作业 标签。 (#14685)
在可用时使用 libyaml C 库。 (#14577)
添加 Google leveldb hook 和 operator (#13109) (#14105)
Bug 修复¶
Google Dataflow Hook 处理 没有 Job 类型的情况 (#14914)
2.1.0¶
特性¶
修正 GCSHook.download 方法中 docstring 的参数 顺序 (#14497)
重构 SQL/BigQuery/Qubole/Druid 检查 operators (#12677)
添加 GoogleDriveToLocalOperator (#14191)
添加 'exists_ok' 标志到 BigQueryCreateEmptyTable(Dataset)Operator (#14026)
添加 对 BigQuery 的 物化视图 支持 (#14201)
添加 BigQueryUpdateTableOperator (#14149)
向 CloudDataTransferServiceOperator 添加 param (#14118)
添加 gdrive_to_gcs operator, drive sensor, 以及 drive hook 的 附加功能 (#13982)
改进 GCSToSFTPOperator 路径 处理 (#11284)
Bug 修复¶
修复 dataproc operators 和 hook 的问题 (#14086)
#9803 修复 没有 通配符 的 复制 操作 中的 bug (#13919)
2.0.0¶
重大变更¶
更新了 google-cloud-*
库¶
此提供者软件包的版本包含第三方库的更新,如果使用这些库中的对象,可能需要更新 DAG 文件或自定义 hook 和 operator。 更新这些库是必要的,以便能够使用新版本库提供的新功能,并获得仅适用于新版本库的 bug 修复。
详细信息包含在每个库的 UPDATING.md 文件中,但有一些细节您应该注意。
库名称 |
之前的约束 |
当前的约束 |
升级文档 |
---|---|---|---|
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
字段名称使用 snake_case 约定¶
如果您的 DAG 使用通过 XCom 传递的上述库中的对象,则必须更新所读取字段的命名约定。 以前,这些字段使用 CamelSnake 约定,现在使用 snake_case 约定。
之前
set_acl_permission = GCSBucketCreateAclEntryOperator(
task_id="gcs-set-acl-permission",
bucket=BUCKET_NAME,
entity="user-{{ task_instance.xcom_pull('get-instance')['persistenceIamIdentity'].split(':', 2)[1] }}",
role="OWNER",
)
之后
set_acl_permission = GCSBucketCreateAclEntryOperator(
task_id="gcs-set-acl-permission",
bucket=BUCKET_NAME,
entity="user-{{ task_instance.xcom_pull('get-instance')['persistence_iam_identity']"
".split(':', 2)[1] }}",
role="OWNER",
)
特性¶
添加 Apache Beam operators (#12814)
添加 Google Cloud Workflows Operators (#13366)
使用 'GCSHook' 时,将 'google_cloud_storage_conn_id' 替换为 'gcp_conn_id' (#13851)
为 Dataflow 添加 操作指南 (#13461)
将 MLEngineStartTrainingJobOperator 推广到 自定义镜像 (#13318)
将 Parquet 数据 类型添加到 BaseSQLToGCSOperator (#13359)
添加 DataprocCreateWorkflowTemplateOperator (#13338)
添加 OracleToGCS 传输 (#13246)
向 gcs hook 方法添加 超时 选项。 (#13156)
向 dataproc 工作流 模板 operators 添加 区域 支持 (#12907)
将 project_id 添加到 BigQuery hook update_table 方法内的 客户端 (#13018)
Bug 修复¶
修复 StackdriverTaskHandler 中的 四个 bug (#13784)
解码 远程 Google 日志 (#13115)
修复 并改进 GCP BigTable hook 和 系统 测试 (#13896)
更新 Google DV360 Hook 以修复 SDF 问题 (#13703)
修复 BigQueryHook 的 insert_all 方法以支持没有 schema 的表 (#13138)
修复 Google BigQueryHook 方法 get_schema() (#13136)
修复 Data Catalog operators (#13096)
1.0.0¶
提供者的初始版本。