apache-airflow-providers-google

Changelog

15.1.0

新特性

  • 添加 ORC 支持 GCSToBigQueryOperator 并且 测试 外部 (#49188)

Bug 修复

  • 修复 OperationHelper wait_for_operation_result 默认值 (#49121)

  • 修复 Managed Kafka 服务的 get_confluent_token 回调 (#48926)

  • 修复: BigQuery 连接 UI 编辑时 '使用 Legacy SQL' 默认设置为 true (#49038)

其他

  • 移除 多余的 else 代码块 (#49199)

  • 弃用 DataflowHook 中的 start_sql_job (#48663)

  • type: 注释 'provider' 中缺少 type (#49130)

15.0.1

其他

  • 弃用 Life Scrience 服务 (#48862)

仅文档

  • google 文档中添加 缺失的 license 注释 (#48985)

15.0.0

重大变更

警告

已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:

  • 操作符

    • 移除 MLEngineStartBatchPredictionJobOperator, 使用 CreateBatchPredictionJobOperator 代替

    • 移除 MLEngineManageModelOperator, 使用 Vertex AI 的 MLEngineCreateModelOperator 或者 GetModelOperator 代替

    • 移除 MLEngineDeleteModelOperator, 使用 Vertex AI 的 DeleteModelOperator 代替

    • 移除 MLEngineManageVersionOperator, 使用 Vertex AI 的适当的操作符代替, 例如 AddVersionAliasesOnModelOperator

    • 移除 MLEngineCreateVersionOperator, VertexAI 操作符使用 parent_model 参数

    • 移除 MLEngineSetDefaultVersionOperator, 使用 Vertex AI 的 SetDefaultVersionOnModelOperator 代替

    • 移除 MLEngineListVersionsOperator, 使用 Vertex AI 的 ListModelVersionsOperator 代替

    • 移除 MLEngineDeleteVersionOperator, 使用 Vertex AI 的 DeleteModelVersionOperator 代替

    • 移除 MLEngineStartTrainingJobOperator, 使用 Vertex AI 的 CreateCustomPythonPackageTrainingJobOperator 代替

    • 移除 MLEngineTrainingCancelJobOperator, 使用 Vertex AI 的 CancelCustomTrainingJobOperator 代替

    • 移除 DataProcScaleClusterOperator, 使用 DataprocUpdateClusterOperator 代替

    • 移除 GoogleAdsToGcsOperatorpage_size 参数

    • 移除 DeleteAutoMLTrainingJobOperator.training_pipeline 方法, 使用 training_pipeline_id 参数代替

    • 移除 DeleteCustomTrainingJobOperator.training_pipeline 方法, 使用 training_pipeline_id 参数代替

    • 移除 DeleteCustomTrainingJobOperator.custom_job 方法, 使用 custom_job_id 参数代替

  • 链接

    • 移除 DataFusionPipelineLinkHelper, 使用 airflow.providers.google.cloud.utils.helpers.resource_path_to_dict 代替

  • Hooks

    • 移除 GoogleAdsHook.search, GoogleAdsHook.search_proto_plus, GoogleAdsHook._search 方法的 page_size 参数

    • 移除 CloudBuildHook.create_build 方法, 使用 CloudBuildHook.create_build_without_waiting_for_result 方法

    • 移除 DataflowHook.start_java_dataflow 方法, 请使用 airflow.providers.apache.beam.hooks.beam.start.start_java_pipeline 方法启动管道, 并使用 providers.google.cloud.hooks.dataflow.DataflowHook.wait_for_done 方法等待所需的管道状态

    • 移除 DataflowHook.start_python_dataflow 方法, 请使用 airflow.providers.apache.beam.hooks.beam.start.start_python_pipeline 方法启动管道, 并使用 providers.google.cloud.hooks.dataflow.DataflowHook.wait_for_done 方法等待所需的管道状态

    • 移除 CustomJobHook.cancel_pipeline_job 方法, 使用 PipelineJobHook.cancel_pipeline_job 方法代替

    • 移除 CustomJobHook.create_pipeline_job 方法, 使用 PipelineJobHook.create_pipeline_job 方法代替

    • 移除 CustomJobHook.get_pipeline_job 方法, 使用 PipelineJobHook.get_pipeline_job 方法代替

    • 移除 CustomJobHook.list_pipeline_jobs 方法, 使用 PipelineJobHook.list_pipeline_jobs 方法代替

    • 移除 CustomJobHook.delete_pipeline_job 方法, 使用 PipelineJobHook.delete_pipeline_job 方法代替

    • 移除 GoogleBaseHook.get_client_info 方法, 使用 airflow.providers.google.common.consts.CLIENT_INFO 代替

    • LifeSciencesHook 生命周期延长至 2025 年 7 月 8 日

  • Utils

    • 移除 create_evaluate_ops 方法

  • 移除 provider/google 2025 2 月和 3 已弃用项。 #48018

新特性

  • SFTPToGCSOperator: 添加了 选项 来直接将数据流式传输到 GCS 而无需保存到磁盘 (#48107)

Bug 修复

  • 修复: 移除 'MetastoreHivePartitionSensor.poke' 方法中 文件 URI 形成中 多余的 斜杠字符。 (#48731)

  • 不允许 types-protobuf 5.29.1.20250402 用于 google 来修复 mypy (#48666)

其他

  • 添加 'ti' RemoteLogIO 读取和上传 方法 (#48804)

  • 重构 structlog 时代的远程任务日志处理。 (#48491)

  • 基类 移动到 'airflow.sdk.bases' (#48487)

  • 'BaseSensorOperator' 移动到 TaskSDK 定义 (#48244)

14.1.0

功能特性

  • 为 GKE Hooks 和 Operators 添加 DNS 终端节点支持 (#48075)

  • 特性:允许为 'DataprocCreateBatchOperator' 设置任务/DAG 标签 (#46781)

  • 创建用于处理 GCP Apache Kafka 的 Consumer Groups 的 operators (#47056)

Bug 修复

  • 修复:BigQuery 可追溯性标签在 TaskGroup 中缺失 (#47583)

其他

  • Vendor-in json-merge-patch 并为直接 uv 工具安装添加 '--no-dev' (#48210)

  • 序列化复合传输中包含的 http 传输 (#47444)

  • AIP-72:处理 Task SDK 上的自定义 XCom 后端 (#47339)

  • 其他:更新 Google ADS 的 API 版本 (#47772)

  • 引入操作辅助类并重构 (#45354)

  • 从核心 Airflow 中删除身份验证后端 (#47399)

  • 将 Google Oauth2 后端标记为仅 Airflow 2 (#47622)

  • 添加 Dataflow Apache Beam Java 流系统测试 (#47209)

  • 将旧版命名空间包添加到 airflow.providers (#47064)

14.0.0

注意

此版本没有代码更改。 由于之前版本因打包问题而被撤回而发布。

13.0.0

重大变更

警告

已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:

  • 操作符

    • 删除 AutoMLBatchPredictOperator。 请改用来自 airflow.providers.google.cloud.operators.vertex_ai.batch_prediction_job 的 operators

    • 删除 DataflowStartSqlJobOperator。 请使用 DataflowStartYamlJobOperator 代替

    • 删除 PromptLanguageModelOperator。 请使用 TextGenerationModelPredictOperator 代替

    • 删除 GenerateTextEmbeddingsOperator。 请使用 TextEmbeddingModelGetEmbeddingsOperator 代替

    • 删除 PromptMultimodalModelOperator。 请使用 GenerativeModelGenerateContentOperator 代替

    • 删除 PromptMultimodalModelWithMediaOperator。 请使用 GenerativeModelGenerateContentOperator 代替

  • Hooks

    • 删除 GenerativeModelHook.prompt_multimodal_model_with_media()。 请使用 GenerativeModelHook.generative_model_generate_content() 代替

    • 删除 GenerativeModelHook.prompt_multimodal_model()。 请使用 GenerativeModelHook.generative_model_generate_content() 代替

    • 删除 GenerativeModelHook.get_generative_model_part()。 请使用 GenerativeModelHook.generative_model_generate_content() 代替

    • 删除 GenerativeModelHook.prompt_language_model()。 请使用 GenerativeModelHook.text_generation_model_predict() 代替

    • 删除 GenerativeModelHook.generate_text_embeddings()。 请使用 GenerativeModelHook.text_generation_model_predict() 代替

  • 从 Google provider 中删除已弃用的功能 (#46235)

功能特性

  • 创建用于处理 GCP Apache Kafka 的 Clusters 的 operators (#45795)

  • 弃用旧的 bigquery operators 并引入 CreateTableOperator (#46673)

  • 为 Entry 资源添加 operators (#46647)

  • 将可延迟模式添加到 PubSubPullOperator (#45835)

  • 将可延迟模式添加到 google cloud storage 传输传感器和 operators (#45754)

  • 为 AspectType 资源添加 operators (#46240)

  • 特性:为 BigQueryDataTransferServiceStartTransferRunsOperator 添加 OpenLineage 支持 (#45801)

  • 特性:为 CloudSQLExecuteQueryOperator 添加 OpenLineage 支持 (#45182)

  • 为 Entry Type 添加新 operators (#45799)

  • 添加 Dataplex Catalog Entry Group operators (#45751)

  • 特性:为 BigQueryHook 添加 Hook Level Lineage 支持 (#45706)

  • 特性:为 MsSqlHook 和 MSSQLToGCSOperator 添加 OpenLineage 支持 (#45637)

  • 将 holiday_region 参数添加到 AutoMl hook 中的 create_auto_ml_forecasting_training_job 中 (#45465)

  • 特性:自动将 OL 传输信息注入到 spark 作业中 (#45326)

  • 特性:为 GCS 和 SFTP 之间的传输 operators 添加 OpenLineage 支持 (#45485)

  • 实现 AlloyDB 创建/更新/删除用户和备份 operators (#45378)

  • 特性:为一些 SQL 到 GCS operators 添加 OpenLineage 支持 (#45242)

  • 特性:为一些 BQ operators 添加 OpenLineage 支持 (#45422)

  • 特性:为 BigQueryInsertJobOperator 中的非查询作业添加 OpenLineage 支持 (#44996)

  • 特性:自动将 OL 信息注入到 DataprocInstantiateInlineWorkflowTemplateOperator 中的 spark 作业中 (#44697)

  • 特性:在 BigQueryInsertJobOperator 中将 CLL 添加到 OpenLineage (#44872)

  • 特性:自动将 OL 信息注入到 DataprocCreateBatchOperator 中的 spark 作业中 (#44612)

  • 实现 AlloyDB 创建/更新/删除实例 operators (#45241)

  • 添加 BigQuery 作业链接 (#45020) (#45222)

  • 引入 gcp translation(V3) 词汇表 providers (#45085)

  • 将 dependencies 部分添加到 gcp cloud build 实例响应中 (#46947)

  • 创建 用于 处理 GCP Apache Kafka 主题 操作符 (#46865)

Bug 修复

  • 修复 BigQueryInsertJobOperator 中,当 async deffed 之前 完成时,返回 job_id (#46753)

  • 修复: 如果没有 OpenLineage,Dataproc 操作符 导入失败 (#46561)

  • CloudComposerDAGRunSensor 添加 Airflow 版本的 向后兼容性 (#46011)

  • 改进 google 凭据 错误消息 (#45553)

  • CloudSqlProxyRunner 中添加 aarch64 环境的 case (#45488)

  • 修复 GCSToGCSOperator replace False 时,复制 单个 对象 bug (#45181)

其他

  • 重构 TriggererJobRunner 以在没有 DB 访问的进程中运行 triggers (#46677)

  • AIP-72: 改进 操作符 链接 界面 以防止 用户代码 Webserver 中执行 (#46613)

  • 移除 Google Provider 中的 Airflow 3 弃用警告,移动到 Private Warning (#46599)

  • evaluation extra 添加到 google-cloud-aiplatform (#46270)

  • 限制 'google-cloud-aiplatform' 以修复 CI 中的问题 (#46242)

  • 改进 cloud_composer.rst 中的 语法 (#45708)

  • AIP-72: 支持 SDK Context dict 更好的类型提示 (#45583)

  • 弃用 Google Ads API v17 及更高版本的 page_size 参数 (#45239)

  • 删除 pre-python 3.9 的过时 pandas 规范 (#45399)

  • apache-airflow-providers-google 包的 弃用策略 (#44985)

  • 添加 alloydb 的下限 (#45180)

  • 弃用 gcp AutoML 模块 (#44875)

  • 重构 BeamRunPythonPipelineOperator BeamRunJavaPipelineOperator 的可延迟模式 (#46678)

  • cloud build 提升到 3.31.0 (#46953)

12.0.0

注意

Apache Airflow providers support policy中所述,此 provider 版本仅适用于 Airflow 2.9+。

不兼容变更

警告

已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:

  • 操作符

    • 已移除 CreateDataPipelineOperator。请改用 DataflowCreatePipelineOperator

    • 已移除 RunDataPipelineOperator。请改用 DataflowRunPipelineOperator

    • 已移除 CreateDataPipelineOperator。请改用 DataflowCreatePipelineOperator

    • 已移除 RunDataPipelineOperator。请改用 DataflowRunPipelineOperator

  • Hooks

    • 已移除 DataPipelineHook。请改用 DataflowHook

    • 已移除 DataPipelineHook。请改用 DataflowHook。

  • Google provider 删除 已弃用 到达移除日期 (2024年12月) (#45084)

特性

  • 添加 Google Vertex AI Feature Store - Feature View 同步 操作符,传感器 (#44891)

  • 引入 gcp translation(V3),翻译 文档 providers (#44971)

  • 引入 translation API v3 (高级)模型 操作符。 (#44627)

  • 支持 Dataproc SQL 作业中的 多个 SQL 查询 (#44890)

  • feat: BigQuery 创建表 操作符添加 OpenLineage 支持 (#44783)

  • feat: S3ToGCSOperator 添加 OpenLineage 支持 (#44426)

  • feat: DataprocSubmitJobOperator 中自动将 OL 信息注入到 spark 作业中 (#44477)

  • 实现 AlloyDB 操作符:创建/更新/删除 集群 (#45027)

Bug 修复

  • 修复 由于重复的别名而导致的 MetastoreHivePartitionSensor 失败 (#45001)

  • 修复 InsertBigQueryOperator OpenLineage 发射失败 (#44650)

  • BigQueryInsertJobOperator: 记录瞬态错误,并在将任务标记为成功之前检查作业状态 (#44279)

  • 使 'CloudBatchSubmitJobOperator' 在作业失败时失败 (#44425)

其他

  • 删除对 AIRFLOW_V_2_9_PLUS 的引用 (#44987)

  • providers 中一致地检查 Airflow 版本 (#44686)

  • 修复 yoda-conditions (#44466)

  • feat: gcs local 之间的 传输 操作符添加 OpenLineage 支持 (#44417)

  • providers 中的最小 Airflow 版本提升到 Airflow 2.9.0 (#44956)

  • chore: OpenLineage utils 中删除已弃用的 bigquery facets (#44838)

  • 实现 KubernetesInstallKueueOperator (#44568)

  • 修复 dataform 操作符的 文档 (#44729)

  • 弃用 VertexAI PaLM 文本生成模型 (#44719)

  • 在文档中显示关于弃用的醒目警告 (#44479)

  • chore: 统一处理 gcs 路径 (#44410)

11.0.0

不兼容变更

警告

已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:

  • 操作符

    • 已移除 CreateAutoMLTextTrainingJobOperator。请改用 SupervisedFineTuningTrainOperator

    • 已移除 BigQueryExecuteQueryOperator。请改用 BigQueryInsertJobOperator

    • 已移除 BigQueryPatchDatasetOperator。请改用 BigQueryUpdateDatasetOperator

    • 已移除 DataflowCreateJavaJobOperator。请改用 BeamRunJavaPipelineOperator

    • 移除了 DataflowCreatePythonJobOperator。请使用 BeamRunPythonPipelineOperator 代替。

    • 移除了 DataprocSubmitPigJobOperator。请使用 DataprocSubmitJobOperator 代替。

    • 移除了 DataprocSubmitHiveJobOperator。请使用 DataprocSubmitJobOperator 代替。

    • 移除了 DataprocSubmitSparkSqlJobOperator。请使用 DataprocSubmitJobOperator 代替。

    • 移除了 DataprocSubmitSparkJobOperator。请使用 DataprocSubmitJobOperator 代替。

    • 移除了 DataprocSubmitHadoopJobOperator。请使用 DataprocSubmitJobOperator 代替。

    • 移除了 DataprocSubmitPySparkJobOperator。请使用 DataprocSubmitJobOperator 代替。

    • 移除了 GoogleAnalyticsListAccountsOperator。请使用 GoogleAnalyticsAdminListAccountsOperator 代替。

    • 移除了 GoogleAnalyticsGetAdsLinkOperator。请使用 GoogleAnalyticsAdminGetGoogleAdsLinkOperator 代替。

    • 移除了 GoogleAnalyticsRetrieveAdsLinksListOperator。请使用 GoogleAnalyticsAdminListGoogleAdsLinksOperator 代替。

    • 移除了 GoogleAnalyticsDataImportUploadOperator。请使用 GoogleAnalyticsAdminCreateDataStreamOperator 代替。

    • 移除了 GoogleAnalyticsDeletePreviousDataUploadsOperator。请使用 GoogleAnalyticsAdminDeleteDataStreamOperator 代替。

    • 移除了 GoogleAnalyticsModifyFileHeadersDataImportOperator。由于 Google Analytics API v3 已停止服务,该类已不再实际使用,因此所涵盖的用例不再相关。

    • 移除了 GoogleCampaignManagerDeleteReportOperator.delegate_to。请使用 GoogleCampaignManagerDeleteReportOperator.impersonation_chain 代替。

    • 移除了 GoogleCampaignManagerDownloadReportOperator.delegate_to。请使用 GoogleCampaignManagerDownloadReportOperator.impersonation_chain 代替。

    • 移除了 GoogleCampaignManagerInsertReportOperator.delegate_to。请使用 GoogleCampaignManagerInsertReportOperator.impersonation_chain 代替。

    • 移除了 GoogleCampaignManagerRunReportOperator.delegate_to。请使用 GoogleCampaignManagerRunReportOperator.impersonation_chain 代替。

    • 移除了 GoogleCampaignManagerBatchInsertConversionsOperator.delegate_to。请使用 GoogleCampaignManagerBatchInsertConversionsOperator.impersonation_chain 代替。

    • 移除了 GoogleCampaignManagerBatchUpdateConversionsOperator.delegate_to。请使用 GoogleCampaignManagerBatchUpdateConversionsOperator.impersonation_chain 代替。

    • 移除了 GoogleDisplayVideo360CreateQueryOperator.delegate_to。请使用 GoogleDisplayVideo360CreateQueryOperator.impersonation_chain 代替。

    • 移除了 GoogleDisplayVideo360DeleteReportOperator.delegate_to。请使用 GoogleDisplayVideo360DeleteReportOperator.impersonation_chain 代替。

    • 移除了 GoogleDisplayVideo360DownloadReportV2Operator.delegate_to。请使用 GoogleDisplayVideo360DownloadReportV2Operator.impersonation_chain 代替。

    • 移除了 GoogleDisplayVideo360RunQueryOperator.delegate_to。请使用 GoogleDisplayVideo360RunQueryOperator.impersonation_chain 代替。

    • 移除了 GoogleDisplayVideo360DownloadLineItemsOperator.delegate_to。请使用 GoogleDisplayVideo360DownloadLineItemsOperator.impersonation_chain 代替。

    • 移除了 GoogleDisplayVideo360UploadLineItemsOperator.delegate_to。请使用 GoogleDisplayVideo360UploadLineItemsOperator.impersonation_chain 代替。

    • 移除了 GoogleDisplayVideo360CreateSDFDownloadTaskOperator.delegate_to。请使用 GoogleDisplayVideo360CreateSDFDownloadTaskOperator.impersonation_chain 代替。

    • 移除了 GoogleDisplayVideo360SDFtoGCSOperator.delegate_to。请使用 GoogleDisplayVideo360SDFtoGCSOperator.impersonation_chain 代替。

    • 移除了 GoogleSheetsCreateSpreadsheetOperator.delegate_to。请使用 GoogleSheetsCreateSpreadsheetOperator.impersonation_chain 代替。

    • 移除了 GCSToGoogleDriveOperator.delegate_to。请使用 GCSToGoogleDriveOperator.impersonation_chain 代替。

    • 移除了 GCSToGoogleSheetsOperator.delegate_to。请使用 GCSToGoogleSheetsOperator.impersonation_chain 代替。

    • 移除了 LocalFilesystemToGoogleDriveOperator.delegate_to。请使用 LocalFilesystemToGoogleDriveOperator.impersonation_chain 代替。

    • 移除了 SQLToGoogleSheetsOperator.delegate_to。请使用 SQLToGoogleSheetsOperator.impersonation_chain 代替。

    • 移除了 CreateBatchPredictionJobOperator.sync。此参数不再实际使用。

    • 移除了 CreateHyperparameterTuningJobOperator.sync。此参数不再实际使用。

    • 移除了 CustomTrainingJobBaseOperator.sync。此参数不再实际使用。

    • 移除了 GKEStartPodOperator.get_gke_config_file()。请使用 GKEStartPodOperator.fetch_cluster_info() 代替。

  • 触发器

    • 移除了 GCSCheckBlobUpdateTimeTrigger.hook_params 参数中对 delegate_to 字段的支持。

  • 传感器

    • 移除了 BigQueryTableExistenceAsyncSensor。请使用 BigQueryTableExistenceSensor 并将 deferrable 属性设置为 True 代替。

    • 移除了 BigQueryTableExistencePartitionAsyncSensor。请使用 BigQueryTablePartitionExistenceSensor 并将 deferrable 属性设置为 True 代替。

    • 移除了 CloudComposerEnvironmentSensor。请使用 CloudComposerCreateEnvironmentOperatorCloudComposerUpdateEnvironmentOperatorCloudComposerDeleteEnvironmentOperator 代替。

    • 移除了 GCSObjectExistenceAsyncSensor。请使用 GCSObjectExistenceSensor 并将 deferrable 属性设置为 True 代替。

    • 移除了 GoogleCampaignManagerReportSensor.delegate_to。请使用 GoogleCampaignManagerReportSensor.impersonation_chain 代替。

    • 移除了 GoogleDisplayVideo360GetSDFDownloadOperationSensor.delegate_to。请使用 GoogleDisplayVideo360GetSDFDownloadOperationSensor.impersonation_chain 代替。

    • 移除了 GoogleDisplayVideo360RunQuerySensor.delegate_to。请使用 GoogleDisplayVideo360RunQuerySensor.impersonation_chain 代替。

    • 移除了 GoogleDriveFileExistenceSensor.delegate_to。请使用 GoogleDriveFileExistenceSensor.impersonation_chain 代替。

  • 链接

    • 移除了 BigQueryConsoleIndexableLink。此属性不再实际使用。

    • 移除了 BigQueryConsoleLink。此属性不再实际使用。

  • Hooks

    • 移除了 GKEDeploymentHook。请使用 GKEKubernetesHook 代替。

    • 移除了 GKECustomResourceHook。请使用 GKEKubernetesHook 代替。

    • 移除了 GKEPodHook。请使用 GKEKubernetesHook 代替。

    • 移除了 GKEJobHook。请使用 GKEKubernetesHook 代替。

    • 移除了 GKEPodAsyncHook。请使用 GKEKubernetesAsyncHook 代替。

    • 移除了 SecretsManagerHook。请使用 GoogleCloudSecretManagerHook 代替。

    • 移除了 GoogleAnalyticsHook。由于 Google Analytics API v3 已停止服务,该类已不再实际使用。

    • 移除了 GoogleBaseHook.delegate_to。请使用 GoogleBaseHook.impersonation_chain。请注意,delegate_to 参数过去在所有 Google hooks 中都继承,并且从现在起,它在 Google provider 中的所有位置都已被删除。

    • 移除了 GoogleDiscoveryApiHook.delegate_to。请使用 GoogleDiscoveryApiHook.impersonation_chain 代替。

    • 移除了 GoogleCampaignManagerHook.delegate_to。请使用 GoogleCampaignManagerHook.impersonation_chain 代替。

    • 移除了 GoogleDisplayVideo360Hook.delegate_to。请使用 GoogleDisplayVideo360Hook.impersonation_chain 代替。

    • 移除了 GoogleSearchAdsHook.delegate_to。请使用 GoogleSearchAdsHook.impersonation_chain 代替。

    • 移除了 GoogleCalendarHook.delegate_to。请使用 GoogleCalendarHook.impersonation_chain 代替。

    • 移除了 GoogleDriveHook.delegate_to。请使用 GoogleDriveHook.impersonation_chain 代替。

    • 移除了 GSheetsHook.delegate_to。请使用 GSheetsHook.impersonation_chain 代替。

    • 移除了 BigQueryHook.credentials_path。此属性不再实际使用。

    • 已移除 GKEHook.get_conn()。请改用 GKEHook.get_cluster_manager_client()

    • 已移除 GKEHook.get_client()。请改用 GKEHook.get_cluster_manager_client()

    • 已移除 BigQueryHook.patch_table()。请改用 BigQueryHook.update_table()

    • 已移除 BigQueryHook.patch_dataset()。请改用 BigQueryHook.update_dataset()

    • 已移除 BigQueryHook.get_dataset_tables_list()。请改用 BigQueryHook.get_dataset_tables()

    • 已移除 BigQueryHook.run_table_delete()。请改用 BigQueryHook.delete_table()

    • 已移除 BigQueryHook.get_tabledata()。请改用 BigQueryHook.list_rows()

    • 已移除 BigQueryHook.cancel_query()。请改用 BigQueryHook.cancel_job()

    • 已移除 BigQueryHook.run_with_configuration()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryHook.run_load()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryHook.run_copy()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryHook.run_extract()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryHook.run_query()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryHook.create_external_table()。请改用 BigQueryHook.create_empty_table()

    • 已移除 BigQueryHook.get_service()。请改用 BigQueryHook.get_client()

  • 后端

    • 已移除 CloudSecretManagerBackend.get_conn_uri()。请改用 CloudSecretManagerBackend.get_conn_value()

  • 其他弃用

    • 已移除 BigQueryBaseCursor.create_empty_table()。请改用 BigQueryHook.create_empty_table()

    • 已移除 BigQueryBaseCursor.create_empty_dataset()。请改用 BigQueryHook.create_empty_dataset()

    • 已移除 BigQueryBaseCursor.get_dataset_tables()。请改用 BigQueryHook.get_dataset_tables()

    • 已移除 BigQueryBaseCursor.delete_dataset()。请改用 BigQueryHook.delete_dataset()

    • 已移除 BigQueryBaseCursor.create_external_table()。请改用 BigQueryHook.create_empty_table()

    • 已移除 BigQueryBaseCursor.patch_table()。请改用 BigQueryHook.update_table()

    • 已移除 BigQueryBaseCursor.insert_all()。请改用 BigQueryHook.insert_all()

    • 已移除 BigQueryBaseCursor.update_dataset()。请改用 BigQueryHook.update_dataset()

    • 已移除 BigQueryBaseCursor.patch_dataset()。请改用 BigQueryHook.update_dataset()

    • 已移除 BigQueryBaseCursor.get_dataset_tables_list()。请改用 BigQueryHook.get_dataset_tables()

    • 已移除 BigQueryBaseCursor.get_datasets_list()。请改用 BigQueryHook.get_datasets_list()

    • 已移除 BigQueryBaseCursor.get_dataset()。请改用 BigQueryHook.get_dataset()

    • 已移除 BigQueryBaseCursor.run_grant_dataset_view_access()。请改用 BigQueryHook.run_grant_dataset_view_access()

    • 已移除 BigQueryBaseCursor.run_table_upsert()。请改用 BigQueryHook.run_table_upsert()

    • 已移除 BigQueryBaseCursor.run_table_delete()。请改用 BigQueryHook.delete_table()

    • 已移除 BigQueryBaseCursor.get_tabledata()。请改用 BigQueryHook.list_rows()

    • 已移除 BigQueryBaseCursor.get_schema()。请改用 BigQueryHook.get_schema()

    • 已移除 BigQueryBaseCursor.poll_job_complete()。请改用 BigQueryHook.poll_job_complete()

    • 已移除 BigQueryBaseCursor.cancel_query()。请改用 BigQueryHook.cancel_job()

    • 已移除 BigQueryBaseCursor.run_with_configuration()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryBaseCursor.run_load()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryBaseCursor.run_copy()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryBaseCursor.run_extract()。请改用 BigQueryHook.insert_job()

    • 已移除 BigQueryBaseCursor.run_query()。请改用 BigQueryHook.insert_job()

  • 从 Google 提供程序中删除已弃用的功能 (#43953)

功能

  • feat: 为 BigQueryToBigQueryOperator 添加 OpenLineage 支持 (#44214)

  • 引入 gcp 高级 API (V3) 转换本机数据集操作符 (#44271)

  • 引入新的 gcp TranslateText 和 TranslateTextBatch 操作符 (#43860)

  • 将 gcloud 命令添加到 DataprocCreateClusterOperator,以便能够在 GKE 集群上创建 dataproc (#44185)

错误修复

  • 修复 'BigQueryAsyncHook.create_job_for_partition_get' 中的不正确查询。(#44225)

  • 修复 Dataplex 数据质量的部分更新 (#44262)

其他

  • 将 'google-cloud-translate' 升级到 '3.16' (#44297)

  • 将 'google-cloud-datacatalog' 升级到 '3.23' (#44281)

  • 在整个代码库中将 execution_date 重命名为 logical_date (#43902)

10.26.0

功能

  • 为 CloudSQL 连接添加对 IAM 数据库身份验证的支持 (#43631)

  • 为 'GCSToBigQueryOperator' 提供 'force_delete' 选项 (#43785)

  • 统一 BigQuery 操作符中的 reattach_states 参数逻辑 (#43259)

错误修复

  • 从 ListCustomTrainingJobOperator 的 template_fields 中删除不存在的字段 (#43924)

  • 修复 'UploadModelOperator' 中验证 'parent_model' 参数的问题 (#43473)

其他

  • 添加对 DbApiHook、PrestoHook 和 TrinoHook 的分号剥离支持 (#41916)

  • 删除 Google 提供程序中 Airflow 2.1 兼容代码 (#43952)

  • 解释如何将 uv 与 airflow virtualenv 一起使用并使其工作 (#43604)

  • 将 python 操作符移动到 Standard 提供程序 (#42081)

  • 更新 Google ADS 的版本 (#43474)

10.25.0

功能

  • feat: 为 GCSHook 添加 Hook Level Lineage 支持 (#42507)

  • feat: 用于检查 Dataform 操作状态的传感器 (#43055)

  • 为 Google Cloud Vertex AI 上下文缓存创建操作符 (#43008)

错误修复

  • 修复过时的 CloudRunExecuteJobOperator 文档 (#43195)

  • 修复 TestTranslationLegacyModelPredictLink dataset_id 错误 (#42463)

其他

  • dataproc 创建 批量 工作负载 添加 调试 日志 (#43265)

  • plyvel 添加 最小 版本 (#43129)

  • Vertex AI 训练 operators: 渲染的 字段 添加 display_name (#43028)

  • 使 google provider pyarrow 依赖 显式化 (#42996)

  • 限制 looker-sdk 版本 24.18.0 microsoft-kiota-http 1.3.4 (#42954)

10.24.0

功能

  • DataprocCreateClusterOperator DataprocCreateBatchOperator 添加 'retry_if_resource_not_ready' 逻辑 (#42703)

Bug修复

  • 如果 提供了 batch_id,则在 Dataproc Serverless Batch 链接 启动后 发布 (#41153)

  • 修复 PubsubPullTrigger 中的 PubSubAsyncHook 使用 gcp_conn_id (#42671)

  • 修复 PubSubPullSensor 返回 一致的 响应 (#42080)

  • 拆分 完整的 BigQuery 名时,撤消 名中 排除 分区 (#42541)

  • 修复 gcp 文本转语音 uri 获取 (#42309)

  • 重构 ''GCSHook'' 中的 ''bucket.get_blob'' 调用 处理 不存在的 对象的验证。 (#42474)

  • Bugfix/dataflow job location 传递 (#41887)

其他

  • 删除 airflow 版本 2.8.0 以上版本中 任务 上下文 日志记录的 条件 检查 (#42764)

  • 数据集 相关的 python 变量 名称 重命名 asset (#41348)

  • 弃用 AutoMLBatchPredictOperator 重构 AutoMl 系统 测试 (#42260)

10.23.0

功能

  • 添加 dataproc 集群中 创建 Flink 作业的 能力 (#42342)

  • 添加 新的 Google Search 360 Reporting Operators (#42255)

  • return_immediately 作为 参数 添加到 PubSubPullSensor (#41842)

  • 'UploadModelOperator' 添加 parent_model 参数 (#42091)

  • 添加 DataflowStartYamlJobOperator (#41576)

  • Google Vertex AI Rapid Evaluation API 添加 RunEvaluationOperator (#41940)

  • Google Generative AI CountTokensAPI 添加 CountTokensOperator (#41908)

  • 添加 Supervised Fine Tuning Train Operator,Hook,Tests,Docs (#41807)

Bug修复

  • 进行小的修复 确保 成功的 Vertex AI LLMops pipeline (#41997)

  • BigQuery 名中 排除 分区 (#42130)

  • [修复 #41763]: 未指定 具有 默认值时,SFTPToGCSOperator 中的 冗余 正斜杠 destination_path (#41928)

  • 修复 GKEJobTrigger 中的 poll_interval (#41712)

  • 更新 dataflow job id 提取的 模式 (#41794)

  • 强制执行 google provider 包的 EOL 弃用 消息 格式 (#41637)

  • 修复 KubernetesJobOperator 'do_xcom_push' 'get_logs' 功能 (#40814)

其他

  • 标记 VertexAI AutoMLText 弃用 (#42251)

  • 排除 google-cloud-spanner 3.49.0 (#42011)

  • 删除 已弃用的 Google analytics operators 系统 测试 (#41946)

  • 更新 google-cloud-bigquery 包的 最小 版本 (#41882)

  • 取消固定 Google provider google-cloud-bigquery 版本 (#41839)

  • 已弃用的 DAG.following_schedule() 方法 迁移 (#41773)

  • providers 删除 已弃用的 soft_fail (#41710)

  • 更新 google-ads 的版本 (#41638)

  • 删除 已弃用的 日志 处理程序 参数 filename_template (#41552)

主要

警告

之前的 Search Ads 360 Reporting API <https://developers.google.com/search-ads/v2/how-tos/reporting> (当前在 google-provider 中使用)已于 2024 年 6 月 30 日停用(请参阅详细信息 <https://developers.google.com/search-ads/v2/migration>)。所有新的报告开发都应使用新的 Search Ads 360 Reporting API。目前,由于停用,报告 operators、传感器和 hooks 失败。新的 API 不是旧 API 的替代品,它具有不同的方法和端点。因此,为新的 API 实现了新的 operators。

10.22.0

注意

Apache Airflow providers support policy 中所述,此 provider 版本仅适用于 Airflow 2.8+。

功能

  • 添加 'CloudRunServiceHook' 'CloudRunCreateServiceOperator' (#40008)

Bug修复

  • fix(providers/google): CloudDataTransferServiceAsyncHook 添加 缺失的 sync_hook_class (#41417)

其他

  • providers 中的 最小 Airflow 版本 提升 Airflow 2.8.0 (#41396)

  • 重构 'DataprocCreateBatchOperator' (#41527)

  • 升级 gcloud-aio-auth>=5.2.0 (#41262)

10.21.1

Bug修复

  • 修复 CloudSQL hook 的不必要的 导入 (#41009)

  • 敏感信息 移动到 系统 测试 google_analytics_admin 密钥 管理器 (#40951)

  • 修复 自定义 训练 作业 operators 接受 没有 托管 模型 的结果 (#40685)

  • 修复 BigQueryInsertJobOperator reattach_state 参数的 行为 (#40664)

  • 修复 CloudSQLDatabaseHook 临时 文件 处理 (#41092)

其他

  • 重构 dataproc 系统 测试 (#40720)

  • openlineage: OpenLineage 提供程序 迁移到 V2 facet。 (#39530)

  • 解决 CloudSQLDatabaseHook 弃用 警告 (#40834)

  • 修复 BeamRunJavaPipelineOperator 在未设置 job_name 的情况下失败 (#40645)

10.21.0

注意

修改 修复 'GCSToGCSOperator' 移动 单个 对象的行为差异 (#40162) 已被撤销,因为它破坏了太多的现有工作流程。 GCSToGCSOperator 的行为已恢复到之前的行为。

功能

  • 更新 Google Cloud 生成式 模型 Hooks/Operators 以与 Vertex AI API 保持一致 (#40484)

  • DataflowStartFlexTemplateOperator。 每次检查周期检查 Dataflow 作业类型。 (#40584)

  • LocalFilesystemToGCSOperator 添加 chunk_size 参数 (#40379)

  • BigQueryCheckOperator 添加 查询 参数的支持 (#40558)

  • DataprocCreateBatchOperator 中添加指向 dataproc 作业的链接按钮 (#40643)

Bug 修复

  • 还原 "修复 'GCSToGCSOperator' 移动 单个 对象的行为差异 (#40162)" (#40577)

  • 修复 BigQueryInsertJobOperator 的返回值以及可延迟模式下的 openlineage 提取 (#40457)

  • 修复 GCP 可延迟运算符的 OpenLineage 提取 (#40521)

  • 修复 CloudBatchSubmitJobOperator 中对 project_id 的尊重 (#40560)

10.20.0

注意

现在,GCSToGCSOperator 在移动或复制单个对象时会保留嵌套的文件夹结构,使其行为与多个对象的行为保持一致。如果此更改影响您的工作流程,您可能需要调整您的 source_object 参数,以包括直到包含您的单个文件的文件夹的完整路径,并明确指定 destination_object 以忽略嵌套的文件夹。例如,如果您之前使用 source_object='folder/nested_folder/',要移动文件 'folder/nested_folder/second_nested_folder/file',您现在应该使用 source_object='folder/nested_folder/second_nested_folder/' 并指定 destination_object='folder/nested_folder/'。这将把文件移动到 'folder/nested_folder/file',而不是将其移动到 'folder/nested_folder/second_nested_folder/file' 的固定行为。

警告

上面的更改已在 10.21.0 版本中撤销。 GCSToGCSOperator 的行为已恢复到之前的行为。

功能

  • google cloud multimodal model operators 添加 generation_config safety_settings (#40126)

  • 'BigQueryUpdateTableSchemaOperator' 添加缺少的 location 参数 (#40237)

  • Google Cloud Operators 添加对外部 IdP OIDC 令牌检索的支持。 (#39873)

  • BigQuery operators 添加 encryption_configuration 参数 (#40063)

  • GoogleBaseAsyncHook 添加默认的 gcp_conn_id (#40080)

  • PubSubPublishMessageOperator GCP Operator 添加 排序 选项 (#39955)

  • GCSHook 中添加从 GCS blob 获取元数据的方法 (#38398)

  • AutoMLHook 中的 create_auto_ml_forecasting_training_job 中添加 window 参数 (#39767)

  • 实现 CloudComposerDAGRunSensor (#40088)

  • 实现 'CloudDataTransferServiceRunJobOperator' (#39154)

  • 异步获取 GKEStartPod 的中间日志 (#39348)

  • google provider 包中为 AzureBlobStorageToGCSOperator 添加 OpenLineage 支持 (#40290)

Bug 修复

  • 修复 hive_partition_sensor 系统 测试 (#40023)

  • 修复 openai 1.32 破坏 openai 测试 (#40110)

  • 修复 google auth mypy 版本显示凭据初始化 (#40108)

  • 修复 DataflowHook 中排除双引号和换行符的正则表达式 (#39991)

  • 修复 BigQueryToPostgresOperator 的替换参数 (#40278)

  • 修复 'GCSToGCSOperator' 移动 单个 对象的行为差异 (#40162)

其他

  • 重构 datapipeline operators (#39716)

  • 更新 Python 3.12 pandas 最低要求 (#40272)

  • 使用最低直接依赖关系解析实现每个提供程序的测试 (#39946)

  • openlineage: 在单独的进程中执行提取和消息发送 (#40078)

  • google-auth 的最低版本提升到 2.29.0 (#40190)

  • 提升 google-ads 版本以默认使用 v17 (#40158)

  • google: openlineage 导入移动到方法内部 (#40062)

  • DataplexGetDataQualityScanResultOperator 中添加 job_id 作为 template_field (#40041)

  • httpx >= 0.25.0 添加依赖项 (#40256)

10.19.0

注意

在 AutoML Natural Language、Tables、Vision 和 Video Intelligence 服务的旧版本关闭后,几个 AutoML 运算符已停止支持。这包括 AutoMLDeployModelOperatorAutoMLTablesUpdateDatasetOperatorAutoMLTablesListTableSpecsOperatorAutoMLTablesListColumnSpecsOperator。请参阅运算符文档以了解可用的替代方案(如果有)。有关 AutoML 关闭的更多信息,请参见

功能

  • GCP base hook 中引入匿名凭据 (#39695)

Bug 修复

  • 如果 parent_model 版本后缀传递给 Vertex AI operators,则删除它 (#39640)

  • 如果缺少 location,则修复 BigQueryCursor execute 方法 (#39659)

  • 修复 PubSubPullSensor 可延迟模式 下的 已确认功能 (#39711)

  • AutoML Operator 链接 重定向 Google 翻译 链接 (#39668)

  • google-cloud-bigquery 锁定 < 3.21.0 (#39583)

其他

  • 移除 Google Snowflake Provider 中的 'openlineage.common' 依赖项 (#39614)

  • 弃用 AutoML Tables Operator (#39752)

  • 解决 Azure FileShare-to-GCS 测试 中的 弃用警告 (#39599)

  • 拼写错误: spec 中错误的 OpenLineage facet key (#39782)

  • StackdriverTaskHandler 移除 陈旧代码 (#39744)

10.18.0

注意

Apache Airflow Provider支持策略中所述,此 Provider 版本仅适用于 Airflow 2.7+。

功能

  • Google LLM Operator 添加 模板化 字段 (#39174)

  • 添加 逻辑 以处理 deferrable=True BigQueryInsertJobOperator on_kill (#38912)

  • 创建 'CloudComposerRunAirflowCLICommandOperator' Operator (#38965)

  • Dataflow Sensor 可延迟 模式 (#37693)

  • 自定义 训练 Job Operator 可延迟 模式 (#38584)

  • CloudSQLExecuteQueryOperator 中对 SSL 支持的 增强 (#38894)

  • 创建 GKESuspendJobOperator GKEResumeJobOperator Operator (#38677)

  • Google Transfer Service Operator 中的 AWS 凭据 添加 role arn 的支持 (#38911)

  • encryption_configuration 参数 添加到 BigQueryCheckOperator BigQueryTableCheckOperator (#39432)

  • 'job_id' 参数 添加到 'BigQueryGetDataOperator' (#39315)

Bug修复

  • 修复 DataflowTemplatedJobStartOperator DataflowStartFlexTemplateOperator 可延迟模式 (#39018)

  • 修复 BigQueryToPostgresOperator 批量处理 (#39233)

  • 修复 任务 被标记为 失败时 deferrable mode=True 下的 DataprocSubmitJobOperator (#39230)

  • 修复 GCSObjectExistenceSensor Operator 以在 可延迟 非可延迟 模式下返回相同的 XCOM (#39206)

  • 修复 conn_id BigQueryToMsSqlOperator (#39171)

  • 修复 Google 身份验证 刷新凭据 错误的情况下添加重试逻辑 (#38961)

  • 修复 可延迟模式下 BigQueryCheckOperator 跳过的 错误检查 (#38408)

  • 修复 GCSDeleteObjectsOperator 中使用 前缀 而不是所有文件路径来表示 OpenLineage 数据集 (#39059)

  • 修复 GCSToGCSOperator 中使用 前缀 而不是完整文件路径来表示 OpenLineage 数据集 (#39058)

  • 修复 GCSTimeSpanFileTransformOperator 中的 OpenLineage 数据集 (#39064)

  • 修复 'DataprocSubmitPySparkJobOperator' 临时 文件名生成 (#39498)

  • 修复 TaskInstance 未处于 running deferred 状态时 DataprocSubmitJobOperator 取消外部 Job 的逻辑 (#39447)

  • 修复 TaskInstance 未处于 running deferred 状态时 BigQueryInsertJobOperator 取消外部 Job 的逻辑 (#39442)

  • 修复 TaskInstance 未处于 running deferred 状态时 DataprocCreateClusterOperator 取消外部 Job 的逻辑 (#39446)

  • 修复 使用 'result_retry' 'DataprocCreateBatchOperator' 引发 'AttributeError' (#39462)

  • 修复 GKEStartKueueInsideClusterOperator YAML 解析 (#39234)

  • 修复 BigQueryInsertJobOperator 中标签值的验证 (#39568)

其他

  • Provider 中的 最低 Airflow 版本 提升到 Airflow 2.7.0 (#39240)

  • 改进 'DataprocCreateClusterOperator' Trigger以实现更好的错误处理和资源清理 (#39130)

  • Microsoft Azure Provider 中添加 MSGraphOperator (#38111)

  • Google Provider 中应用 PROVIDE_PROJECT_ID mypy 解决方法 (#39129)

  • 处理 KubernetesDeleteJobOperator 导入 (#39036)

  • 移除 Airflow 2.6 向后兼容代码 (#39558)

  • 重新应用 所有 Provider 的模板 (#39554)

  • 更快地 导入 'airflow_version' (#39552)

  • 已弃用的 添加 弃用警告并引发异常 (#38673)

  • 简化 'airflow_version' 导入 (#39497)

  • 断开 GKE Operator 与已弃用 Hook 的连接 (#39434)

10.17.0

功能

  • 'impersonation_scopes' 添加到 BigQuery (#38169)

  • 可延迟模式 添加到 RunPipelineJobOperator (#37969)

  • 添加 GKECreateCustomResourceOperator GKEDeleteCustomResourceOperator Operator (#37616)

  • 为 Google Cloud Generative AI 使用添加 VertexAI 语言模型和多模态模型操作符 (#37721)

  • 添加 GKEListJobsOperator 和 GKEDescribeJobOperator (#37598)

  • 创建 GKEStartKueueJobOperator 操作符 (#37477)

  • 创建 DeleteKubernetesJobOperator 和 GKEDeleteJobOperator 操作符 (#37793)

  • 更新 GCS hook 以获取 CMEK 保护对象的 crc32c 哈希 (#38191)

  • 为 BigQuery 作业设置作业标签以进行可追溯性 (#37736)

  • CreateBatchPredictionJobOperator 的可延期模式 (#37818)

Bug 修复

  • 修复 BigQuery 连接并添加文档 (#38430)

  • fix(google,log): 避免日志名称覆盖 (#38071)

  • 修复 S3ToGCSOperator 触发器的凭据错误 (#37518)

  • 修复 GCP Vertex AI AutoML 和自定义作业操作符中的 'parent_model' 参数 (#38417)

  • fix(google): 添加 return 语句以在触发器中的 while 循环内生成 (#38394)

  • 修复 'PostgresToGCSOperator' 中游标唯一名称超出 Postgres 标识符限制的问题 (#38040)

  • 修复 gcs 匿名用户问题,因为无 token (#38102)

  • 修复 BigQueryTablePartitionExistenceTrigger 分区查询 (#37655)

其他

  • 添加 google-cloud-bigquery 作为显式的 google-provider 依赖项 (#38753)

  • 避免在 'google' provider 的类方法中使用 'functools.lru_cache' (#38652)

  • 重构 GKE hooks (#38404)

  • 从 airflow 包中删除未使用的循环变量 (#38308)

  • cloud_storage_transfer_service 的模板化字段逻辑检查 (#37519)

  • 重命名 mlengine 操作符的字段名称以符合模板化字段验证 (#38053)

  • 重命名 Vertex AI AutoML 操作符的字段名称以符合模板化字段验证 (#38049)

  • 重命名 'DeleteCustomTrainingJobOperator' 的字段名称以符合模板化字段验证 (#38048)

  • 恢复从 Google Cloud 检索的 Google Transfer 操作符的 delegate_to (#37925)

  • 重构 CreateHyperparameterTuningJobOperator (#37938)

  • 升级 google-ads 版本 (#37787)

10.16.0

特性

  • 'CloudRunExecuteJobOperator': 添加 project_id 到 hook.get_job 调用 (#37201)

  • 添加开发者 token 作为 GoogleAdsHook 的身份验证方法 (#37417)

  • 添加 GKEStartKueueInsideClusterOperator (#37072)

  • 为 BigQueryInsertJobTrigger 添加可选的 'location' 参数 (#37282)

  • feat(GKEPodAsyncHook): 使用异步凭据 token 实现 (#37486)

  • 创建 GKEStartJobOperator 和 KubernetesJobOperator (#36847)

Bug 修复

  • 修复 'DataFusionPipelineLinkHelper' 的无效弃用 (#37755)

  • 修复模板化字段赋值 'google/cloud/operators/compute.py' (#37659)

  • 修复 bq_to_mysql 初始化检查 (#37653)

  • 修复 Async GCSObjectsWithPrefixExistenceSensor xcom push (#37634)

  • 修复 GCSSynchronizeBucketsOperator 超时错误 (#37237)

  • fix: insert_rows 的签名与超类型 DbApiHook 不兼容 (#37391)

  • 在 _CredentialsToken 中使用 offset-naive datetime (#37539)

  • 在 DataprocInstantiateInlineWorkflowTemplateOperator 中使用 wait_for_operation (#37145)

其他

  • 修复 DataflowStartFlexTemplateOperator 文档中的拼写错误 (#37595)

  • 仅在 'DbApiHook.insert_rows' 中将 'executemany' 关键字参数设为仅关键字参数 (#37840)

  • 统一 'aws_conn_id' 类型,始终为 'str | None' (#37768)

  • 限制 'pandas' 到 '<2.2' (#37748)

  • 移除 Google provider 操作符中损坏的已弃用回退 (#37740)

  • 实现 AIP-60 数据集 URI 格式 (#37005)

  • 解决 'bigquery' 的模板字段初始化检查 (#37586)

  • 更新 DataprocCreateBatchOperator 的文档 (#37562)

  • 替换 providers 中 'datetime.utcnow' 和 'datetime.utcfromtimestamp' 的用法 (#37138)

10.15.0

特性

  • 添加 service_file 支持到 GKEPodAsyncHook (#37081)

  • 更新 GCP Dataproc ClusterGenerator 以支持 GPU 参数 (#37036)

  • 创建 DataprocStartClusterOperator 和 DataprocStopClusterOperator (#36996)

  • 为 CreateHyperparameterTuningJobOperator 实现可延期模式 (#36594)

  • 为 GKEPodHook 启用 '_enable_tcp_keepalive' 功能 (#36999)

Bug 修复

  • fix(providers/google): 修复 GKEPodAsyncHook.service_file_as_context 的使用方式 (#37306)

  • 修复 ComputeEngineSSHHook 的元数据覆盖 (#37192)

  • 修复 '__init__' 中 'custom_job' 中模板字段的赋值 (#36789)

  • 修复 DataflowTemplatedJobStartOperator 中的 location 要求 (#37069)

  • 修复 'CloudDataTransferServiceCreateJobOperator' '__init__' template 字段 赋值 (#36909)

  • 修复了 GCP Data Fusion 链接的 硬编码 默认 namespace 值。 (#35379)

  • 如果在 Dataproc 集群 配置中 internal_ip_only 设置为 false, 则不要 忽略 (#37014)

其他

  • 恢复 针对 google-core-api 向后兼容性 问题的 保护 (#37111)

  • 特性: 将所有 类、 函数、 方法 弃用 切换到 装饰器 (#36876)

10.14.0

注意

BaseSQLToGCSOperator 中的 parquet_row_group_size 的默认值已从 1 更改为 100000,以便拥有一个默认值,该默认值提供更好的压缩效率和读取输出 Parquet 文件的数据的性能。在许多情况下,先前的值 1 导致非常大的文件、长时间的任务持续时间和内存不足的问题。默认值 100000 可能需要更多内存来执行运算符,在这种情况下,用户可以覆盖运算符中的 parquet_row_group_size 参数。当 export_formatparquet 时,所有派生自 BaseSQLToGCSOperator 的运算符都会受到影响:MySQLToGCSOperatorPrestoToGCSOperatorOracleToGCSOperatorTrinoToGCSOperatorMSSQLToGCSOperatorPostgresToGCSOperator。鉴于以上情况,我们将此更改视为错误修复。

功能

  • templated 字段 添加到 来自 'BigQueryToPostgresOperator' 'BigQueryToSqlBaseOperator' (#36663)

  • 添加了 检查 取消 工作流 调用 并添加了 新的 查询 工作流 调用 运算符 (#36351)

  • 实现 Google Analytics Admin (GA4) 运算符 (#36276)

  • 添加 运算符 诊断 集群 (#36899)

  • scopes 添加到 GCP token (#36974)

  • 特性: gcloud-aio 客户端中 完全 支持 google 凭据 (#36849)

错误修复

  • 修复 templated 字段 super 构造函数 (#36934)

  • 修复: GKEStartPodOperator 尊重 连接 ID 模拟 (#36861)

  • 修复 warnings.warn stacklevel providers (#36831)

  • 修复 GCP Dataproc 链接中 弃用 (#36834)

  • 修复 构造函数中 templated 字段 赋值 (#36603)

  • Dataproc 运算符 推迟 触发器 之前 检查 集群 状态 (#36892)

  • 防止 运算符 __init__ templated 字段 逻辑 检查 (#36489)

  • 直接 通过 BigQuery 加载 API 保留 ASCII 控制 字符 (#36533)

  • 更改 'BaseSQLToGCSOperator' 中的 默认 'parquet_row_group_size' (#36817)

  • 修复 google 运算符 处理 模拟 的问题 (#36903)

其他

  • 样式(providers/google): 改进 BigQueryInsertJobOperator 类型 提示 (#36894)

  • 弃用 用于 视觉和视频的 AutoMLTrainModelOperator (#36473)

  • 删除 KubernetesPodOperator 模块的 向后兼容性 检查 (#36724)

  • 删除 KubernetesPodTrigger 模块的 向后兼容性 检查 (#36721)

  • 所有 providers airflow 最小 pandas 依赖项 设置为 1.2.5 (#36698)

  • 删除 不必要的 templated 字段 (#36491)

  • 文档(providers/google): 文档字符串中将 GoogleBaseHookAsync 改写为 GoogleBaseAsyncHook (#36946)

10.13.1

其他

  • 删除 stackdriver 向后兼容 代码 (#36442)

  • 删除 未使用的 '_parse_version' 函数 (#36450)

  • GCS 任务 处理程序中 删除 剩余的 Airflow 2.5 向后兼容 代码 (#36443) (#36457)

10.13.0

注意

此 provider 版本仅适用于 Airflow 2.6+,如 Apache Airflow providers 支持策略中所述。

功能

  • GCP Secrets 后端 模拟 (#36072)

  • GcsOperators 添加 OpenLineage 支持 - 删除、 转换 TimeSpanTransform (#35838)

  • 添加 使用 computeEngineSSHHook (google provider) IAP 隧道 进行 服务帐户 模拟的 支持 (#35136)

  • 添加 Datascan 分析 (#35696)

  • Google Cloud Run 作业 执行 运算符的 模板 字段添加 覆盖 (#36133)

  • BeamRunJavaPipelineOperator 实现 可延期 模式 (#36122)

  • 添加 在非 可延期 模式下为 BeamRunPythonPipelineOperator 运行 流式 作业的 能力 (#36108)

  • use_glob 添加到 GCSObjectExistenceSensor (#34137)

错误修复

  • 修复 DataprocSubmitJobOperator 以检索 失败 作业 错误 消息 (#36053)

  • 修复 CloudRunExecuteJobOperator 无法在 可延期 模式下检索 Cloud Run 作业 状态 (#36012)

  • 修复 gcs 列表 - 确保 blobs 已加载 (#34919)

  • 允许 模拟 链中的 多个 元素 (#35694)

  • Google Dataflow 客户端的 重试 类型更改为 异步 重试 (#36141)

  • DataprocCreateClusterOperator 运算符文档的 小幅修复。 (#36322)

  • 修复(bigquery.py): 将正确的 project_id 传递给 触发器 (#35200)

  • 在检查 前缀之前 迭代 blobs (#36202)

  • 修复 google-cloud-monitoring 2.18.0 的不兼容性 (#36200)
    • 更新 PubSubAsyncHook 中的 'retry' 参数 类型 (#36198)

其他

  • 将 providers 中的最低 Airflow 版本提升至 Airflow 2.6.0 (#36017)

  • 弃用 'CloudComposerEnvironmentSensor',推荐使用带有 defer 模式的 'CloudComposerCreateEnvironmentOperator' (#35775)

  • 在子类中遵循 BaseHook 连接字段方法签名 (#36086)

  • 允许传递存储选项 (#35820)

  • 添加从源码构建 "chicken-egg" 包的功能 (#35890)

  • 从 Google Provider 中移除剩余的 Airflow 2.5 向后兼容代码 (#36366)

  • 将 KubernetesPodTrigger hook 移动到缓存属性 (#36290)

  • 通过 Ruff 在文档字符串中添加代码片段格式 (#36262)

10.12.0

功能

  • 为 schema_settings 和 message_retention_duration 添加了主题参数。 (#35767)

  • 添加对 GCSToBigQueryOperator 的 OpenLineage 支持 (#35778)

  • 添加对 BigQueryToGCSOperator 的 OpenLineage 支持 (#35660)

  • 为 Dataproc 添加对驱动程序池、实例灵活性策略和 min_num_instances 的支持 (#34172)

  • 为 Dataproc worker 添加 "NON_PREEMPTIBLE" 作为有效的抢占类型 (#35669)

  • 添加将 impersonation_chain 传递给 BigQuery 触发器的能力 (#35629)

  • 在 GoogleDisplayVideo360CreateQueryOperator 中为本地文件添加过滤器 (#35635)

  • 扩展使用 GCP GCS 的远程日志记录的任务上下文日志记录支持 (#32970)

Bug 修复

  • 修复并重新应用 provider 文档的模板 (#35686)

  • 修复检查 dataflow 作业状态的逻辑 (#34785)

其他

  • 从 BigQueryToBigQueryOperator 中移除对已弃用方法的使用 (#35605)

  • 在父类而不是 TaskContextLogger set_context 中检查 attr (#35780)

  • 移除 providers 中与 Airflow 2.3/2.4 的向后兼容 (#35727)

  • 在 GoogleDiscoveryApiHook 中恢复 delegate_to 参数 (#35728)

  • 移除对 BigQueryCursor 中已弃用方法的使用 (#35606)

  • 对齐 'MSSQLToGCSOperator' 的文档 (#35715)

10.11.1

其他

  • 将 Google Ads API 版本从 v14 更新到 v15 (#35295)

10.11.0

功能

  • AIP-58:添加 Airflow 对象存储 (AFS) (#34729)

  • 改进 Dataprep hook (#34880)

其他

  • 将 'overrides' 参数添加到 CloudRunExecuteJobOperator (#34874)

10.10.1

其他

  • 添加与 Google Cloud Storage 相关的文档之间的链接 (#34994)

  • 将 AI Platform Prediction 的旧版本迁移到 VertexAI (#34922)

  • 在 DataprocInstantiate{Inline}WorkflowTemplateOperator 的 on_kill 中取消工作流 (#34957)

10.10.0

注意

Apache Airflow providers 支持策略中所述,此 provider 版本仅适用于 Airflow 2.5+。

功能

  • 改进:在 BigQueryIntervalCheckOperator 中引入 project_id (#34573)

Bug 修复

  • 在为 google sensors 引发异常时遵守 soft_fail 参数 (#34501)

  • 修复 GCSToGoogleDriveOperator 和 gdrive 系统测试 (#34545)

  • 修复 LookerHook 序列化缺少 1 个参数错误 (#34678)

  • 修复 Dataform 系统测试 (#34329)

其他

  • 提升 providers 的最低 airflow 版本 (#34728)

  • 重构 DataFusionInstanceLink 用法 (#34514)

  • 在 Google Provider 示例中使用 'airflow.models.dag.DAG' (#34614)

  • 弃用 Life Sciences Operator 和 Hook (#34549)

  • 在 providers 中使用 'airflow.exceptions.AirflowException' (#34511)

10.9.0

功能

  • 为 CloudDataFusionStartPipelineOperator 添加对流(实时)管道的显式支持 (#34271)

  • 将 'expected_terminal_state' 参数添加到 Dataflow operators (#34217)

Bug 修复

  • 修复:当在 body 参数中给出时,'ComputeEngineInsertInstanceOperator' 不遵守 jinja 模板化的实例名称 (#34171)

  • 修复:BigQuery 作业错误消息 (#34208)

  • GKEPodHook 忽略 gcp_conn_id 参数。 (#34194)

其他

  • 提升 Google provider min common-sql provider 版本 (#34257)

  • 移除 字典上不必要的 keys() 方法调用 (#34260)

  • 重构: providers 中积极思考 (#34279)

  • 重构: 简化 providers/google 中的代码 (#33229)

  • 重构: 简化比较 (#34181)

  • 弃用 NL AutoMLTrainModelOperator (#34212)

  • 简化为 bool(...) (#34258)

  • 使 Google Dataform operators templated_fields 更加一致 (#34187)

10.8.0

特性

  • Dataplex DataQuality 添加 deferrable 模式。 (#33954)

  • 允许在 Google Cloud 连接上设置 impersonation_chain (#33715)

Bug 修复

  • fix(providers/google-marketing-platform): 当引发异常时,尊重 soft_fail 参数 (#34165)

  • fix: endpoint_service.py 中的文档字符串 (#34135)

  • 修复 BigQueryValueCheckOperator deferrable 模式优化 (#34018)

  • Datafusion pipelines artifact 版本动态设置 (#34068)

  • 如果 Dataproc 集群以 ERROR 状态启动,则尽早删除它。 (#33668)

  • 当使用 DataFusionAsyncHook 时,通过将 sleep 替换为 asyncio.sleep 来避免阻塞事件循环 (#33756)

其他

  • 整合 os.path.* 的导入 (#34060)

  • 重构 providers 中的正则表达式 (#33898)

  • Google provider 中,如果可能,将 try 移到循环外部 (#33976)

  • 合并 providers 中类似的 if 逻辑 (#33987)

  • providers 中删除无用的字符串连接 (#33968)

  • 更新 Azure fileshare hook 以使用 azure-storage-file-share 而不是 azure-storage-file (#33904)

  • 重构 providers 中不需要的跳转 (#33833)

  • 当在 providers 中寻找正值时,用 any 替换循环 (#33984)

  • providers 中,用 contextlib.suppress 替换 try - except pass (#33980)

  • providers 代码中删除一些无用的 try/except (#33967)

  • Airflow providers 中,用解包替换序列连接 (#33933)

  • 'BigQueryHook.get_pandas_df' 中删除一个已弃用的选项 (#33819)

  • providers 中,用 dict() 替换不必要的字典推导式 (#33857)

  • 通过将其中一些移到类型检查块中,改进 google provider 中的模块导入 (#33783)

  • providers 中,使用带有多个上下文的单个语句,而不是嵌套语句 (#33768)

  • providers 中,使用字面量字典而不是调用 dict() (#33761)

  • 删除不必要的,并使用 providers 中的列表重写它 (#33763)

  • 重构: 简化一些循环 (#33736)

  • E731: Airflow providers 中,用 def 方法替换 lambda (#33757)

  • Airflow providers 中使用 f-string (#33752)

10.7.0

特性

  • 添加 CloudRunHook operators (#33067)

  • 添加 'CloudBatchHook' operators (#32606)

  • 添加对 Google Cloud Data Pipelines Run Operator 的支持 (#32846)

  • 将参数 sftp_prefetch 添加到 SFTPToGCSOperator (#33274)

  • 添加 Google Cloud Data Pipelines Create Operator (#32843)

  • 添加 Dataplex Data Quality operators。 (#32256)

Bug 修复

  • 修复了当使用不同于 CSV 的格式时 BigQueryCreateExternalTableOperator 的问题 (#33540)

  • 修复 DataplexDataQualityJobStatusSensor 并添加单元测试 (#33440)

  • 避免在运行时和模块级别导入 pandas numpy (#33483)

其他

  • 将缺少的模板字段添加到 DataformCreateCompilationResultOperator (#33585)

  • 整合 pandas 的导入和使用 (#33480)

  • datetime 导入 utc 并规范化其导入 (#33450)

10.6.0

特性

  • openlineage, bigquery: BigQueryExecuteQueryOperator 添加 openlineage 方法支持 (#31293)

  • GCS Requester Pays bucket 支持添加到 GCSToS3Operator (#32760)

  • CloudDataTransferServiceGCSToGCSOperator 添加系统测试和文档 (#32960)

  • 为SQL运算符添加一个新参数,以指定conn id字段(#30784)

Bug 修复

  • 修复 'DataFusionAsyncHook' 捕获 404 错误 (#32855)

  • 修复 MetastoreHivePartitionSensor 的系统测试 (#32861)

  • 修复捕获 409 错误 (#33173)

  • 使 'sql' 成为 'BigQueryInsertJobOperator' 中的缓存属性 (#33218)

其他

  • refactor(providers.google): 对 DATAPROC_JOB_LOG_LINK 使用模块级别的 __getattr__ 到 DATAPROC_JOB_LINK 并添加弃用警告 (#33189)

10.5.0

新特性

  • openlineage, gcs: 为 GcsToGcsOperator 添加 openlineage 方法 (#31350)

  • 使用 Dataproc Operators 添加 Spot 实例支持 (#31644)

  • 将 sqlalchemy-spanner 包安装到 Google provider 中 (#31925)

  • 过滤和排序 DataprocListBatchesOperator 的结果 (#32500)

Bug 修复

  • 修复 BigQueryGetDataOperator 在 deferrable 模式下不遵守 project_id 的问题 (#32488)

  • 刷新 GKE OAuth2 令牌 (#32673)

  • 修复 'BigQueryInsertJobOperator' 没有退出 deferred 状态 (#31591)

其他

  • 修复已弃用的 DataprocSubmitSparkJobOperator 的文档字符串,并重构系统测试 (#32743)

  • 为 DbApiHook.run 方法添加更准确的类型提示 (#31846)

  • 将弃用信息添加到 providers 模块和类的文档字符串中 (#32536)

  • 修复已弃用的 DataprocSubmitHiveJobOperator 的文档字符串 (#32723)

  • 修复已弃用的 DataprocSubmitPigJobOperator 的文档字符串 (#32739)

  • 修复 Datafusion 系统测试 (#32749)

10.4.0

新特性

  • 为 S3ToGCSOperator 实现 deferrable 模式 (#29462)

Bug 修复

  • 当复制文件到没有通配符的文件夹时,修复 GCSToGCSOperator (#32486)

  • 修复 'GCSHook' 中 upload 函数的 'cache_control' 参数 (#32440)

  • 修复 BigQuery transfer operators 以遵守 project_id 参数 (#32232)

  • 修复在空列表上 gcp_gcs_delete_objects 的问题 (#32383)

  • 修复 cloud_build 中 defer 的无限循环问题 (#32387)

  • 修复 GCSToGCSOperator 在没有通配符且 exact_match=True 的情况下的复制问题 (#32376)

其他

  • 允许提供目标文件夹 (#31885)

  • 将 'AzureBlobStorageToGCSOperator' 从 Azure 移动到 Google provider (#32306)

  • 在 BigQueryInsertJobOperator 中提供更好的 job configuration docs 链接 (#31736)

10.3.0

新特性

  • 将 'on_finish_action' 添加到 'KubernetesPodOperator' (#30718)

  • 将 deferrable 模式添加到 CloudSQLExportInstanceOperator (#30852)

  • 将 'src_fmt_configs' 添加到模板字段列表中 (#32097)

Bug 修复

  • [Issue-32069] 修复批量请求中的名称格式 (#32070)

  • 修复 'BigQueryInsertJobOperator' 在 deferrable 模式下的错误处理 (#32034)

  • 修复 'BigQueryConsoleLink' 中的 'BIGQUERY_JOB_DETAILS_LINK_FMT' (#31953)

  • 使 DataprocCreateBatchOperator 的 deferrable 版本能够处理已存在的 batch_id (#32216)

其他

  • 将 Google Ads API 版本从 v13 切换到 v14 (#32028)

  • 弃用 GCS 中的 'delimiter' 参数和源对象的通配符,引入 'match_glob' 参数 (#31261)

  • 重构 GKECreateClusterOperator 的 body 验证 (#31923)

  • 优化 'BigQueryValueCheckOperator' 的 deferrable 模式执行 (#31872)

  • 添加 default_deferrable 配置 (#31712)

10.2.0

注意

此版本放弃了对 Python 3.7 的支持

新特性

  • 在循环中生成事件时添加 return 以停止执行 (#31985)

  • 将 deferrable 模式添加到 PubsubPullSensor (#31284)

  • 添加一个新参数,以在 'BaseSQLToGCSOperator' 中设置 parquet 行组大小 (#31831)

  • 将 'cacheControl' 字段添加到 google cloud storage (#31338)

  • 将 'preserveAsciiControlCharacters' 添加到 'src_fmt_configs' (#31643)

  • 将 credential configuation 文件身份验证支持添加到 Google Secrets Manager secrets 后端 (#31597)

  • 将 credential configuration 文件支持添加到 Google Cloud Hook (#31548)

  • 将 deferrable 模式添加到 'GCSUploadSessionCompleteSensor' (#31081)

  • 在 DataflowStartFlexTemplateOperator 中添加 append_job_name 参数 (#31511)

  • FIPS 环境:将 md5 的使用标记为“不用于安全目的” (#31171)

  • 实现 MetastoreHivePartitionSensor (#31016)

Bug 修复

  • Bigquery: 修复已存在的表和数据集的链接 (#31589)

  • 为 TabularDataset 提供缺少的 project id 和 creds (#31991)

其他

  • 优化 'DataprocSubmitJobOperator' 的 deferrable 模式执行 (#31317)

  • 优化 可延期模式 执行 ,针对 'BigQueryInsertJobOperator' (#31249)

  • 移除 yield from triggers 后的 return 语句 (#31703)

  • 标准 csv 替换 unicodecsv (#31693)

  • 优化 可延期模式 (#31758)

  • 移除 Python 3.7 支持 (#30963)

10.1.1

Bug修复

  • 修复 通过 私有 端点 'GKEStartPodOperator' 访问 GKE 集群 的问题 (#31391)

  • 修复 'BigQueryGetDataOperator' 可延期模式 下的 查询 作业 错误 (#31433)

10.1.0

注意

正如 Apache Airflow providers 支持策略中所述,此 provider 版本仅适用于 Airflow 2.4+。

注意

此版本将默认的 Google Ads 更新为 v13。由于 Google 已弃用 v12 并且即将删除它,因此我们不认为这是 Airflow 中的一项重大更改。

注意

此版本的 provider 更新了许多 Google 包。请查看包更改日志

特性

  • 添加 可延期模式 DataprocInstantiateInlineWorkflowTemplateOperator (#30878)

  • 添加 可延期模式 'GCSObjectUpdateSensor' (#30579)

  • 添加 协议 定义 KubernetesPodOperator 依赖的 方法 (#31298)

  • 添加 BigQueryToPostgresOperator (#30658)

Bug修复

  • 'DataflowTemplatedJobStartOperator' 修复了 提供了 区域时, 默认值 覆盖 location 的问题。 (#31082)

  • GCSObjectsWithPrefixExistenceSensor 延期 之前 轮询 一次 (#30939)

  • 添加 可延期模式 'GCSObjectsWithPrefixExistenceSensor' (#30618)

  • 允许 gcs 删除/列表 hooks operators 中使用 多个 前缀 (#30815)

  • 修复 可延期 GCS 传感器中 删除的 delegate_to 参数 (#30810)

其他

  • 添加 'use_legacy_sql' 参数 'BigQueryGetDataOperator' (#31190)

  • 添加 'as_dict' 参数 'BigQueryGetDataOperator' (#30887)

  • 添加 标记 apply_gcs_prefix S3ToGCSOperator (b/245077385) (#31127)

  • 添加 'priority' 参数 BigQueryHook (#30655)

  • 提升 providers 中的 最低 Airflow 版本 (#30917)

  • BigQueryCreateExternalTableOperator 实现 gcs_schema_object (#30961)

  • 优化 延迟 执行 模式 (#30946)

  • 优化 可延期模式 执行 (#30920)

  • 优化 'GCSObjectExistenceSensor' 中的 可延期模式 (#30901)

  • 'CreateBatchPredictionJobOperator' Vertex AI BatchPredictionJob 对象 添加 batch_size 参数 (#31118)

  • GKEPodHook 需要 具有 KPO 调用的 所有 方法 (#31266)

  • 添加 CloudBuild 构建 id 日志 (#30516)

  • 默认 Google ads 切换到 v13 (#31382)

  • 切换到 google ads v13 (#31369)

  • 更新 google provider 包的 SDK (#30067)

10.0.0

重大更改

Google 宣布将于 2023 年 4 月 20 日停止 Campaign Manager 360 v3.5。有关更多信息,请查看:https://developers.google.com/doubleclick-advertisers/deprecation 。因此,Campaign Manager 360 operator 的默认 api 版本已更新为最新的 v4 版本。

警告

在此版本的 provider 中,已从所有 GCP operators、hooks 和 triggers 中删除已弃用的 delegate_to 参数,以及与 GCS 交互的 firestore 和 gsuite transfer operators。可以通过使用 impersonation_chain 参数来实现模拟。delegate_to 参数仍仅在 gsuite 和 marketing platform hooks 和 operators 中可用,它们不与 Google Cloud 交互。

  • GCP operators hooks 移除 delegate_to (#30748)

  • 更新 Google Campaign Manager360 operators 以使用 API v4 (#30598)

Bug修复

  • 更新 DataprocCreateCluster operator 以正确使用 'label' 参数 (#30741)

其他

  • BigQueryGetDataOperator 添加 缺失的 project_id (#30651)

  • 展示 Video 360 清理 v1 API 用法 (#30577)

9.0.0

重大更改

Google 宣布将于 2023 年 4 月 27 日停止 Bid manager API v1 和 v1.1,有关更多信息,请查看:docs 因此,GoogleDisplayVideo360Hook 和相关 operators 中的 api_version 默认值已更新为 v2

此版本的 provider 包含一个临时解决方法,用于解决 google-ads API 的 v11 版本已停止使用的问题,而 google provider 依赖项阻止安装任何支持 v12 API 的 google-ads 客户端。此版本包含 google-ads 库的内置版本 20.0.0,仅支持 v12。一旦 provider 的依赖项允许使用支持更新版本的 google-ads API 的 google-ads,此解决方法(和内置库)将被删除。

注意

仅支持 google ads 的 v12 版本。创建 operator 或客户端时,应设置 v12。

  • 更新 DV360 operators 以使用 API v2 (#30326)

  • 修复 google ads 内置库中的 动态 导入 (#30544)

  • 修复 vendored-in google ads 所需的 另一个 动态 导入 (#30564)

特性

  • 添加 可延期模式 GKEStartPodOperator (#29266)

Bug修复

  • BigQueryHook list_rows/get_datasets_list 可以返回 迭代器 (#30543)

  • 修复 构建 异步 凭据 (#30441)

8.12.0

特性

  • Bigquery operator 添加 缺失的 'poll_interval' (#30132)

  • BigQueryInsertJobOperator 中添加 poll_interval 参数 (#30091)

  • 添加 'job_id' 'BigQueryToGCSOperator' templated_fields (#30006)

  • 支持 使用 远程 日志记录 删除 本地 日志 文件 (#29772)

Bug 修复

  • 修复 设置 gs bq bq gs project_id (#30053)

  • 修复 云构建 操作符上的 location (#29937)

  • 'GoogleDriveHook': 修复 日志 消息 + 添加 更详细的 文档 (#29694)

  • "BOOLEAN" 添加到 MSSQLToGCSOperator type_map修复 不正确的 bit->int 类型 转换,通过 显式指定 BIT 字段 (#29902)

  • Google Cloud Providers - 修复 _MethodDefault deepcopy 失败 (#29518)

  • 处理 异步 BigQuery dts 触发器上的 项目 location 参数 (#29786)

  • 支持 CloudDataTransferServiceJobStatusSensor 而不指定 project_id (#30035)

  • 正常 模式下 等待 insert_job 结果 (#29925)

其他

  • BigQueryTableExistenceAsyncSensor 合并到 BigQueryTableExistenceSensor (#30235)

  • google provider 中删除 不必要的 上限 约束 (#29915)

  • BigQueryTableExistencePartitionAsyncSensor 合并到 BigQueryTableExistencePartitionSensor (#30231)

  • GCSObjectExistenceAsyncSensor 逻辑 合并到 GCSObjectExistenceSensor (#30014)

  • cncf provider 文件名 AIP-21 对齐 (#29905)

  • 切换到 使用 供应商提供的 google ads。 (#30410)

  • 合并 google ads 供应商提供的 代码。 (#30399)

8.11.0

特性

  • BigQueryTablePartitionExistenceSensor 添加 可延期 模式。 (#29735)

  • BigQuery 操作符添加 一个 参数,以 支持 资源 存在时的 其他 操作 (#29394)

  • DataprocInstantiateWorkflowTemplateOperator 添加 可延期 模式 (#28618)

  • Dataproc 批处理 (#29136)

  • 添加 'CloudSQLCloneInstanceOperator' (#29726)

Bug 修复

  • 修复 'NoneType' 对象 不可下标。 (#29820)

  • 修复 增强 'check-for-inclusive-language' CI 检查 (#29549)

  • 不要 BigQueryCreateDataTransferOperator XCOM 中推送 secret (#29348)

其他

  • Google Cloud Providers - 引入 GoogleCloudBaseOperator (#29680)

  • 更新 google cloud dlp 包,并调整 hook operators (#29234)

  • 重构 Dataproc 触发器 (#29364)

  • 删除 google-cloud-bigtable 上的 <2.0.0 限制 (#29644)

  • 帮助 消息 移动到 google auth 代码 (#29888)

8.10.0

特性

  • GKECreateClusterOperator GKEDeleteClusterOperator 添加 延迟 模式 (#28406)

Bug 修复

  • cloud_sql_binary_path connection 移动到 Hook (#29499)

  • 检查 cloud sql provider 版本是否有效 (#29497)

  • 'GoogleDriveHook': upload_file 添加 folder_id 参数 (#29477)

其他

  • BigQuery 传输 操作符添加 文档 (#29466)

8.9.0

特性

  • 为现有 ''DataprocDeleteClusterOperator'' 添加 可延期 功能 (#29349)

  • dataflow 操作符添加 可延期 模式 (#27776)

  • DataprocCreateBatchOperator 添加 可延期 模式 (#28457)

  • DataprocCreateClusterOperator DataprocUpdateClusterOperator 添加 可延期 模式 (#28529)

  • MLEngineStartTrainingJobOperator 添加 可延期 模式 (#27405)

  • DataFusionStartPipelineOperator 添加 可延期 模式 (#28690)

  • Big Query Transfer 操作符添加 可延期 模式 (#27833)

  • 添加 BaseSQLToGCSOperator write_on_empty 的支持 (#28959)

  • 添加 DataprocCancelOperationOperator (#28456)

  • 启用 单独的 触发器 日志记录 (#27758)

  • Auto ML 资产 (#25466)

Bug 修复

  • 修复 GoogleDriveHook 在上传 v2 时将文件写入已放入回收站的文件夹 (#29119)

  • 修复 Google provider CHANGELOG.rst (#29122)

  • 修复 Google provider CHANGELOG.rst (#29114)

  • Keyfile dict 可以是 dict 而不是 str (#29135)

  • GCSTaskHandler 可能使用 远程 日志 conn id (#29117)

其他

  • 弃用 GCP 操作符中的 'delegate_to' 参数并更新文档 (#29088)

8.8.0

特性

  • 添加 可延期 ''GCSObjectExistenceSensorAsync'' (#28763)

  • 支持 BaseSQLToGCSOperator 中的 partition_columns (#28677)

Bug 修复

  • 'BigQueryCreateExternalTableOperator' 修复了 字段 分隔符 不适用于 csv 的问题 (#28856)

  • 修复了使用私有 _get_credentials 而不是公共 get_credentials 的问题 (#28588)

  • 修复了 'QUEUED' 状态的 'GoogleCampaignManagerReportSensor' (#28735)

  • 修复了 BigQueryColumnCheckOperator 运行时错误 (#28796)

  • "datasetReference" 属性分配给 dataset_reference dict。 如果 bigquery hook create_empty_dataset 方法中尚未设置,则默认使用 (#28782)

8.7.0

特性

  • table_resource 添加到 template 字段中, 用于 BigQueryCreateEmptyTableOperator (#28235)

  • GCSObjectExistenceSensor 中添加 retry 参数 (#27943)

  • preserveAsciiControlCharacters 添加到 src_fmt_configs (#27679)

  • deferrable 模式 添加到 CloudBuildCreateBuildOperator (#27783)

  • GCSToBigQueryOperator 允许 自动检测 None 并推断 schema (#28564)

  • 改进 Dataproc deferrable operators 中的 内存 使用 (#28117)

  • dataproc submit job op 推送 job_id xcom (#28639)

Bug修复

  • 修复了 GCSToBigQueryOperator 中读取 JSON 文件的 schema 字段的问题 (#28284)

  • 修复 GCSToBigQueryOperator 不遵守 schema_obj 的问题 (#28444)

  • 修复 GCSToGCSOperator 复制不带 通配符的 对象列表 的问题 (#28111)

  • 修复: 重新启用 gcs_to_bq 中使用参数, 之前已被禁用 (#27961)

  • 正确设置 bigquery ''use_legacy_sql'' 参数 job config (#28522)

其他

  • 删除 'pylint' 消息 控制 指令 (#28555)

  • google/provider.yaml 删除已弃用的 AIPlatformConsoleLinkk (#28449)

  • config.yml 中使用 object 代替 array 作为 config template (#28417)

  • [misc] 移除 conditions 中的 'pass' 语句 (#27775)

  • google secret manager 找不到 secret 时, log 级别更改为 DEBUG (#27856)

  • [misc] providers 中使用 'exactly_one' 辅助函数替换 XOR '^' 条件 (#27858)

8.6.0

特性

  • 无论 job 状态如何,都为 workflow operators 保留 DataprocLink (#26986)

  • BigQueryToGCSOperator 的可延迟 模式 (#27683)

  • BigQueryToGCSOperator 中的 模板 字段中添加 导出 格式 (#27910)

Bug修复

  • 修复 BigQueryToBigQueryOperator 中正确读取 location 参数的问题 (#27661)

  • common.sql provider 升级到 1.3.1 (#27888)

8.5.0

注意

正如 Apache Airflow providers 支持策略中所述,此 provider 版本仅适用于 Airflow 2.3+

其他

  • 所有 providers 的最小 airflow 版本移动到 2.3.0 (#27196)

  • hook bigquery 函数 '_bq_cast' 重命名为 'bq_cast' (#27543)

  • BigQueryHook 中使用非弃用方法 on_kill (#27547)

  • 类型转换 biquery job response col value (#27236)

  • 删除 google-cloud-storage 上 <2 的限制 (#26922)

  • urlparse 替换为 urlsplit (#27389)

特性

当在环境变量或 secrets backend 中定义连接时,之前 extra 字段需要使用前缀 extra__google_cloud_platform__ 定义。现在不再需要了。因此,例如,您可以将 keyfile json 存储为 keyfile_dict 而不是 extra__google_cloud_platform__keyfile_dict。如果两者都存在,则优先使用短名称。

  • 添加与旧版本的 Apache Beam 的向后兼容性 (#27263)

  • GCSToBigQueryOperator 添加 deferrable 模式 + 测试 (#27052)

  • 在新方法中为 Vertex AI operators 添加系统测试 (#27053)

  • Dataform operators、链接、更新系统测试和文档 (#27144)

  • 允许 WorkflowsCreateExecutionOperator execution 参数中的值是字典 (#27361)

  • DataflowStopJobOperator Operator (#27033)

  • 允许覆盖 Postgres json/jsonb 列数据类型的 stringify_dict #26875 (#26876)

  • 允许并优先使用 dataprep hook 的非前缀 extra 字段 (#27039)

  • 更新 google hooks 以优先使用非前缀 extra 字段 (#27023)

Bug修复

  • 添加新的 Compute Engine Operators 并修复系统测试 (#25608)

  • Common sql bugfixes 和改进 (#26761)

  • 修复 Dataproc CreateBatch operator 中的延迟 (#26126)

  • 删除 signature 中单个参数周围的不必要换行符 (#27525)

  • 取消 BigQuery job 时,设置 project_id location (#27521)

  • 使用正确的 key 来检索 dataflow job_id (#27336)

  • 当没有值时,使 GSheetsHook 返回一个空列表 (#27261)

  • Cloud ML Engine operators assets (#26836)

8.4.0

特性

  • 添加 BigQuery 列和表检查 Operators (#26368)

  • 添加 deferrable big query operators sensors (#26156)

  • 'output' 属性添加到 MappedOperator (#25604)

  • DataflowTemplatedJobStartOperator 添加 append_job_name 参数 (#25746)

  • GoogleDriveHook 中添加一个参数用于排除已放入回收站的文件 (#25675)

  • 云数据防丢失 (Data Loss Prevention) 操作符资产 (#26618)

  • 云存储转移 (Storage Transfer) 操作符资产 & 系统测试迁移 (AIP-47) (#26072)

  • 将可延期的 (deferrable) BigQuery 操作符合并到现有操作符中 (#26433)

  • delete/create cluster 中调用 wait_for_operation 时指定 project id (#26418)

  • 在 Web UI 中自动跟踪文件日志 (#26169)

  • 云函数 (Cloud Functions) 操作符资产 & 系统测试迁移 (AIP-47) (#26073)

  • GCSToBigQueryOperator 解决 'max_id_key' 作业检索和 xcom 返回问题 (#26285)

  • 允许覆盖 BaseSQLToGCSOperatorjson 导出格式的 'stringify_dict' (#26277)

  • 在链接类中附加 GoogleLink 基础链接 (#26057)

  • 云视频智能 (Cloud Video Intelligence) 操作符资产 & 系统测试迁移 (AIP-47) (#26132)

  • 生命科学 (Life Science) 资产 & 系统测试迁移 (AIP-47) (#25548)

  • GCSToBigQueryOperator 允许 schema_object 位于备用 GCS Bucket 中 (#26190)

  • 在可延期模式下,为 Composer 操作符使用 AsyncClient (#25951)

  • 使用 project_id 获取已认证的客户端 (#25984)

  • 云构建 (Cloud Build) 资产 & 系统测试迁移 (AIP-47) (#25895)

  • Dataproc 提交作业操作符异步 (#25302)

  • BigQueryGetDataOperator 中支持 project_id 参数 (#25782)

Bug 修复

  • 修复 Datafusion 操作符中的 JSONDecodeError (#26202)

  • 修复 CreateWorkflowInvocation 中永不结束的循环 (#25737)

  • 更新 gcs.py (#26570)

  • 当 BQ cursor 作业没有 schema 时,不要抛出异常 (#26096)

  • 用于队列为空的 Google Cloud Tasks Sensor (#25622)

  • 更正传输配置名称。 (#25719)

  • 修复 BigQuery 结果 Schema 中可选 'mode' 字段的解析 (#26786)

  • 修复 GCSToBigQueryOperatorMaxID 逻辑 (#26768)

其他

  • Sql to GSC 操作符更新 parquet 格式的文档 (#25878)

  • 限制 Google Protobuf,以兼容 biggtable 客户端 (#25886)

  • 使 GoogleBaseHook 凭证函数公开 (#25785)

  • 整合到一个 'schedule' 参数 (#25410)

8.3.0

新特性

  • BigQueryCursor 类中添加 description 方法 (#25366)

  • 在两个 BQ 操作符中添加 project_id 作为模板变量 (#24768)

  • 删除 Amazon provider 中已弃用的模块 (#25543)

  • 将所有 "旧" SQL 操作符移动到 common.sql providers (#25350)

  • 使用 ParamSpec 改进 taskflow 类型提示 (#25173)

  • 使用覆盖它的方法统一 DbApiHook.run() 方法 (#23971)

  • ParamSpec 提升 typing-extensionsmypy (#25088)

  • 弃用 hql 参数并同步 DBApiHook 方法 API (#25299)

  • Dataform 操作符 (#25587)

Bug 修复

  • 修复 GCSListObjectsOperator 文档字符串 (#25614)

  • 修复 BigQueryInsertJobOperator cancel_on_kill (#25342)

  • 修复 BaseSQLToGCSOperator approx_max_file_size_bytes (#25469)

  • 修复 PostgresToGCSOperat bool dtype (#25475)

  • 修复 Vertex AI 自定义作业训练问题 (#25367)

  • 修复 Flask Login 用户设置为 Flask 2.2 和 Flask-Login 0.6.2 (#25318)

8.2.0

新特性

  • PubSub 资产 & 系统测试迁移 (AIP-47) (#24867)

  • 添加对现有 Dataproc 批处理状态的处理 (#24924)

  • 为 Google Kubernetes Engine 操作符添加链接 (#24786)

  • 向 'GoogleBaseHook' 添加 test_connection 方法 (#24682)

  • gcp_conn_id 参数添加到 GoogleDriveToLocalOperator (#24622)

  • 为 AutoML 中的 column_transformations 参数添加 DeprecationWarning (#24467)

  • 修改 BigQueryCreateExternalTableOperator 以使用更新后的 hook 函数 (#24363)

  • 将所有 SQL 类移动到 common-sql provider (#24836)

  • Datacatalog 资产 & 系统测试迁移 (AIP-47) (#24600)

  • 将 FAB 升级到 4.1.1 (#24399)

Bug 修复

  • GCSDeleteObjectsOperator 空前缀 bug 修复 (#24353)

  • perf(BigQuery): 将 table_id 作为 str 类型传递 (#23141)

  • 更新 providers 以使用 functools compat for ''cached_property'' (#24582)

8.1.0

新特性

  • 将 Oracle 库更新到最新版本 (#24311)

  • 公开 SQL to GCS 元数据 (#24382)

Bug 修复

  • 修复 google provider additional extras 中的拼写错误 (#24431)

  • BigQueryToGCPOpertor 中使用 insert_job 并调整链接 (#24416)

8.0.0

重大变更

注意

此 provider 版本仅适用于 Airflow 2.2+,如 Apache Airflow providers 支持策略中所述。

功能特性

  • 添加 key_secret_project_id 参数,用于指定包含 KeyFile 的项目 (#23930)

  • DataflowStartFlexTemplateOperator DataflowStartSqlJobOperator 添加了 impersonation_chain (#24046)

  • CLOUD_SQL_EXPORT_VALIDATION 添加 字段。 (#23724)

  • 在使用 Compute Engine 中的 ADC 时,更新 凭据 (#23773)

  • cloud_sql.py 中, operators 设置 颜色 (#24000)

  • SQL GCS,支持 排除 (#23695)

  • [Issue#22846] 允许选择是否UUID进行编码,当从Cassandra上传到GCS (#23766)

  • 工作流资产&系统测试迁移(AIP-47) (#24105)

  • Spanner 资产 & 系统 测试 迁移 (AIP-47) (#23957)

  • 语音 文本 资产 & 系统 测试 迁移 (AIP-47) (#23643)

  • Cloud SQL 资产 & 系统 测试 迁移 (AIP-47) (#23583)

  • Cloud Storage 资产 & StorageLink 更新 (#23865)

Bug 修复

  • 修复 BigQueryInsertJobOperator (#24165)

  • 修复指向googleworkplace链接 (#24080)

  • 修复 DataprocJobBaseOperator 点式 名称 不兼容的问题 (#23439). (#23791)

  • BigQuery DTS hook 删除 hack (#23887)

  • 修复 GCSToGCSOperator 无法 复制 单个 文件/文件夹,而不会复制 具有 前缀的 其他 文件/文件夹的问题 (#24039)

  • 解决 biguery gcs 传输 job 竞争 bug (#24330)

其他

  • 修复 BigQuery 系统 测试 (#24013)

  • 确保 @contextmanager 修饰 生成器 函数 (#23103)

  • Dataproc 迁移到 新的 系统 测试 设计 (#22777)

  • AIP-47 - google leveldb DAG 迁移到 新的 设计 ##22447 (#24233)

  • per-run 日志 模板 应用于 日志 处理程序 (#24153)

7.0.0

重大更改

  • PubSub operators 删除 已弃用的 参数: (#23261)

  • 升级支持GoogleAdsv10 (#22965)

  • 'DataprocJobBaseOperator' 更改 (#23350)

    • 'DataprocJobBaseOperator': 参数 顺序 已更改。

    • 'region' 参数 没有 默认值 受影响的函数/类: 'DataprocHook.cancel_job' 'DataprocCreateClusterOperator' 'DataprocJobBaseOperator'

  • 'DatastoreHook': 删除 'datastore_conn_id'。 请使用 'gcp_conn_id' (#23323)

  • 'CloudBuildCreateBuildOperator': 删除 'body'。 请使用 'build' (#23263)

  • 副本 集群 id 删除 (#23251)

    • 'BigtableCreateInstanceOperator' 删除 'replica_cluster_id', 'replica_cluster_zone'。 请使用 'replica_clusters'

    • 'BigtableHook.create_instance': 删除 'replica_cluster_id', 'replica_cluster_zone'。 请使用 'replica_clusters'

  • 删除 参数 (#23230)

    • 'GoogleDisplayVideo360CreateReportOperator': 删除 'params'。 请使用 'parameters'

    • 'FacebookAdsReportToGcsOperator': 删除 'params'。 请使用 'parameters'

  • 'GoogleDriveToGCSOperator': 删除 'destination_bucket' 'destination_object'。 请使用 'bucket_name' 'object_name' (#23072)

  • 'GCSObjectsWtihPrefixExistenceSensor' 已删除。 请使用 'GCSObjectsWithPrefixExistenceSensor' (#23050)

  • 删除 'project': (#23231)

    • 'PubSubCreateTopicOperator': 删除 'project'。 请使用 'project_id'

    • 'PubSubCreateSubscriptionOperator': 删除 'topic_project'。 请使用 'project_id'

    • 'PubSubCreateSubscriptionOperator': 删除 'subscription_project'。 请使用 'subscription_project_id'

    • 'PubSubDeleteTopicOperator': 删除 'project'。 请使用 'project_id'

    • 'PubSubDeleteSubscriptionOperator': 删除 'project'。 请使用 'project_id'

    • 'PubSubPublishMessageOperator': 删除 'project'。 请使用 'project_id'

    • 'PubSubPullSensor': 删除 'project'。 请使用 'project_id'

    • 'PubSubPullSensor': 删除 'return_immediately'

  • 删除 'location' - 已替换为 'region' (#23250)

    • 'DataprocJobSensor': 删除 'location'。 请使用 'region'

    • 'DataprocCreateWorkflowTemplateOperator': 删除 'location'。 请使用 'region'

    • 'DataprocCreateClusterOperator': 删除 'location'。 请使用 'region'

    • 'DataprocSubmitJobOperator': 删除 'location'。 请使用 'region'

    • 'DataprocHook': 删除 'location' 参数。 请使用 'region'

    • 受影响的函数有:

      • 'cancel_job'

      • 'create_workflow_template'

      • 'get_batch_client'

      • 'get_cluster_client'

      • 'get_job'

      • 'get_job_client'

      • 'get_template_client'

      • 'instantiate_inline_workflow_template'

      • 'instantiate_workflow_template'

      • 'submit_job'

      • 'update_cluster'

      • 'wait_for_job'

    • 'DataprocHook': 'wait_for_job' 函数中 参数的顺序 已更改

    • 'DataprocSubmitJobOperator': 参数的顺序 已更改。

  • 移除 xcom_push (#23252)

    • 'CloudDatastoreImportEntitiesOperator': 删除 'xcom_push'。 请使用 'BaseOperator.do_xcom_push'

    • 'CloudDatastoreExportEntitiesOperator': 移除 'xcom_push'。 请使用 'BaseOperator.do_xcom_push'。

  • 'bigquery_conn_id' 'google_cloud_storage_conn_id' 已被移除。 请使用 'gcp_conn_id' (#23326).

    • 受影响的类:

      • 'BigQueryCheckOperator'

      • 'BigQueryCreateEmptyDatasetOperator'

      • 'BigQueryDeleteDatasetOperator'

      • 'BigQueryDeleteTableOperator'

      • 'BigQueryExecuteQueryOperator'

      • 'BigQueryGetDataOperator'

      • 'BigQueryHook'

      • 'BigQueryIntervalCheckOperator'

      • 'BigQueryTableExistenceSensor'

      • 'BigQueryTablePartitionExistenceSensor'

      • 'BigQueryToBigQueryOperator'

      • 'BigQueryToGCSOperator'

      • 'BigQueryUpdateTableSchemaOperator'

      • 'BigQueryUpsertTableOperator'

      • 'BigQueryValueCheckOperator'

      • 'GCSToBigQueryOperator'

      • 'ADLSToGCSOperator'

      • 'BaseSQLToGCSOperator'

      • 'CassandraToGCSOperator'

      • 'GCSBucketCreateAclEntryOperator'

      • 'GCSCreateBucketOperator'

      • 'GCSDeleteObjectsOperator'

      • 'GCSHook'

      • 'GCSListObjectsOperator'

      • 'GCSObjectCreateAclEntryOperator'

      • 'GCSToBigQueryOperator'

      • 'GCSToGCSOperator'

      • 'GCSToLocalFilesystemOperator'

      • 'LocalFilesystemToGCSOperator'

  • 'S3ToGCSOperator': 移除 'dest_gcs_conn_id'。 请使用 'gcp_conn_id' (#23348)

  • 'BigQueryHook' 变更 (#23269)

    • 'BigQueryHook.create_empty_table' 移除 'num_retries'。 请使用 'retry'

    • 'BigQueryHook.run_grant_dataset_view_access' 移除 'source_project'。 请使用 'project_id'

  • 'DataprocHook': 移除已弃用的函数 'submit' (#23389)

功能

  • [功能] google provider - BigQueryInsertJobOperator 日志查询 (#23648)

  • [功能] google provider - 拆分 GkeStartPodOperator 执行 (#23518)

  • 添加 exportContext.offload 标志到 CLOUD_SQL_EXPORT_VALIDATION。 (#23614)

  • BiqTable 操作符创建链接 (#23164)

  • 实现 #22859 - 添加 .sql 作为可模板化的扩展 (#22920)

  • 'GCSFileTransformOperator': 新的模板化字段 'source_object', 'destination_object' (#23328)

Bug 修复

  • 修复 'PostgresToGCSOperator' 不允许嵌套的 JSON (#23063)

  • 修复 GCSToGCSOperator 忽略 replace 参数,当没有通配符时 (#23340)

  • 更新 processor 以修复损坏的下载链接 (#23299)

  • 'LookerStartPdtBuildOperator', 'LookerCheckPdtBuildSensor' : 修复空的物化 id 处理 (#23025)

  • 更改 ComputeSSH 抛出 provider 导入错误,而不是 paramiko (#23035)

  • 修复 DataprocSubmitJobOperator 在执行超时后 cancel_on_kill (#22955)

  • 修复 BigQueryGetDataOperator select * 查询 xcom push (#22936)

  • MSSQLToGCSOperator 失败: datetime 不是 JSON 可序列化的 (#22882)

其他

  • 添加 Stackdriver 资产并迁移系统测试到 AIP-47 (#23320)

  • CloudTasks 资产 & 系统测试迁移 (AIP-47) (#23282)

  • TextToSpeech 资产 & 系统测试迁移 (AIP-47) (#23247)

  • 修复 google provider 中的代码片段 (#23438)

  • Bigquery 资产 (#23165)

  • 移除 'BigQueryUpdateTableSchemaOperator' 中冗余的文档字符串 (#23349)

  • gcs 迁移到新的系统测试设计 (#22778)

  • 'BigQueryHook.create_empty_table' 中添加缺失的文档字符串 (#23270)

  • 清理 Google provider CHANGELOG.rst (#23390)

  • 将系统测试 gcs_to_bigquery 迁移到新设计 (#22753)

  • 添加用于演示 GCS 传感器用法的示例 DAG (#22808)

  • 清理行内 f-string 连接 (#23591)

  • 更新 pre-commit hook 版本 (#22887)

  • 使用新的 Breese 来构建、拉取和验证镜像。 (#23104)

  • 修复主分支中的新的 MyPy 错误 (#22884)

6.8.0

功能

  • BQCreateExternalTable Operator 中添加 autodetect 参数 (#22710)

  • BigQuery 数据传输添加链接 (#22280)

  • 修改传输操作符以处理更多数据 (#22495)

  • Vertex AI 服务创建端点和服务模型、批量预测和超参数调整任务操作符 (#22088)

  • PostgresToGoogleCloudStorageOperator - 时区感知字段的 BigQuery schema 类型 (#22536)

  • 更新 secrets 后端以使用 get_conn_value 代替 get_conn_uri (#22348)

Bug 修复

  • 修复文档字符串 (#22497)

  • 修复 'GoogleDisplayVideo360SDFtoGCSOperator' 中的 'download_media' 链接 (#22479)

  • 修复 'CloudBuildRunBuildTriggerOperator' 无法找到 build id。 (#22419)

  • 如果 src 不存在,则 Fail ''LocalFilesystemToGCSOperator'' (#22772)

  • GCSTimeSpanFileTransformOperator 中移除 coerce_datetime 的用法 (#22501)

其他

  • 重构: BigQuery GCS Operator (#22506)

  • PubSub 操作符中移除对已弃用的操作符/参数的引用 (#22519)

  • 系统测试的新设计 (#22311)

6.7.0

功能

  • dataflow_default_options 添加到 templated_fields (#22367)

  • 添加 'LocalFilesystemToGoogleDriveOperator' (#22219)

  • BigQueryInsertJobOperator 添加超时和重试 (#22395)

Bug 修复

  • 修复跳过非 GCS 定位的 jars (#22302)

  • [FIX] gcs operator typo 文档 (#22290)

  • 修复错误地为所有 provider 添加的 install_requires (#22382)

6.6.0

功能

  • 支持 上传 更大 的文件 Google Drive (#22179)

  • 更改 默认 'chunk_size' 为一个 清晰的 表示 & 添加 文档 (#22222)

  • 添加 DataprocInstantiateInlineWorkflowTemplateOperator 指南 (#22062)

  • 允许 使用 GCS Hook 上传 上传 元数据 (#22058)

  • 添加 Dataplex 操作符 (#20377)

其他

  • 添加 ARM 平台 的支持 (#22127)

  • PyPI 添加 Trove 分类器 (Framework :: Apache Airflow :: Provider)

  • 使用 yaml safe load (#22091)

6.5.0

功能

  • 添加 Looker PDT 操作符 (#20882)

  • 添加 自动检测 参数 GCSToBigQueryOperator 外部 创建 (#21944)

  • 添加 Dataproc 资产/链接 (#21756)

  • Vertex AI 服务 添加 Auto ML 操作符 (#21470)

  • 添加 GoogleCalendarToGCSOperator (#20769)

  • 使 project_id 参数 所有 dataproc 操作符 变为 可选 (#21866)

  • 允许 更多 DataprocUpdateClusterOperator 字段 中使用 模板 (#21865)

  • Dataflow 资产 (#21639)

  • 提取 ClientInfo 模块级别 (#21554)

  • Datafusion 资产 (#21518)

  • Dataproc 元数据存储 资产 (#21267)

  • 标准化 BigQuery 传感器 *_conn_id 参数 (#21430)

缺陷修复

  • 修复 bigquery_dts 参数 文档字符串 拼写错误 (#21786)

  • 修复 use_server_side_cursor=True 时, PostgresToGCSOperator 结果集上 失败 (#21307)

  • 修复 bigquery 示例 DAG 查询 场景 (#21575)

其他

  • 支持 Python 3.10

  • 取消固定 'google-cloud-memcache' (#21912)

  • 取消固定 ''pandas-gbq'' 删除 未使用的 代码 (#21915)

  • 抑制 来自 Bigquery 传输 hook 警告 (#20119)

6.4.0

功能

  • 添加 Google 日历 集成 hook (#20542)

  • 编码 参数 添加到 'GCSToLocalFilesystemOperator' 以修复 #20901 (#20919)

  • batch 作为 DataprocCreateBatchOperator 中的 模板化 字段 (#20905)

  • 使 timeout 对于 wait_for_operation 变为 可选 (#20981)

  • 添加 更多 SQL 模板 字段 渲染器 (#21237)

  • Vertex AI 服务 创建 CustomJob Datasets 操作符 (#21253)

  • 支持 文件 上传 Google 共享云盘 (#21319)

  • (providers_google) bigquery 添加 位置 检查 (#19571)

  • 添加 BeamGoPipelineOperator 的支持 (#20386)

  • Google Cloud Composer 操作符 (#21251)

  • BigQuery hook 启用 异步 作业 提交 (#21385)

  • 如果 源文件 GCSToGCSOperator 不存在, 可以选择 引发 错误 (#21391)

缺陷修复

  • Cloudsql 导入 链接 修复。 (#21199)

  • 修复 BigQueryDataTransferServiceHook.get_transfer_run() 请求 参数 (#21293)

  • :bug: (BigQueryHook) 修复 sqlalchemy 引擎 兼容性 (#19508)

其他

  • 重构 操作符 链接 以避免 创建 ad hoc TaskInstances (#21285)

6.3.0

功能

  • bigquery 数据 传输 服务 添加 可选 位置 (#15088) (#20221)

  • 添加 Google Cloud Tasks 操作指南 文档 (#20145)

  • MSSQL Google Cloud Storage (GCS) 添加 示例 DAG (#19873)

  • 支持 区域性 GKE 集群 (#18966)

  • KubernetesPodOperator 默认 删除 pod (#20575)

缺陷修复

  • 修复 PubSubCreateSubscriptionOperator 文档字符串 (#20237)

  • 修复 Dataproc Metastore 缺少 get_backup 方法 (#20326)

  • BigQueryHook 修复 run_load 文档 字符串 中的 拼写错误 (#19924)

  • 修复 sftp_to_gcs 上传递 gzip 压缩 参数 的问题。 (#20553)

  • CloudSQL provider 切换到 httpx.get 调用 中的 follow_redirects (#20239)

  • 避免 BigQuery 传输 操作符 弃用 警告 (#20502)

  • download_video 参数 更改为 resourceName (#20528)

  • 修复 big query mssql/mysql 传输 问题 (#20001)

  • 修复 ''provide_authorized_gcloud'' 设置 项目 ID 的问题 (#20428)

其他

  • source_objects 数据类型 检查 移出 GCSToBigQueryOperator.__init__ (#20347)

  • Amazon Provider 组织 S3 (#20167)

  • 提供者 facebook hook 多账户 (#19377)

  • 移除已弃用的方法调用 (blob.download_as_string) (#20091)

  • 从 GoogleDriveToGCSOperator 移除已弃用的 template_fields (#19991)

注意! apache-airflow-providers-facebookapache-airflow-providers-amazon 的可选功能需要更新版本的提供者(如依赖项中所指定)

6.2.0

新特性

  • 为 DataprocJobSensor 添加等待机制,以避免在作业不可用时出现 509 错误 (#19740)

  • 在 GCP 连接中添加支持,以便从 Secret Manager 读取密钥 (#19164)

  • 添加 dataproc metastore 运算符 (#18945)

  • 为 GCloud Storage Transfer Service 运算符添加对 'path' 参数的支持 (#17446)

  • 将 Google Marketing Platform 运算符中的 'bucket_name' 验证移出 '__init__' (#19383)

  • 创建 dataproc serverless spark batches 运算符 (#19248)

  • 更新 pipeline_timeout CloudDataFusionStartPipelineOperator (#18773)

  • 在 GKEStartPodOperator 中支持 impersonation_chain 参数 (#19518)

Bug 修复

  • 修复 GKEPodOperator 中合并错误的模拟 (#19696)

6.1.0

新特性

  • 为查询的 'namespaceId' 添加值 (#19163)

  • 添加 pre-commit hook 以检查文件中的常见拼写错误 (#18964)

  • 在 CassandraToGCSOperator 中支持查询超时作为参数 (#18927)

  • 更新 BigQueryCreateExternalTableOperator 文档和参数 (#18676)

  • 替换 BigQueryToMsSqlOperator 的非属性 template_fields (#19052)

  • 将 Dataproc 包升级到 3.0.0,并从 v1beta2 迁移到 v1 api (#18879)

  • 在子进程中执行 beam 命令时使用 google cloud 凭据 (#18992)

  • 替换 FacebookAdsReportToGcsOperator 的默认 api_version (#18996)

  • Dataflow 运算符 - 在 on_kill 方法中使用作业中的项目和位置。 (#18699)

Bug 修复

  • 修复 CloudSQL Hook 中硬编码的 /tmp 目录 (#19229)

  • 修复 Dataflow hook 中没有返回作业时的错误 (#18981)

  • 修复 BigQueryToMsSqlOperator 文档 (#18995)

  • 将模板化输入参数的验证移动到上下文初始化之后运行 (#19048)

  • Google provider 捕获无效的 secret 名称 (#18790)

6.0.0

重大变更

  • 将 Google Cloud Build 从 Discovery API 迁移到 Python SDK (#18184)

新特性

  • 将索引添加到数据集名称,以便为每个示例 DAG 拥有单独的数据集 (#18459)

  • 为某些测试包添加缺少的 __init__.py 文件 (#18142)

  • 添加从系统测试运行 DAG 并查看 DAG 日志的可能性 (#17868)

  • 将 AzureDataLakeStorage 重命名为 ADLS (#18493)

  • 使 next_dagrun_info 接受数据间隔 (#18088)

  • 使用 parameters 代替 params (#18143)

  • 新的 google 运算符: SQLToGoogleSheetsOperator (#17887)

Bug 修复

  • 修复 Google 系统测试的一部分 (#18494)

  • 修复 kubernetes engine 系统测试 (#18548)

  • 修复 BigQuery 系统测试 (#18373)

  • 修复使用表资源创建外部表时出现的错误 (#17998)

  • 修复 ''BigQueryToMySqlOperator'' 中 ''BigQuery'' 数据提取 (#18073)

  • 使用 eager 升级修复 main 分支中的 providers 测试 (#18040)

  • fix(CloudSqlProxyRunner): 不要从 Airflow DB 查询连接 (#18006)

  • 删除 GCSToBigquery 中至少一个 schema 的检查 (#18150)

  • 在 BigQueryInsertJobOperator 上删除重复的运行作业 (#17496)

5.1.0

新特性

  • 在 GKEStartPodOperator 中为 config_file 参数添加错误检查 (#17700)

  • Gcp ai 超参数调整 (#17790)

  • 如果指定了 'node_pools',则允许省略 'initial_node_count' (#17820)

  • [Airflow 13779] 在 wait_for_pipeline_state hook 中使用提供的参数 (#17137)

  • 在 'template_fields_renderers' 中启用指定字典路径 (#17321)

  • 不要缓存 Google Secret Manager 客户端 (#17539)

  • [AIRFLOW-9300] 添加 DatafusionPipelineStateSensor aync 选项 CloudDataFusionStartPipelineOperator (#17787)

Bug 修复

  • GCP Secret Manager 处理 缺失 凭据的 错误 (#17264)

其他

  • 优化 Airflow 2.2.0 连接 导入

  • 添加 secrets 后端/日志/身份验证 信息 provider yaml (#17625)

5.0.0

重大变更

  • 更新 GoogleAdsHook 以支持 较新的 API 版本, google 弃用 v5 之后。 Google Ads v8 新的 默认 API。 (#17111)

  • Google Ads Hook: 支持 google-ads 库的 较新 版本 (#17160)

警告

底层 google-ads 库有重大变更。

以前,google ads 库将数据作为原生 protobuf 消息返回。 现在它将数据作为 proto-plus 对象返回,这些对象更像传统的 Python 对象。

为了保持兼容性,hook 的 search() 将数据转换回原生 protobuf 然后再返回。 您现有的运算符 *应该* 像以前一样工作,但由于 v5 API 被弃用的紧迫性,因此没有经过非常彻底的测试。 因此,您应该仔细评估此新版本的运算符和 hook 功能。

为了使用 API 的新 proto-plus 格式,您可以使用 search_proto_plus() 方法。

有关更多信息,请参阅 google-ads 迁移文档

功能

  • dataproc 位置 参数 标准化为 区域 (#16034)

  • 添加 自定义 Salesforce 连接 类型 + SalesforceToS3Operator 更新 (#17162)

Bug 修复

  • 更新 Google Memmcache field_mask 别名 (#16975)

  • fix: dataprocpysparkjob project_id 作为 self.project_id (#17075)

  • 修复 GCStoGCS 运算符, 其中 replace 禁用, 并且存在 目标 对象 (#16991)

4.0.0

重大变更

  • 自动应用 apply_default 装饰器 (#15667)

警告

由于删除了 apply_default 装饰器,此 provider 版本需要 Airflow 2.1.0+。 如果您的 Airflow 版本 < 2.1.0,并且您想安装此 provider 版本,请首先将 Airflow 升级到至少版本 2.1.0。 否则,您的 Airflow 包版本将自动升级,您必须手动运行 airflow upgrade db 才能完成迁移。

  • plyvel 移动到 google provider 额外 (#15812)

  • 修复 AzureFileShare 连接 额外 (#16388)

功能

  • google dataproc 添加 额外的 链接 (#10343)

  • 添加 oracle  连接 链接 (#15632)

  • wait_for_done 参数 向下 传递给 _DataflowJobsController (#15541)

  • 仅在 GoogleAdsHook 使用 api 版本, 而不是 运算符 (#15266)

  • 实现 BigQuery 架构 更新 运算符 (#15367)

  • 添加 BigQueryToMsSqlOperator (#15422)

Bug 修复

  • 修复: GCS To BigQuery source_object (#16160)

  • 修复: ``GCSToLocalFilesystemOperator 不必要的 下载 (#16171)``

  • 修复 导出 格式 parquet 时,bigquery 类型 错误 (#16027)

  • 修复 bucket object 参数 排序 类型 (#15738)

  • 修复 sql_to_gcs docstring lint 错误 (#15730)

  • fix: 确保 datetime 相关 完全 兼容 MySQL BigQuery (#15026)

  • 修复 google provider 中的 弃用 警告 位置 (#16403)

3.0.0

重大变更

AutoMLPredictOperator 中的更改

airflow.providers.google.cloud.operators.automl.AutoMLPredictOperator 类中的 params 参数已重命名为 operation_params,因为它与 BaseOperator 类中的 param 参数冲突。

apache.beam provider 的集成

在 provider 的 3.0.0 版本中,我们更改了与 apache.beam provider 集成的方式。 当尝试使用 PIP > 20.2.4 将两个 provider 一起安装时,之前的 provider 版本会导致冲突。 PIP 20.2.4 及以下版本未检测到此冲突,但冲突确实存在,并且 Google BigQuery python 客户端的版本在两端不匹配。 因此,当同时安装 apache.beamgoogle provider 时,BigQuery 运算符的某些功能可能无法正常工作。 这是由 apache-beam 客户端尚未支持新的 google python 客户端造成的,当使用 apache-beam[gcp] 额外项时。 Dataflow 运算符使用 apache-beam[gcp] 额外项,虽然它们可以使用较新版本的 Google BigQuery python 客户端,但这不能保证。

此版本为 google provider 的 apache.beam 额外项引入了额外的额外需求,并且对称地为 apache.beam provider 的 google 额外项引入了额外的需求。 googleapache.beam provider 默认情况下不使用这些额外项,但您可以在安装 provider 时指定它们。 这样做的后果是 Dataflow 运算符的某些功能可能不可用。

不幸的是,解决此问题的唯一 完整 解决方案是 apache.beam 迁移到新的 (>=2.0.0) Google Python 客户端。

这是 google provider 的额外项

extras_require = (
    {
        # ...
        "apache.beam": ["apache-airflow-providers-apache-beam", "apache-beam[gcp]"],
        # ...
    },
)

同样,这是 apache.beam provider 的额外项

extras_require = ({"google": ["apache-airflow-providers-google", "apache-beam[gcp]"]},)

您仍然可以使用 PIP 版本 <= 20.2.4 运行此代码并返回到之前的行为

pip install apache-airflow-providers-google[apache.beam]

pip install apache-airflow-providers-apache-beam[google]

但请注意,在这种情况下,某些 BigQuery 运算符功能可能不可用。

功能

  • [Airflow-15245] - 自定义 镜像 系列 名称 传递给 DataProcClusterCreateoperator (#15250)

Bug 修复

  • Bugfix: 修复 ''GCSToLocalFilesystemOperator'' ''object_name'' 呈现 (#15487)

  • 修复 DataprocCreateClusterOperator 中的 拼写错误 (#15462)

  • 修复 leveldb hook 中错误 指定的 路径 (#15453)

2.2.0

特性

  • 添加 'Trino' 提供者 (测试时占用 更少的 内存) (#15187)

  • 更新 operators 剩余的 导入 路径 (#15127)

  • 覆盖 dataprocSubmitJobOperator 中的 project (#14981)

  • 带有 标签 描述 参数的 GCS BigQuery 传输 Operator (#14881)

  • 添加 GCS 时间跨度 转换 operator (#13996)

  • bigquery 检查 operators 添加 作业 标签。 (#14685)

  • 在可用时使用 libyaml C 库。 (#14577)

  • 添加 Google leveldb hook operator (#13109) (#14105)

Bug 修复

  • Google Dataflow Hook 处理 没有 Job 类型的情况 (#14914)

2.1.0

特性

  • 修正 GCSHook.download 方法中 docstring 的参数 顺序 (#14497)

  • 重构 SQL/BigQuery/Qubole/Druid 检查 operators (#12677)

  • 添加 GoogleDriveToLocalOperator (#14191)

  • 添加 'exists_ok' 标志到 BigQueryCreateEmptyTable(Dataset)Operator (#14026)

  • 添加 BigQuery 物化视图 支持 (#14201)

  • 添加 BigQueryUpdateTableOperator (#14149)

  • CloudDataTransferServiceOperator 添加 param (#14118)

  • 添加 gdrive_to_gcs operator, drive sensor, 以及 drive hook 附加功能 (#13982)

  • 改进 GCSToSFTPOperator 路径 处理 (#11284)

Bug 修复

  • 修复 dataproc operators hook 的问题 (#14086)

  • #9803 修复 没有 通配符 复制 操作 中的 bug (#13919)

2.0.0

重大变更

更新了 google-cloud-*

此提供者软件包的版本包含第三方库的更新,如果使用这些库中的对象,可能需要更新 DAG 文件或自定义 hook 和 operator。 更新这些库是必要的,以便能够使用新版本库提供的新功能,并获得仅适用于新版本库的 bug 修复。

详细信息包含在每个库的 UPDATING.md 文件中,但有一些细节您应该注意。

库名称

之前的约束

当前的约束

升级文档

google-cloud-automl

>=0.4.0,<2.0.0

>=2.1.0,<3.0.0

升级 google-cloud-automl

google-cloud-bigquery-datatransfer

>=0.4.0,<2.0.0

>=3.0.0,<4.0.0

升级 google-cloud-bigquery-datatransfer

google-cloud-datacatalog

>=0.5.0,<0.8

>=3.0.0,<4.0.0

升级 google-cloud-datacatalog

google-cloud-dataproc

>=1.0.1,<2.0.0

>=2.2.0,<3.0.0

升级 google-cloud-dataproc

google-cloud-kms

>=1.2.1,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-kms

google-cloud-logging

>=1.14.0,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-logging

google-cloud-monitoring

>=0.34.0,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-monitoring

google-cloud-os-login

>=1.0.0,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-os-login

google-cloud-pubsub

>=1.0.0,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-pubsub

google-cloud-tasks

>=1.2.1,<2.0.0

>=2.0.0,<3.0.0

升级 google-cloud-task

字段名称使用 snake_case 约定

如果您的 DAG 使用通过 XCom 传递的上述库中的对象,则必须更新所读取字段的命名约定。 以前,这些字段使用 CamelSnake 约定,现在使用 snake_case 约定。

之前

set_acl_permission = GCSBucketCreateAclEntryOperator(
    task_id="gcs-set-acl-permission",
    bucket=BUCKET_NAME,
    entity="user-{{ task_instance.xcom_pull('get-instance')['persistenceIamIdentity'].split(':', 2)[1] }}",
    role="OWNER",
)

之后

set_acl_permission = GCSBucketCreateAclEntryOperator(
    task_id="gcs-set-acl-permission",
    bucket=BUCKET_NAME,
    entity="user-{{ task_instance.xcom_pull('get-instance')['persistence_iam_identity']"
    ".split(':', 2)[1] }}",
    role="OWNER",
)

特性

  • 添加 Apache Beam operators (#12814)

  • 添加 Google Cloud Workflows Operators (#13366)

  • 使用 'GCSHook' 时,将 'google_cloud_storage_conn_id' 替换为 'gcp_conn_id' (#13851)

  • Dataflow 添加 操作指南 (#13461)

  • MLEngineStartTrainingJobOperator 推广到 自定义镜像 (#13318)

  • Parquet 数据 类型添加到 BaseSQLToGCSOperator (#13359)

  • 添加 DataprocCreateWorkflowTemplateOperator (#13338)

  • 添加 OracleToGCS 传输 (#13246)

  • gcs hook 方法添加 超时 选项。 (#13156)

  • dataproc 工作流 模板 operators 添加 区域 支持 (#12907)

  • project_id 添加到 BigQuery hook update_table 方法内的 客户端 (#13018)

Bug 修复

  • 修复 StackdriverTaskHandler 中的 四个 bug (#13784)

  • 解码 远程 Google 日志 (#13115)

  • 修复 并改进 GCP BigTable hook 系统 测试 (#13896)

  • 更新 Google DV360 Hook 以修复 SDF 问题 (#13703)

  • 修复 BigQueryHook insert_all 方法以支持没有 schema 的表 (#13138)

  • 修复 Google BigQueryHook 方法 get_schema() (#13136)

  • 修复 Data Catalog operators (#13096)

1.0.0

提供者的初始版本。

此条目是否有帮助?