apache-airflow-providers-google
Changelog¶
15.1.0¶
新特性¶
添加 ORC 支持 到 GCSToBigQueryOperator 并且 测试 外部 表 (#49188)
Bug 修复¶
修复 OperationHelper 中 wait_for_operation_result 的 默认值 (#49121)修复 Managed Kafka 服务的 get_confluent_token 回调 (#48926)修复: BigQuery 连接 UI 在 编辑时 将 '使用 Legacy SQL' 默认设置为 true (#49038)
其他¶
移除 多余的 else 代码块 (#49199)弃用 DataflowHook 中的 start_sql_job (#48663)type: 注释 在 'provider' 中缺少 type (#49130)
15.0.1¶
其他¶
弃用 Life Scrience 服务 (#48862)
仅文档¶
在 google 文档中添加 缺失的 license 注释 (#48985)
15.0.0¶
重大变更¶
警告
已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:
操作符
移除
MLEngineStartBatchPredictionJobOperator, 使用CreateBatchPredictionJobOperator代替移除
MLEngineManageModelOperator, 使用 Vertex AI 的MLEngineCreateModelOperator或者GetModelOperator代替移除
MLEngineDeleteModelOperator, 使用 Vertex AI 的DeleteModelOperator代替移除
MLEngineManageVersionOperator, 使用 Vertex AI 的适当的操作符代替, 例如AddVersionAliasesOnModelOperator移除
MLEngineCreateVersionOperator, VertexAI 操作符使用parent_model参数移除
MLEngineSetDefaultVersionOperator, 使用 Vertex AI 的SetDefaultVersionOnModelOperator代替移除
MLEngineListVersionsOperator, 使用 Vertex AI 的ListModelVersionsOperator代替移除
MLEngineDeleteVersionOperator, 使用 Vertex AI 的DeleteModelVersionOperator代替移除
MLEngineStartTrainingJobOperator, 使用 Vertex AI 的CreateCustomPythonPackageTrainingJobOperator代替移除
MLEngineTrainingCancelJobOperator, 使用 Vertex AI 的CancelCustomTrainingJobOperator代替移除
DataProcScaleClusterOperator, 使用DataprocUpdateClusterOperator代替移除
GoogleAdsToGcsOperator的page_size参数移除
DeleteAutoMLTrainingJobOperator.training_pipeline方法, 使用training_pipeline_id参数代替移除
DeleteCustomTrainingJobOperator.training_pipeline方法, 使用training_pipeline_id参数代替移除
DeleteCustomTrainingJobOperator.custom_job方法, 使用custom_job_id参数代替
链接
移除
DataFusionPipelineLinkHelper, 使用airflow.providers.google.cloud.utils.helpers.resource_path_to_dict代替
Hooks
移除
GoogleAdsHook.search,GoogleAdsHook.search_proto_plus,GoogleAdsHook._search方法的page_size参数移除
CloudBuildHook.create_build方法, 使用CloudBuildHook.create_build_without_waiting_for_result方法移除
DataflowHook.start_java_dataflow方法, 请使用airflow.providers.apache.beam.hooks.beam.start.start_java_pipeline方法启动管道, 并使用providers.google.cloud.hooks.dataflow.DataflowHook.wait_for_done方法等待所需的管道状态移除
DataflowHook.start_python_dataflow方法, 请使用airflow.providers.apache.beam.hooks.beam.start.start_python_pipeline方法启动管道, 并使用providers.google.cloud.hooks.dataflow.DataflowHook.wait_for_done方法等待所需的管道状态移除
CustomJobHook.cancel_pipeline_job方法, 使用PipelineJobHook.cancel_pipeline_job方法代替移除
CustomJobHook.create_pipeline_job方法, 使用PipelineJobHook.create_pipeline_job方法代替移除
CustomJobHook.get_pipeline_job方法, 使用PipelineJobHook.get_pipeline_job方法代替移除
CustomJobHook.list_pipeline_jobs方法, 使用PipelineJobHook.list_pipeline_jobs方法代替移除
CustomJobHook.delete_pipeline_job方法, 使用PipelineJobHook.delete_pipeline_job方法代替移除
GoogleBaseHook.get_client_info方法, 使用airflow.providers.google.common.consts.CLIENT_INFO代替LifeSciencesHook生命周期延长至 2025 年 7 月 8 日
Utils
移除
create_evaluate_ops方法
移除 provider/google 中 2025 年 2 月和 3 月 的 已弃用项。 #48018
新特性¶
SFTPToGCSOperator: 添加了 选项 来直接将数据流式传输到 GCS 而无需保存到磁盘 (#48107)
Bug 修复¶
修复: 移除 'MetastoreHivePartitionSensor.poke' 方法中 文件 URI 形成中 多余的 斜杠字符。 (#48731)不允许 types-protobuf 5.29.1.20250402 用于 google 来修复 mypy (#48666)
其他¶
添加 'ti' 到 RemoteLogIO 的 读取和上传 方法 (#48804)重构 structlog 时代的远程任务日志处理。 (#48491)将 基类 移动到 'airflow.sdk.bases' (#48487)将 'BaseSensorOperator' 移动到 TaskSDK 定义 (#48244)
14.1.0¶
功能特性¶
为 GKE Hooks 和 Operators 添加 DNS 终端节点支持 (#48075)特性:允许为 'DataprocCreateBatchOperator' 设置任务/DAG 标签 (#46781)创建用于处理 GCP Apache Kafka 的 Consumer Groups 的 operators (#47056)
Bug 修复¶
修复:BigQuery 可追溯性标签在 TaskGroup 中缺失 (#47583)
其他¶
Vendor-in json-merge-patch 并为直接 uv 工具安装添加 '--no-dev' (#48210)序列化复合传输中包含的 http 传输 (#47444)AIP-72:处理 Task SDK 上的自定义 XCom 后端 (#47339)其他:更新 Google ADS 的 API 版本 (#47772)引入操作辅助类并重构 (#45354)从核心 Airflow 中删除身份验证后端 (#47399)将 Google Oauth2 后端标记为仅 Airflow 2 (#47622)添加 Dataflow Apache Beam Java 流系统测试 (#47209)将旧版命名空间包添加到 airflow.providers (#47064)
14.0.0¶
注意
此版本没有代码更改。 由于之前版本因打包问题而被撤回而发布。
13.0.0¶
重大变更¶
警告
已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:
操作符
删除
AutoMLBatchPredictOperator。 请改用来自airflow.providers.google.cloud.operators.vertex_ai.batch_prediction_job的 operators删除
DataflowStartSqlJobOperator。 请使用DataflowStartYamlJobOperator代替删除
PromptLanguageModelOperator。 请使用TextGenerationModelPredictOperator代替删除
GenerateTextEmbeddingsOperator。 请使用TextEmbeddingModelGetEmbeddingsOperator代替删除
PromptMultimodalModelOperator。 请使用GenerativeModelGenerateContentOperator代替删除
PromptMultimodalModelWithMediaOperator。 请使用GenerativeModelGenerateContentOperator代替
Hooks
删除
GenerativeModelHook.prompt_multimodal_model_with_media()。 请使用GenerativeModelHook.generative_model_generate_content()代替删除
GenerativeModelHook.prompt_multimodal_model()。 请使用GenerativeModelHook.generative_model_generate_content()代替删除
GenerativeModelHook.get_generative_model_part()。 请使用GenerativeModelHook.generative_model_generate_content()代替删除
GenerativeModelHook.prompt_language_model()。 请使用GenerativeModelHook.text_generation_model_predict()代替删除
GenerativeModelHook.generate_text_embeddings()。 请使用GenerativeModelHook.text_generation_model_predict()代替
从 Google provider 中删除已弃用的功能 (#46235)
功能特性¶
创建用于处理 GCP Apache Kafka 的 Clusters 的 operators (#45795)弃用旧的 bigquery operators 并引入 CreateTableOperator (#46673)为 Entry 资源添加 operators (#46647)将可延迟模式添加到 PubSubPullOperator (#45835)将可延迟模式添加到 google cloud storage 传输传感器和 operators (#45754)为 AspectType 资源添加 operators (#46240)特性:为 BigQueryDataTransferServiceStartTransferRunsOperator 添加 OpenLineage 支持 (#45801)特性:为 CloudSQLExecuteQueryOperator 添加 OpenLineage 支持 (#45182)为 Entry Type 添加新 operators (#45799)添加 Dataplex Catalog Entry Group operators (#45751)特性:为 BigQueryHook 添加 Hook Level Lineage 支持 (#45706)特性:为 MsSqlHook 和 MSSQLToGCSOperator 添加 OpenLineage 支持 (#45637)将 holiday_region 参数添加到 AutoMl hook 中的 create_auto_ml_forecasting_training_job 中 (#45465)特性:自动将 OL 传输信息注入到 spark 作业中 (#45326)特性:为 GCS 和 SFTP 之间的传输 operators 添加 OpenLineage 支持 (#45485)实现 AlloyDB 创建/更新/删除用户和备份 operators (#45378)特性:为一些 SQL 到 GCS operators 添加 OpenLineage 支持 (#45242)特性:为一些 BQ operators 添加 OpenLineage 支持 (#45422)特性:为 BigQueryInsertJobOperator 中的非查询作业添加 OpenLineage 支持 (#44996)特性:自动将 OL 信息注入到 DataprocInstantiateInlineWorkflowTemplateOperator 中的 spark 作业中 (#44697)特性:在 BigQueryInsertJobOperator 中将 CLL 添加到 OpenLineage (#44872)特性:自动将 OL 信息注入到 DataprocCreateBatchOperator 中的 spark 作业中 (#44612)实现 AlloyDB 创建/更新/删除实例 operators (#45241)添加 BigQuery 作业链接 (#45020) (#45222)引入 gcp translation(V3) 词汇表 providers (#45085)将 dependencies 部分添加到 gcp cloud build 实例响应中 (#46947)创建 用于 处理 GCP Apache Kafka 主题 的 操作符 (#46865)
Bug 修复¶
修复 在 BigQueryInsertJobOperator 中,当 async 在 deffed 之前 完成时,返回 job_id (#46753)修复: 如果没有 OpenLineage,Dataproc 操作符 导入失败 (#46561)为 CloudComposerDAGRunSensor 添加 旧 Airflow 版本的 向后兼容性 (#46011)改进 google 凭据 错误消息 (#45553)在 CloudSqlProxyRunner 中添加 aarch64 环境的 case (#45488)修复 GCSToGCSOperator 在 replace 为 False 时,复制 单个 对象 的 bug (#45181)
其他¶
重构 TriggererJobRunner 以在没有 DB 访问的进程中运行 triggers (#46677)AIP-72: 改进 操作符 链接 界面 以防止 用户代码 在 Webserver 中执行 (#46613)移除 Google Provider 中的 Airflow 3 弃用警告,移动到 Private Warning (#46599)将 evaluation extra 添加到 google-cloud-aiplatform (#46270)限制 'google-cloud-aiplatform' 以修复 CI 中的问题 (#46242)改进 cloud_composer.rst 中的 语法 (#45708)AIP-72: 支持 SDK 中 Context dict 更好的类型提示 (#45583)弃用 Google Ads API v17 及更高版本的 page_size 参数 (#45239)删除 pre-python 3.9 的过时 pandas 规范 (#45399)apache-airflow-providers-google 包的 弃用策略 (#44985)添加 alloydb 的下限 (#45180)弃用 gcp AutoML 模块 (#44875)重构 BeamRunPythonPipelineOperator 和 BeamRunJavaPipelineOperator 的可延迟模式 (#46678)将 cloud build 提升到 3.31.0 (#46953)
12.0.0¶
注意
如Apache Airflow providers support policy中所述,此 provider 版本仅适用于 Airflow 2.9+。
不兼容变更¶
警告
已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:
操作符
已移除
CreateDataPipelineOperator。请改用DataflowCreatePipelineOperator。已移除
RunDataPipelineOperator。请改用DataflowRunPipelineOperator。已移除
CreateDataPipelineOperator。请改用DataflowCreatePipelineOperator。已移除
RunDataPipelineOperator。请改用DataflowRunPipelineOperator。
Hooks
已移除
DataPipelineHook。请改用DataflowHook。已移除
DataPipelineHook。请改用 DataflowHook。
Google provider 删除 已弃用 到达移除日期 (2024年12月) (#45084)
特性¶
添加 Google Vertex AI Feature Store - Feature View 同步 操作符,传感器 (#44891)引入 gcp translation(V3),翻译 文档 providers (#44971)引入 translation API v3 (高级)模型 操作符。 (#44627)支持 Dataproc SQL 作业中的 多个 SQL 查询 (#44890)feat: 为 BigQuery 创建表 操作符添加 OpenLineage 支持 (#44783)feat: 为 S3ToGCSOperator 添加 OpenLineage 支持 (#44426)feat: 在 DataprocSubmitJobOperator 中自动将 OL 信息注入到 spark 作业中 (#44477)实现 AlloyDB 操作符:创建/更新/删除 集群 (#45027)
Bug 修复¶
修复 由于重复的别名而导致的 MetastoreHivePartitionSensor 失败 (#45001)修复 InsertBigQueryOperator 的 OpenLineage 发射失败 (#44650)BigQueryInsertJobOperator: 记录瞬态错误,并在将任务标记为成功之前检查作业状态 (#44279)使 'CloudBatchSubmitJobOperator' 在作业失败时失败 (#44425)
其他¶
删除对 AIRFLOW_V_2_9_PLUS 的引用 (#44987)在 providers 中一致地检查 Airflow 版本 (#44686)修复 yoda-conditions (#44466)feat: 为 gcs 和 local 之间的 传输 操作符添加 OpenLineage 支持 (#44417)将 providers 中的最小 Airflow 版本提升到 Airflow 2.9.0 (#44956)chore: 从 OpenLineage utils 中删除已弃用的 bigquery facets (#44838)实现 KubernetesInstallKueueOperator (#44568)修复 dataform 操作符的 文档 (#44729)弃用 VertexAI PaLM 文本生成模型 (#44719)在文档中显示关于弃用的醒目警告 (#44479)chore: 统一处理 gcs 路径 (#44410)
11.0.0¶
不兼容变更¶
警告
已从 Google provider 包中删除已弃用的类、参数和特性。引入了以下重大变更:
操作符
已移除
CreateAutoMLTextTrainingJobOperator。请改用SupervisedFineTuningTrainOperator。已移除
BigQueryExecuteQueryOperator。请改用BigQueryInsertJobOperator。已移除
BigQueryPatchDatasetOperator。请改用BigQueryUpdateDatasetOperator。已移除
DataflowCreateJavaJobOperator。请改用BeamRunJavaPipelineOperator。移除了
DataflowCreatePythonJobOperator。请使用BeamRunPythonPipelineOperator代替。移除了
DataprocSubmitPigJobOperator。请使用DataprocSubmitJobOperator代替。移除了
DataprocSubmitHiveJobOperator。请使用DataprocSubmitJobOperator代替。移除了
DataprocSubmitSparkSqlJobOperator。请使用DataprocSubmitJobOperator代替。移除了
DataprocSubmitSparkJobOperator。请使用DataprocSubmitJobOperator代替。移除了
DataprocSubmitHadoopJobOperator。请使用DataprocSubmitJobOperator代替。移除了
DataprocSubmitPySparkJobOperator。请使用DataprocSubmitJobOperator代替。移除了
GoogleAnalyticsListAccountsOperator。请使用GoogleAnalyticsAdminListAccountsOperator代替。移除了
GoogleAnalyticsGetAdsLinkOperator。请使用GoogleAnalyticsAdminGetGoogleAdsLinkOperator代替。移除了
GoogleAnalyticsRetrieveAdsLinksListOperator。请使用GoogleAnalyticsAdminListGoogleAdsLinksOperator代替。移除了
GoogleAnalyticsDataImportUploadOperator。请使用GoogleAnalyticsAdminCreateDataStreamOperator代替。移除了
GoogleAnalyticsDeletePreviousDataUploadsOperator。请使用GoogleAnalyticsAdminDeleteDataStreamOperator代替。移除了
GoogleAnalyticsModifyFileHeadersDataImportOperator。由于 Google Analytics API v3 已停止服务,该类已不再实际使用,因此所涵盖的用例不再相关。移除了
GoogleCampaignManagerDeleteReportOperator.delegate_to。请使用GoogleCampaignManagerDeleteReportOperator.impersonation_chain代替。移除了
GoogleCampaignManagerDownloadReportOperator.delegate_to。请使用GoogleCampaignManagerDownloadReportOperator.impersonation_chain代替。移除了
GoogleCampaignManagerInsertReportOperator.delegate_to。请使用GoogleCampaignManagerInsertReportOperator.impersonation_chain代替。移除了
GoogleCampaignManagerRunReportOperator.delegate_to。请使用GoogleCampaignManagerRunReportOperator.impersonation_chain代替。移除了
GoogleCampaignManagerBatchInsertConversionsOperator.delegate_to。请使用GoogleCampaignManagerBatchInsertConversionsOperator.impersonation_chain代替。移除了
GoogleCampaignManagerBatchUpdateConversionsOperator.delegate_to。请使用GoogleCampaignManagerBatchUpdateConversionsOperator.impersonation_chain代替。移除了
GoogleDisplayVideo360CreateQueryOperator.delegate_to。请使用GoogleDisplayVideo360CreateQueryOperator.impersonation_chain代替。移除了
GoogleDisplayVideo360DeleteReportOperator.delegate_to。请使用GoogleDisplayVideo360DeleteReportOperator.impersonation_chain代替。移除了
GoogleDisplayVideo360DownloadReportV2Operator.delegate_to。请使用GoogleDisplayVideo360DownloadReportV2Operator.impersonation_chain代替。移除了
GoogleDisplayVideo360RunQueryOperator.delegate_to。请使用GoogleDisplayVideo360RunQueryOperator.impersonation_chain代替。移除了
GoogleDisplayVideo360DownloadLineItemsOperator.delegate_to。请使用GoogleDisplayVideo360DownloadLineItemsOperator.impersonation_chain代替。移除了
GoogleDisplayVideo360UploadLineItemsOperator.delegate_to。请使用GoogleDisplayVideo360UploadLineItemsOperator.impersonation_chain代替。移除了
GoogleDisplayVideo360CreateSDFDownloadTaskOperator.delegate_to。请使用GoogleDisplayVideo360CreateSDFDownloadTaskOperator.impersonation_chain代替。移除了
GoogleDisplayVideo360SDFtoGCSOperator.delegate_to。请使用GoogleDisplayVideo360SDFtoGCSOperator.impersonation_chain代替。移除了
GoogleSheetsCreateSpreadsheetOperator.delegate_to。请使用GoogleSheetsCreateSpreadsheetOperator.impersonation_chain代替。移除了
GCSToGoogleDriveOperator.delegate_to。请使用GCSToGoogleDriveOperator.impersonation_chain代替。移除了
GCSToGoogleSheetsOperator.delegate_to。请使用GCSToGoogleSheetsOperator.impersonation_chain代替。移除了
LocalFilesystemToGoogleDriveOperator.delegate_to。请使用LocalFilesystemToGoogleDriveOperator.impersonation_chain代替。移除了
SQLToGoogleSheetsOperator.delegate_to。请使用SQLToGoogleSheetsOperator.impersonation_chain代替。移除了
CreateBatchPredictionJobOperator.sync。此参数不再实际使用。移除了
CreateHyperparameterTuningJobOperator.sync。此参数不再实际使用。移除了
CustomTrainingJobBaseOperator.sync。此参数不再实际使用。移除了
GKEStartPodOperator.get_gke_config_file()。请使用GKEStartPodOperator.fetch_cluster_info()代替。
触发器
移除了
GCSCheckBlobUpdateTimeTrigger.hook_params参数中对delegate_to字段的支持。
传感器
移除了
BigQueryTableExistenceAsyncSensor。请使用BigQueryTableExistenceSensor并将 deferrable 属性设置为 True 代替。移除了
BigQueryTableExistencePartitionAsyncSensor。请使用BigQueryTablePartitionExistenceSensor并将 deferrable 属性设置为 True 代替。移除了
CloudComposerEnvironmentSensor。请使用CloudComposerCreateEnvironmentOperator、CloudComposerUpdateEnvironmentOperator或CloudComposerDeleteEnvironmentOperator代替。移除了
GCSObjectExistenceAsyncSensor。请使用GCSObjectExistenceSensor并将 deferrable 属性设置为 True 代替。移除了
GoogleCampaignManagerReportSensor.delegate_to。请使用GoogleCampaignManagerReportSensor.impersonation_chain代替。移除了
GoogleDisplayVideo360GetSDFDownloadOperationSensor.delegate_to。请使用GoogleDisplayVideo360GetSDFDownloadOperationSensor.impersonation_chain代替。移除了
GoogleDisplayVideo360RunQuerySensor.delegate_to。请使用GoogleDisplayVideo360RunQuerySensor.impersonation_chain代替。移除了
GoogleDriveFileExistenceSensor.delegate_to。请使用GoogleDriveFileExistenceSensor.impersonation_chain代替。
链接
移除了
BigQueryConsoleIndexableLink。此属性不再实际使用。移除了
BigQueryConsoleLink。此属性不再实际使用。
Hooks
移除了
GKEDeploymentHook。请使用GKEKubernetesHook代替。移除了
GKECustomResourceHook。请使用GKEKubernetesHook代替。移除了
GKEPodHook。请使用GKEKubernetesHook代替。移除了
GKEJobHook。请使用GKEKubernetesHook代替。移除了
GKEPodAsyncHook。请使用GKEKubernetesAsyncHook代替。移除了
SecretsManagerHook。请使用GoogleCloudSecretManagerHook代替。移除了
GoogleAnalyticsHook。由于 Google Analytics API v3 已停止服务,该类已不再实际使用。移除了
GoogleBaseHook.delegate_to。请使用GoogleBaseHook.impersonation_chain。请注意,delegate_to参数过去在所有 Google hooks 中都继承,并且从现在起,它在 Google provider 中的所有位置都已被删除。移除了
GoogleDiscoveryApiHook.delegate_to。请使用GoogleDiscoveryApiHook.impersonation_chain代替。移除了
GoogleCampaignManagerHook.delegate_to。请使用GoogleCampaignManagerHook.impersonation_chain代替。移除了
GoogleDisplayVideo360Hook.delegate_to。请使用GoogleDisplayVideo360Hook.impersonation_chain代替。移除了
GoogleSearchAdsHook.delegate_to。请使用GoogleSearchAdsHook.impersonation_chain代替。移除了
GoogleCalendarHook.delegate_to。请使用GoogleCalendarHook.impersonation_chain代替。移除了
GoogleDriveHook.delegate_to。请使用GoogleDriveHook.impersonation_chain代替。移除了
GSheetsHook.delegate_to。请使用GSheetsHook.impersonation_chain代替。移除了
BigQueryHook.credentials_path。此属性不再实际使用。已移除
GKEHook.get_conn()。请改用GKEHook.get_cluster_manager_client()已移除
GKEHook.get_client()。请改用GKEHook.get_cluster_manager_client()已移除
BigQueryHook.patch_table()。请改用BigQueryHook.update_table()已移除
BigQueryHook.patch_dataset()。请改用BigQueryHook.update_dataset()已移除
BigQueryHook.get_dataset_tables_list()。请改用BigQueryHook.get_dataset_tables()已移除
BigQueryHook.run_table_delete()。请改用BigQueryHook.delete_table()已移除
BigQueryHook.get_tabledata()。请改用BigQueryHook.list_rows()已移除
BigQueryHook.cancel_query()。请改用BigQueryHook.cancel_job()已移除
BigQueryHook.run_with_configuration()。请改用BigQueryHook.insert_job()已移除
BigQueryHook.run_load()。请改用BigQueryHook.insert_job()已移除
BigQueryHook.run_copy()。请改用BigQueryHook.insert_job()已移除
BigQueryHook.run_extract()。请改用BigQueryHook.insert_job()已移除
BigQueryHook.run_query()。请改用BigQueryHook.insert_job()已移除
BigQueryHook.create_external_table()。请改用BigQueryHook.create_empty_table()已移除
BigQueryHook.get_service()。请改用BigQueryHook.get_client()
后端
已移除
CloudSecretManagerBackend.get_conn_uri()。请改用CloudSecretManagerBackend.get_conn_value()
其他弃用
已移除
BigQueryBaseCursor.create_empty_table()。请改用BigQueryHook.create_empty_table()已移除
BigQueryBaseCursor.create_empty_dataset()。请改用BigQueryHook.create_empty_dataset()已移除
BigQueryBaseCursor.get_dataset_tables()。请改用BigQueryHook.get_dataset_tables()已移除
BigQueryBaseCursor.delete_dataset()。请改用BigQueryHook.delete_dataset()已移除
BigQueryBaseCursor.create_external_table()。请改用BigQueryHook.create_empty_table()已移除
BigQueryBaseCursor.patch_table()。请改用BigQueryHook.update_table()已移除
BigQueryBaseCursor.insert_all()。请改用BigQueryHook.insert_all()已移除
BigQueryBaseCursor.update_dataset()。请改用BigQueryHook.update_dataset()已移除
BigQueryBaseCursor.patch_dataset()。请改用BigQueryHook.update_dataset()已移除
BigQueryBaseCursor.get_dataset_tables_list()。请改用BigQueryHook.get_dataset_tables()已移除
BigQueryBaseCursor.get_datasets_list()。请改用BigQueryHook.get_datasets_list()已移除
BigQueryBaseCursor.get_dataset()。请改用BigQueryHook.get_dataset()已移除
BigQueryBaseCursor.run_grant_dataset_view_access()。请改用BigQueryHook.run_grant_dataset_view_access()已移除
BigQueryBaseCursor.run_table_upsert()。请改用BigQueryHook.run_table_upsert()已移除
BigQueryBaseCursor.run_table_delete()。请改用BigQueryHook.delete_table()已移除
BigQueryBaseCursor.get_tabledata()。请改用BigQueryHook.list_rows()已移除
BigQueryBaseCursor.get_schema()。请改用BigQueryHook.get_schema()已移除
BigQueryBaseCursor.poll_job_complete()。请改用BigQueryHook.poll_job_complete()已移除
BigQueryBaseCursor.cancel_query()。请改用BigQueryHook.cancel_job()已移除
BigQueryBaseCursor.run_with_configuration()。请改用BigQueryHook.insert_job()已移除
BigQueryBaseCursor.run_load()。请改用BigQueryHook.insert_job()已移除
BigQueryBaseCursor.run_copy()。请改用BigQueryHook.insert_job()已移除
BigQueryBaseCursor.run_extract()。请改用BigQueryHook.insert_job()已移除
BigQueryBaseCursor.run_query()。请改用BigQueryHook.insert_job()
从 Google 提供程序中删除已弃用的功能 (#43953)
功能¶
feat: 为 BigQueryToBigQueryOperator 添加 OpenLineage 支持 (#44214)引入 gcp 高级 API (V3) 转换本机数据集操作符 (#44271)引入新的 gcp TranslateText 和 TranslateTextBatch 操作符 (#43860)将 gcloud 命令添加到 DataprocCreateClusterOperator,以便能够在 GKE 集群上创建 dataproc (#44185)
错误修复¶
修复 'BigQueryAsyncHook.create_job_for_partition_get' 中的不正确查询。(#44225)修复 Dataplex 数据质量的部分更新 (#44262)
其他¶
将 'google-cloud-translate' 升级到 '3.16' (#44297)将 'google-cloud-datacatalog' 升级到 '3.23' (#44281)在整个代码库中将 execution_date 重命名为 logical_date (#43902)
10.26.0¶
功能¶
为 CloudSQL 连接添加对 IAM 数据库身份验证的支持 (#43631)为 'GCSToBigQueryOperator' 提供 'force_delete' 选项 (#43785)统一 BigQuery 操作符中的 reattach_states 参数逻辑 (#43259)
错误修复¶
从 ListCustomTrainingJobOperator 的 template_fields 中删除不存在的字段 (#43924)修复 'UploadModelOperator' 中验证 'parent_model' 参数的问题 (#43473)
其他¶
添加对 DbApiHook、PrestoHook 和 TrinoHook 的分号剥离支持 (#41916)删除 Google 提供程序中 Airflow 2.1 兼容代码 (#43952)解释如何将 uv 与 airflow virtualenv 一起使用并使其工作 (#43604)将 python 操作符移动到 Standard 提供程序 (#42081)更新 Google ADS 的版本 (#43474)
10.25.0¶
功能¶
feat: 为 GCSHook 添加 Hook Level Lineage 支持 (#42507)feat: 用于检查 Dataform 操作状态的传感器 (#43055)为 Google Cloud Vertex AI 上下文缓存创建操作符 (#43008)
错误修复¶
修复过时的 CloudRunExecuteJobOperator 文档 (#43195)修复 TestTranslationLegacyModelPredictLink dataset_id 错误 (#42463)
其他¶
为 在 dataproc 中 创建 批量 工作负载 添加 调试 日志 (#43265)为 plyvel 添加 最小 版本 (#43129)Vertex AI 训练 operators: 向 渲染的 字段 添加 display_name (#43028)使 google provider pyarrow 依赖 显式化 (#42996)限制 looker-sdk 版本 24.18.0 和 microsoft-kiota-http 1.3.4 (#42954)
10.24.0¶
功能¶
为 DataprocCreateClusterOperator 和 DataprocCreateBatchOperator 添加 'retry_if_resource_not_ready' 逻辑 (#42703)
Bug修复¶
如果 提供了 batch_id,则在 Dataproc Serverless Batch 链接 启动后 发布 (#41153)修复 PubsubPullTrigger 中的 PubSubAsyncHook 以 使用 gcp_conn_id (#42671)修复 PubSubPullSensor 返回 一致的 响应 (#42080)当 拆分 完整的 BigQuery 表 名时,撤消 从 表 名中 排除 分区 (#42541)修复 gcp 文本转语音 uri 获取 (#42309)重构 ''GCSHook'' 中的 ''bucket.get_blob'' 调用 以 处理 对 不存在的 对象的验证。 (#42474)Bugfix/dataflow job location 传递 (#41887)
其他¶
删除 了 airflow 版本 2.8.0 及 以上版本中 对 任务 上下文 日志记录的 条件 检查 (#42764)将 数据集 相关的 python 变量 名称 重命名 为 asset (#41348)弃用 AutoMLBatchPredictOperator 并 重构 AutoMl 系统 测试 (#42260)
10.23.0¶
功能¶
添加 在 dataproc 集群中 创建 Flink 作业的 能力 (#42342)添加 新的 Google Search 360 Reporting Operators (#42255)将 return_immediately 作为 参数 添加到 PubSubPullSensor 类 (#41842)在 'UploadModelOperator' 中 添加 parent_model 参数 (#42091)添加 DataflowStartYamlJobOperator (#41576)为 Google Vertex AI Rapid Evaluation API 添加 RunEvaluationOperator (#41940)为 Google Generative AI CountTokensAPI 添加 CountTokensOperator (#41908)添加 Supervised Fine Tuning Train Operator,Hook,Tests,Docs (#41807)
Bug修复¶
进行小的修复 以 确保 成功的 Vertex AI LLMops pipeline (#41997)从 BigQuery 表 名中 排除 分区 (#42130)[修复 #41763]: 当 未指定 或 具有 默认值时,SFTPToGCSOperator 中的 冗余 正斜杠 destination_path (#41928)修复 GKEJobTrigger 中的 poll_interval (#41712)更新 dataflow job id 提取的 模式 (#41794)强制执行 google provider 包的 EOL 弃用 消息 格式 (#41637)修复 KubernetesJobOperator 的 'do_xcom_push' 和 'get_logs' 功能 (#40814)
其他¶
标记 VertexAI AutoMLText 弃用 (#42251)排除 google-cloud-spanner 3.49.0 (#42011)删除 已弃用的 Google analytics operators 的 系统 测试 (#41946)更新 google-cloud-bigquery 包的 最小 版本 (#41882)取消固定 Google provider 的 google-cloud-bigquery 包 版本 (#41839)从 已弃用的 DAG.following_schedule() 方法 迁移 (#41773)从 providers 中 删除 已弃用的 soft_fail (#41710)更新 google-ads 的版本 (#41638)删除 已弃用的 日志 处理程序 参数 filename_template (#41552)
主要¶
警告
之前的 Search Ads 360 Reporting API <https://developers.google.com/search-ads/v2/how-tos/reporting> (当前在 google-provider 中使用)已于 2024 年 6 月 30 日停用(请参阅详细信息 <https://developers.google.com/search-ads/v2/migration>)。所有新的报告开发都应使用新的 Search Ads 360 Reporting API。目前,由于停用,报告 operators、传感器和 hooks 失败。新的 API 不是旧 API 的替代品,它具有不同的方法和端点。因此,为新的 API 实现了新的 operators。
10.22.0¶
注意
如 Apache Airflow providers support policy 中所述,此 provider 版本仅适用于 Airflow 2.8+。
功能¶
添加 'CloudRunServiceHook' 和 'CloudRunCreateServiceOperator' (#40008)
Bug修复¶
fix(providers/google): 向 CloudDataTransferServiceAsyncHook 添加 缺失的 sync_hook_class (#41417)
其他¶
将 providers 中的 最小 Airflow 版本 提升 到 Airflow 2.8.0 (#41396)重构 'DataprocCreateBatchOperator' (#41527)升级 包 gcloud-aio-auth>=5.2.0 (#41262)
10.21.1¶
Bug修复¶
修复 CloudSQL hook 的不必要的 导入 (#41009)将 敏感信息 移动到 系统 测试 google_analytics_admin 的 密钥 管理器 (#40951)修复 自定义 训练 作业 operators 以 接受 没有 托管 模型 的结果 (#40685)修复 BigQueryInsertJobOperator 中 reattach_state 参数的 行为 (#40664)修复 CloudSQLDatabaseHook 临时 文件 处理 (#41092)
其他¶
重构 dataproc 系统 测试 (#40720)openlineage: 将 OpenLineage 提供程序 迁移到 V2 facet。 (#39530)解决 CloudSQLDatabaseHook 弃用 警告 (#40834)修复 BeamRunJavaPipelineOperator 在未设置 job_name 的情况下失败 (#40645)
10.21.0¶
注意
修改 修复 'GCSToGCSOperator' 移动 单个 对象的行为差异 (#40162) 已被撤销,因为它破坏了太多的现有工作流程。 GCSToGCSOperator 的行为已恢复到之前的行为。
功能¶
更新 Google Cloud 生成式 模型 Hooks/Operators 以与 Vertex AI API 保持一致 (#40484)DataflowStartFlexTemplateOperator。 每次检查周期检查 Dataflow 作业类型。 (#40584)向 LocalFilesystemToGCSOperator 添加 chunk_size 参数 (#40379)向 BigQueryCheckOperator 添加 对 查询 参数的支持 (#40558)在 DataprocCreateBatchOperator 中添加指向 dataproc 作业的链接按钮 (#40643)
Bug 修复¶
还原 "修复 'GCSToGCSOperator' 移动 单个 对象的行为差异 (#40162)" (#40577)修复 BigQueryInsertJobOperator 的返回值以及可延迟模式下的 openlineage 提取 (#40457)修复 GCP 可延迟运算符的 OpenLineage 提取 (#40521)修复 CloudBatchSubmitJobOperator 中对 project_id 的尊重 (#40560)
10.20.0¶
注意
现在,GCSToGCSOperator 在移动或复制单个对象时会保留嵌套的文件夹结构,使其行为与多个对象的行为保持一致。如果此更改影响您的工作流程,您可能需要调整您的 source_object 参数,以包括直到包含您的单个文件的文件夹的完整路径,并明确指定 destination_object 以忽略嵌套的文件夹。例如,如果您之前使用 source_object='folder/nested_folder/',要移动文件 'folder/nested_folder/second_nested_folder/file',您现在应该使用 source_object='folder/nested_folder/second_nested_folder/' 并指定 destination_object='folder/nested_folder/'。这将把文件移动到 'folder/nested_folder/file',而不是将其移动到 'folder/nested_folder/second_nested_folder/file' 的固定行为。
警告
上面的更改已在 10.21.0 版本中撤销。 GCSToGCSOperator 的行为已恢复到之前的行为。
功能¶
向 google cloud multimodal model operators 添加 generation_config 和 safety_settings (#40126)向 'BigQueryUpdateTableSchemaOperator' 添加缺少的 location 参数 (#40237)为 Google Cloud Operators 添加对外部 IdP OIDC 令牌检索的支持。 (#39873)向 BigQuery operators 添加 encryption_configuration 参数 (#40063)向 GoogleBaseAsyncHook 添加默认的 gcp_conn_id (#40080)为 PubSubPublishMessageOperator GCP Operator 添加 排序 键 选项 (#39955)在 GCSHook 中添加从 GCS blob 获取元数据的方法 (#38398)在 AutoMLHook 中的 create_auto_ml_forecasting_training_job 中添加 window 参数 (#39767)实现 CloudComposerDAGRunSensor (#40088)实现 'CloudDataTransferServiceRunJobOperator' (#39154)异步获取 GKEStartPod 的中间日志 (#39348)在 google provider 包中为 AzureBlobStorageToGCSOperator 添加 OpenLineage 支持 (#40290)
Bug 修复¶
修复 hive_partition_sensor 系统 测试 (#40023)修复 openai 1.32 破坏 openai 测试 (#40110)修复 google auth 的 mypy 版本显示凭据初始化 (#40108)修复 DataflowHook 中排除双引号和换行符的正则表达式 (#39991)修复 BigQueryToPostgresOperator 的替换参数 (#40278)修复 'GCSToGCSOperator' 移动 单个 对象的行为差异 (#40162)
其他¶
重构 datapipeline operators (#39716)更新 Python 3.12 的 pandas 最低要求 (#40272)使用最低直接依赖关系解析实现每个提供程序的测试 (#39946)openlineage: 在单独的进程中执行提取和消息发送 (#40078)将 google-auth 的最低版本提升到 2.29.0 (#40190)提升 google-ads 版本以默认使用 v17 (#40158)google: 将 openlineage 导入移动到方法内部 (#40062)在 DataplexGetDataQualityScanResultOperator 中添加 job_id 作为 template_field (#40041)向 httpx >= 0.25.0 添加依赖项 (#40256)
10.19.0¶
注意
在 AutoML Natural Language、Tables、Vision 和 Video Intelligence 服务的旧版本关闭后,几个 AutoML 运算符已停止支持。这包括 AutoMLDeployModelOperator、AutoMLTablesUpdateDatasetOperator、AutoMLTablesListTableSpecsOperator 和 AutoMLTablesListColumnSpecsOperator。请参阅运算符文档以了解可用的替代方案(如果有)。有关 AutoML 关闭的更多信息,请参见
功能¶
在 GCP base hook 中引入匿名凭据 (#39695)
Bug 修复¶
如果 parent_model 版本后缀传递给 Vertex AI operators,则删除它 (#39640)如果缺少 location,则修复 BigQueryCursor execute 方法 (#39659)修复 PubSubPullSensor 在 可延迟模式 下的 已确认功能 (#39711)将 AutoML Operator 链接 重定向 到 Google 翻译 链接 (#39668)将 google-cloud-bigquery 锁定 到 < 3.21.0 (#39583)
其他¶
移除 Google 和 Snowflake Provider 中的 'openlineage.common' 依赖项 (#39614)弃用 AutoML Tables Operator (#39752)解决 Azure FileShare-to-GCS 测试 中的 弃用警告 (#39599)拼写错误: spec 中错误的 OpenLineage facet key (#39782)从 StackdriverTaskHandler 中 移除 陈旧代码 (#39744)
10.18.0¶
注意
如Apache Airflow Provider支持策略中所述,此 Provider 版本仅适用于 Airflow 2.7+。
功能¶
为 Google LLM Operator 添加 模板化 字段 (#39174)添加 逻辑 以处理 当 deferrable=True 时 BigQueryInsertJobOperator 的 on_kill (#38912)创建 'CloudComposerRunAirflowCLICommandOperator' Operator (#38965)Dataflow Sensor 的 可延迟 模式 (#37693)自定义 训练 Job Operator 的 可延迟 模式 (#38584)CloudSQLExecuteQueryOperator 中对 SSL 支持的 增强 (#38894)创建 GKESuspendJobOperator 和 GKEResumeJobOperator Operator (#38677)为 Google Transfer Service Operator 中的 AWS 凭据 添加 对 role arn 的支持 (#38911)将 encryption_configuration 参数 添加到 BigQueryCheckOperator 和 BigQueryTableCheckOperator (#39432)将 'job_id' 参数 添加到 'BigQueryGetDataOperator' (#39315)
Bug修复¶
修复 DataflowTemplatedJobStartOperator 和 DataflowStartFlexTemplateOperator 的 可延迟模式 (#39018)修复 BigQueryToPostgresOperator 的 批量处理 (#39233)修复 当 任务 被标记为 失败时 deferrable mode=True 下的 DataprocSubmitJobOperator (#39230)修复 GCSObjectExistenceSensor Operator 以在 可延迟 和 非可延迟 模式下返回相同的 XCOM 值 (#39206)修复 conn_id BigQueryToMsSqlOperator (#39171)修复 在 Google 身份验证 刷新凭据 错误的情况下添加重试逻辑 (#38961)修复 可延迟模式下 BigQueryCheckOperator 跳过的 值 和 错误检查 (#38408)修复 在 GCSDeleteObjectsOperator 中使用 前缀 而不是所有文件路径来表示 OpenLineage 数据集 (#39059)修复 在 GCSToGCSOperator 中使用 前缀 而不是完整文件路径来表示 OpenLineage 数据集 (#39058)修复 GCSTimeSpanFileTransformOperator 中的 OpenLineage 数据集 (#39064)修复 'DataprocSubmitPySparkJobOperator' 中 临时 文件名生成 (#39498)修复 当 TaskInstance 未处于 running 或 deferred 状态时 DataprocSubmitJobOperator 取消外部 Job 的逻辑 (#39447)修复 当 TaskInstance 未处于 running 或 deferred 状态时 BigQueryInsertJobOperator 取消外部 Job 的逻辑 (#39442)修复 当 TaskInstance 未处于 running 或 deferred 状态时 DataprocCreateClusterOperator 取消外部 Job 的逻辑 (#39446)修复 使用 'result_retry' 时 'DataprocCreateBatchOperator' 引发 'AttributeError' (#39462)修复 GKEStartKueueInsideClusterOperator 的 YAML 解析 (#39234)修复 BigQueryInsertJobOperator 中标签值的验证 (#39568)
其他¶
将 Provider 中的 最低 Airflow 版本 提升到 Airflow 2.7.0 (#39240)改进 'DataprocCreateClusterOperator' 的 Trigger,以实现更好的错误处理和资源清理 (#39130)在 Microsoft Azure Provider 中添加 MSGraphOperator (#38111)在 Google Provider 中应用 PROVIDE_PROJECT_ID mypy 解决方法 (#39129)处理 KubernetesDeleteJobOperator 导入 (#39036)移除 Airflow 2.6 向后兼容代码 (#39558)重新应用 所有 Provider 的模板 (#39554)更快地 导入 'airflow_version' (#39552)为 已弃用的 添加 弃用警告并引发异常 (#38673)简化 'airflow_version' 导入 (#39497)断开 GKE Operator 与已弃用 Hook 的连接 (#39434)
10.17.0¶
功能¶
将 'impersonation_scopes' 添加到 BigQuery (#38169)将 可延迟模式 添加到 RunPipelineJobOperator (#37969)添加 GKECreateCustomResourceOperator 和 GKEDeleteCustomResourceOperator Operator (#37616)为 Google Cloud Generative AI 使用添加 VertexAI 语言模型和多模态模型操作符 (#37721)添加 GKEListJobsOperator 和 GKEDescribeJobOperator (#37598)创建 GKEStartKueueJobOperator 操作符 (#37477)创建 DeleteKubernetesJobOperator 和 GKEDeleteJobOperator 操作符 (#37793)更新 GCS hook 以获取 CMEK 保护对象的 crc32c 哈希 (#38191)为 BigQuery 作业设置作业标签以进行可追溯性 (#37736)CreateBatchPredictionJobOperator 的可延期模式 (#37818)
Bug 修复¶
修复 BigQuery 连接并添加文档 (#38430)fix(google,log): 避免日志名称覆盖 (#38071)修复 S3ToGCSOperator 触发器的凭据错误 (#37518)修复 GCP Vertex AI AutoML 和自定义作业操作符中的 'parent_model' 参数 (#38417)fix(google): 添加 return 语句以在触发器中的 while 循环内生成 (#38394)修复 'PostgresToGCSOperator' 中游标唯一名称超出 Postgres 标识符限制的问题 (#38040)修复 gcs 匿名用户问题,因为无 token (#38102)修复 BigQueryTablePartitionExistenceTrigger 分区查询 (#37655)
其他¶
添加 google-cloud-bigquery 作为显式的 google-provider 依赖项 (#38753)避免在 'google' provider 的类方法中使用 'functools.lru_cache' (#38652)重构 GKE hooks (#38404)从 airflow 包中删除未使用的循环变量 (#38308)cloud_storage_transfer_service 的模板化字段逻辑检查 (#37519)重命名 mlengine 操作符的字段名称以符合模板化字段验证 (#38053)重命名 Vertex AI AutoML 操作符的字段名称以符合模板化字段验证 (#38049)重命名 'DeleteCustomTrainingJobOperator' 的字段名称以符合模板化字段验证 (#38048)恢复从 Google Cloud 检索的 Google Transfer 操作符的 delegate_to (#37925)重构 CreateHyperparameterTuningJobOperator (#37938)升级 google-ads 版本 (#37787)
10.16.0¶
特性¶
'CloudRunExecuteJobOperator': 添加 project_id 到 hook.get_job 调用 (#37201)添加开发者 token 作为 GoogleAdsHook 的身份验证方法 (#37417)添加 GKEStartKueueInsideClusterOperator (#37072)为 BigQueryInsertJobTrigger 添加可选的 'location' 参数 (#37282)feat(GKEPodAsyncHook): 使用异步凭据 token 实现 (#37486)创建 GKEStartJobOperator 和 KubernetesJobOperator (#36847)
Bug 修复¶
修复 'DataFusionPipelineLinkHelper' 的无效弃用 (#37755)修复模板化字段赋值 'google/cloud/operators/compute.py' (#37659)修复 bq_to_mysql 初始化检查 (#37653)修复 Async GCSObjectsWithPrefixExistenceSensor xcom push (#37634)修复 GCSSynchronizeBucketsOperator 超时错误 (#37237)fix: insert_rows 的签名与超类型 DbApiHook 不兼容 (#37391)在 _CredentialsToken 中使用 offset-naive datetime (#37539)在 DataprocInstantiateInlineWorkflowTemplateOperator 中使用 wait_for_operation (#37145)
其他¶
修复 DataflowStartFlexTemplateOperator 文档中的拼写错误 (#37595)仅在 'DbApiHook.insert_rows' 中将 'executemany' 关键字参数设为仅关键字参数 (#37840)统一 'aws_conn_id' 类型,始终为 'str | None' (#37768)限制 'pandas' 到 '<2.2' (#37748)移除 Google provider 操作符中损坏的已弃用回退 (#37740)实现 AIP-60 数据集 URI 格式 (#37005)解决 'bigquery' 的模板字段初始化检查 (#37586)更新 DataprocCreateBatchOperator 的文档 (#37562)替换 providers 中 'datetime.utcnow' 和 'datetime.utcfromtimestamp' 的用法 (#37138)
10.15.0¶
特性¶
添加 service_file 支持到 GKEPodAsyncHook (#37081)更新 GCP Dataproc ClusterGenerator 以支持 GPU 参数 (#37036)创建 DataprocStartClusterOperator 和 DataprocStopClusterOperator (#36996)为 CreateHyperparameterTuningJobOperator 实现可延期模式 (#36594)为 GKEPodHook 启用 '_enable_tcp_keepalive' 功能 (#36999)
Bug 修复¶
fix(providers/google): 修复 GKEPodAsyncHook.service_file_as_context 的使用方式 (#37306)修复 ComputeEngineSSHHook 的元数据覆盖 (#37192)修复 '__init__' 中 'custom_job' 中模板字段的赋值 (#36789)修复 DataflowTemplatedJobStartOperator 中的 location 要求 (#37069)修复 'CloudDataTransferServiceCreateJobOperator' 中 '__init__' 里 template 字段 的 赋值 (#36909)修复了 GCP Data Fusion 链接的 硬编码 默认 namespace 值。 (#35379)如果在 Dataproc 集群 配置中 internal_ip_only 设置为 false, 则不要 忽略 它 (#37014)
其他¶
恢复 针对 google-core-api 的 向后兼容性 问题的 保护 (#37111)特性: 将所有 类、 函数、 方法 弃用 切换到 装饰器 (#36876)
10.14.0¶
注意
BaseSQLToGCSOperator 中的 parquet_row_group_size 的默认值已从 1 更改为 100000,以便拥有一个默认值,该默认值提供更好的压缩效率和读取输出 Parquet 文件的数据的性能。在许多情况下,先前的值 1 导致非常大的文件、长时间的任务持续时间和内存不足的问题。默认值 100000 可能需要更多内存来执行运算符,在这种情况下,用户可以覆盖运算符中的 parquet_row_group_size 参数。当 export_format 为 parquet 时,所有派生自 BaseSQLToGCSOperator 的运算符都会受到影响:MySQLToGCSOperator、PrestoToGCSOperator、OracleToGCSOperator、TrinoToGCSOperator、MSSQLToGCSOperator 和 PostgresToGCSOperator。鉴于以上情况,我们将此更改视为错误修复。
功能¶
将 templated 字段 添加到 来自 'BigQueryToPostgresOperator' 的 'BigQueryToSqlBaseOperator' (#36663)添加了 检查 取消 工作流 调用 并添加了 新的 查询 工作流 调用 运算符 (#36351)实现 Google Analytics Admin (GA4) 运算符 (#36276)添加 运算符 来 诊断 集群 (#36899)将 scopes 添加到 GCP token 中 (#36974)特性: 在 gcloud-aio 客户端中 完全 支持 google 凭据 (#36849)
错误修复¶
修复 templated 字段 到 super 构造函数 (#36934)修复: 在 GKEStartPodOperator 中 尊重 连接 ID 和 模拟 (#36861)修复 warnings.warn 中 的 stacklevel 到 providers 中 (#36831)修复 GCP Dataproc 链接中 的 弃用 (#36834)修复 构造函数中 templated 字段 的 赋值 (#36603)在 将 Dataproc 运算符 推迟 到 触发器 之前 检查 集群 状态 (#36892)防止 运算符 __init__ 中 的 templated 字段 逻辑 检查 (#36489)直接 通过 BigQuery 加载 API 保留 ASCII 控制 字符 (#36533)更改 'BaseSQLToGCSOperator' 中的 默认 'parquet_row_group_size' (#36817)修复 google 运算符 处理 模拟 链 的问题 (#36903)
其他¶
样式(providers/google): 改进 BigQueryInsertJobOperator 类型 提示 (#36894)弃用 用于 视觉和视频的 AutoMLTrainModelOperator (#36473)删除 KubernetesPodOperator 模块的 向后兼容性 检查 (#36724)删除 KubernetesPodTrigger 模块的 向后兼容性 检查 (#36721)将 所有 providers 和 airflow 的 最小 pandas 依赖项 设置为 1.2.5 (#36698)删除 不必要的 templated 字段 (#36491)文档(providers/google): 在 文档字符串中将 GoogleBaseHookAsync 改写为 GoogleBaseAsyncHook (#36946)
10.13.1¶
其他¶
删除 stackdriver 的 向后兼容 代码 (#36442)删除 未使用的 '_parse_version' 函数 (#36450)从 GCS 任务 处理程序中 删除 剩余的 Airflow 2.5 向后兼容 代码 (#36443) (#36457)
10.13.0¶
注意
此 provider 版本仅适用于 Airflow 2.6+,如 Apache Airflow providers 支持策略中所述。
功能¶
GCP Secrets 后端 模拟 (#36072)向 GcsOperators 添加 OpenLineage 支持 - 删除、 转换 和 TimeSpanTransform (#35838)添加 对 使用 computeEngineSSHHook (google provider) 和 IAP 隧道 进行 服务帐户 模拟的 支持 (#35136)添加 Datascan 分析 (#35696)向 Google Cloud Run 作业 执行 运算符的 模板 字段添加 覆盖 (#36133)为 BeamRunJavaPipelineOperator 实现 可延期 模式 (#36122)添加 在非 可延期 模式下为 BeamRunPythonPipelineOperator 运行 流式 作业的 能力 (#36108)将 use_glob 添加到 GCSObjectExistenceSensor (#34137)
错误修复¶
修复 DataprocSubmitJobOperator 以检索 失败 作业 错误 消息 (#36053)修复 CloudRunExecuteJobOperator 无法在 可延期 模式下检索 Cloud Run 作业 状态 (#36012)修复 gcs 列表 - 确保 blobs 已加载 (#34919)允许 模拟 链中的 多个 元素 (#35694)将 Google Dataflow 客户端的 重试 类型更改为 异步 重试 (#36141)DataprocCreateClusterOperator 运算符文档的 小幅修复。 (#36322)修复(bigquery.py): 将正确的 project_id 传递给 触发器 (#35200)在检查 前缀之前 迭代 blobs (#36202)修复 与 google-cloud-monitoring 2.18.0 的不兼容性 (#36200)更新 PubSubAsyncHook 中的 'retry' 参数 类型 (#36198)
其他¶
将 providers 中的最低 Airflow 版本提升至 Airflow 2.6.0 (#36017)弃用 'CloudComposerEnvironmentSensor',推荐使用带有 defer 模式的 'CloudComposerCreateEnvironmentOperator' (#35775)在子类中遵循 BaseHook 连接字段方法签名 (#36086)允许传递存储选项 (#35820)添加从源码构建 "chicken-egg" 包的功能 (#35890)从 Google Provider 中移除剩余的 Airflow 2.5 向后兼容代码 (#36366)将 KubernetesPodTrigger hook 移动到缓存属性 (#36290)通过 Ruff 在文档字符串中添加代码片段格式 (#36262)
10.12.0¶
功能¶
为 schema_settings 和 message_retention_duration 添加了主题参数。 (#35767)添加对 GCSToBigQueryOperator 的 OpenLineage 支持 (#35778)添加对 BigQueryToGCSOperator 的 OpenLineage 支持 (#35660)为 Dataproc 添加对驱动程序池、实例灵活性策略和 min_num_instances 的支持 (#34172)为 Dataproc worker 添加 "NON_PREEMPTIBLE" 作为有效的抢占类型 (#35669)添加将 impersonation_chain 传递给 BigQuery 触发器的能力 (#35629)在 GoogleDisplayVideo360CreateQueryOperator 中为本地文件添加过滤器 (#35635)扩展使用 GCP GCS 的远程日志记录的任务上下文日志记录支持 (#32970)
Bug 修复¶
修复并重新应用 provider 文档的模板 (#35686)修复检查 dataflow 作业状态的逻辑 (#34785)
其他¶
从 BigQueryToBigQueryOperator 中移除对已弃用方法的使用 (#35605)在父类而不是 TaskContextLogger set_context 中检查 attr (#35780)移除 providers 中与 Airflow 2.3/2.4 的向后兼容 (#35727)在 GoogleDiscoveryApiHook 中恢复 delegate_to 参数 (#35728)移除对 BigQueryCursor 中已弃用方法的使用 (#35606)对齐 'MSSQLToGCSOperator' 的文档 (#35715)
10.11.1¶
其他¶
将 Google Ads API 版本从 v14 更新到 v15 (#35295)
10.11.0¶
功能¶
AIP-58:添加 Airflow 对象存储 (AFS) (#34729)改进 Dataprep hook (#34880)
其他¶
将 'overrides' 参数添加到 CloudRunExecuteJobOperator (#34874)
10.10.1¶
其他¶
添加与 Google Cloud Storage 相关的文档之间的链接 (#34994)将 AI Platform Prediction 的旧版本迁移到 VertexAI (#34922)在 DataprocInstantiate{Inline}WorkflowTemplateOperator 的 on_kill 中取消工作流 (#34957)
10.10.0¶
注意
如Apache Airflow providers 支持策略中所述,此 provider 版本仅适用于 Airflow 2.5+。
功能¶
改进:在 BigQueryIntervalCheckOperator 中引入 project_id (#34573)
Bug 修复¶
在为 google sensors 引发异常时遵守 soft_fail 参数 (#34501)修复 GCSToGoogleDriveOperator 和 gdrive 系统测试 (#34545)修复 LookerHook 序列化缺少 1 个参数错误 (#34678)修复 Dataform 系统测试 (#34329)
其他¶
提升 providers 的最低 airflow 版本 (#34728)重构 DataFusionInstanceLink 用法 (#34514)在 Google Provider 示例中使用 'airflow.models.dag.DAG' (#34614)弃用 Life Sciences Operator 和 Hook (#34549)在 providers 中使用 'airflow.exceptions.AirflowException' (#34511)
10.9.0¶
功能¶
为 CloudDataFusionStartPipelineOperator 添加对流(实时)管道的显式支持 (#34271)将 'expected_terminal_state' 参数添加到 Dataflow operators (#34217)
Bug 修复¶
修复:当在 body 参数中给出时,'ComputeEngineInsertInstanceOperator' 不遵守 jinja 模板化的实例名称 (#34171)修复:BigQuery 作业错误消息 (#34208)GKEPodHook 忽略 gcp_conn_id 参数。 (#34194)
其他¶
提升 Google provider 的 min common-sql provider 版本 (#34257)移除 字典上不必要的 keys() 方法调用 (#34260)重构: 在 providers 中积极思考 (#34279)重构: 简化 providers/google 中的代码 (#33229)重构: 简化比较 (#34181)弃用 NL 的 AutoMLTrainModelOperator (#34212)简化为 bool(...) (#34258)使 Google Dataform operators 的 templated_fields 更加一致 (#34187)
10.8.0¶
特性¶
为 Dataplex DataQuality 添加 deferrable 模式。 (#33954)允许在 Google Cloud 连接上设置 impersonation_chain (#33715)
Bug 修复¶
fix(providers/google-marketing-platform): 当引发异常时,尊重 soft_fail 参数 (#34165)fix: endpoint_service.py 中的文档字符串 (#34135)修复 BigQueryValueCheckOperator deferrable 模式优化 (#34018)Datafusion pipelines 的 artifact 版本动态设置 (#34068)如果 Dataproc 集群以 ERROR 状态启动,则尽早删除它。 (#33668)当使用 DataFusionAsyncHook 时,通过将 sleep 替换为 asyncio.sleep 来避免阻塞事件循环 (#33756)
其他¶
整合 os.path.* 的导入 (#34060)重构 providers 中的正则表达式 (#33898)在 Google provider 中,如果可能,将 try 移到循环外部 (#33976)合并 providers 中类似的 if 逻辑 (#33987)从 providers 中删除无用的字符串连接 (#33968)更新 Azure fileshare hook 以使用 azure-storage-file-share 而不是 azure-storage-file (#33904)重构 providers 中不需要的跳转 (#33833)当在 providers 中寻找正值时,用 any 替换循环 (#33984)在 providers 中,用 contextlib.suppress 替换 try - except pass (#33980)从 providers 代码中删除一些无用的 try/except (#33967)在 Airflow providers 中,用解包替换序列连接 (#33933)从 'BigQueryHook.get_pandas_df' 中删除一个已弃用的选项 (#33819)在 providers 中,用 dict() 替换不必要的字典推导式 (#33857)通过将其中一些移到类型检查块中,改进 google provider 中的模块导入 (#33783)在 providers 中,使用带有多个上下文的单个语句,而不是嵌套语句 (#33768)在 providers 中,使用字面量字典而不是调用 dict() (#33761)删除不必要的,并使用 providers 中的列表重写它 (#33763)重构: 简化一些循环 (#33736)E731: 在 Airflow providers 中,用 def 方法替换 lambda (#33757)在 Airflow providers 中使用 f-string (#33752)
10.7.0¶
特性¶
添加 CloudRunHook 和 operators (#33067)添加 'CloudBatchHook' 和 operators (#32606)添加对 Google Cloud 的 Data Pipelines Run Operator 的支持 (#32846)将参数 sftp_prefetch 添加到 SFTPToGCSOperator (#33274)添加 Google Cloud 的 Data Pipelines Create Operator (#32843)添加 Dataplex Data Quality operators。 (#32256)
Bug 修复¶
修复了当使用不同于 CSV 的格式时 BigQueryCreateExternalTableOperator 的问题 (#33540)修复 DataplexDataQualityJobStatusSensor 并添加单元测试 (#33440)避免在运行时和模块级别导入 pandas 和 numpy (#33483)
其他¶
将缺少的模板字段添加到 DataformCreateCompilationResultOperator (#33585)整合 pandas 的导入和使用 (#33480)从 datetime 导入 utc 并规范化其导入 (#33450)
10.6.0¶
特性¶
openlineage, bigquery: 为 BigQueryExecuteQueryOperator 添加 openlineage 方法支持 (#31293)将 GCS Requester Pays bucket 支持添加到 GCSToS3Operator (#32760)为 CloudDataTransferServiceGCSToGCSOperator 添加系统测试和文档 (#32960)为SQL运算符添加一个新参数,以指定conn id字段(#30784)
Bug 修复¶
修复 'DataFusionAsyncHook' 捕获 404 错误 (#32855)修复 MetastoreHivePartitionSensor 的系统测试 (#32861)修复捕获 409 错误 (#33173)使 'sql' 成为 'BigQueryInsertJobOperator' 中的缓存属性 (#33218)
其他¶
refactor(providers.google): 对 DATAPROC_JOB_LOG_LINK 使用模块级别的 __getattr__ 到 DATAPROC_JOB_LINK 并添加弃用警告 (#33189)
10.5.0¶
新特性¶
openlineage, gcs: 为 GcsToGcsOperator 添加 openlineage 方法 (#31350)使用 Dataproc Operators 添加 Spot 实例支持 (#31644)将 sqlalchemy-spanner 包安装到 Google provider 中 (#31925)过滤和排序 DataprocListBatchesOperator 的结果 (#32500)
Bug 修复¶
修复 BigQueryGetDataOperator 在 deferrable 模式下不遵守 project_id 的问题 (#32488)刷新 GKE OAuth2 令牌 (#32673)修复 'BigQueryInsertJobOperator' 没有退出 deferred 状态 (#31591)
其他¶
修复已弃用的 DataprocSubmitSparkJobOperator 的文档字符串,并重构系统测试 (#32743)为 DbApiHook.run 方法添加更准确的类型提示 (#31846)将弃用信息添加到 providers 模块和类的文档字符串中 (#32536)修复已弃用的 DataprocSubmitHiveJobOperator 的文档字符串 (#32723)修复已弃用的 DataprocSubmitPigJobOperator 的文档字符串 (#32739)修复 Datafusion 系统测试 (#32749)
10.4.0¶
新特性¶
为 S3ToGCSOperator 实现 deferrable 模式 (#29462)
Bug 修复¶
当复制文件到没有通配符的文件夹时,修复 GCSToGCSOperator (#32486)修复 'GCSHook' 中 upload 函数的 'cache_control' 参数 (#32440)修复 BigQuery transfer operators 以遵守 project_id 参数 (#32232)修复在空列表上 gcp_gcs_delete_objects 的问题 (#32383)修复 cloud_build 中 defer 的无限循环问题 (#32387)修复 GCSToGCSOperator 在没有通配符且 exact_match=True 的情况下的复制问题 (#32376)
其他¶
允许提供目标文件夹 (#31885)将 'AzureBlobStorageToGCSOperator' 从 Azure 移动到 Google provider (#32306)在 BigQueryInsertJobOperator 中提供更好的 job configuration docs 链接 (#31736)
10.3.0¶
新特性¶
将 'on_finish_action' 添加到 'KubernetesPodOperator' (#30718)将 deferrable 模式添加到 CloudSQLExportInstanceOperator (#30852)将 'src_fmt_configs' 添加到模板字段列表中 (#32097)
Bug 修复¶
[Issue-32069] 修复批量请求中的名称格式 (#32070)修复 'BigQueryInsertJobOperator' 在 deferrable 模式下的错误处理 (#32034)修复 'BigQueryConsoleLink' 中的 'BIGQUERY_JOB_DETAILS_LINK_FMT' (#31953)使 DataprocCreateBatchOperator 的 deferrable 版本能够处理已存在的 batch_id (#32216)
其他¶
将 Google Ads API 版本从 v13 切换到 v14 (#32028)弃用 GCS 中的 'delimiter' 参数和源对象的通配符,引入 'match_glob' 参数 (#31261)重构 GKECreateClusterOperator 的 body 验证 (#31923)优化 'BigQueryValueCheckOperator' 的 deferrable 模式执行 (#31872)添加 default_deferrable 配置 (#31712)
10.2.0¶
注意
此版本放弃了对 Python 3.7 的支持
新特性¶
在循环中生成事件时添加 return 以停止执行 (#31985)将 deferrable 模式添加到 PubsubPullSensor (#31284)添加一个新参数,以在 'BaseSQLToGCSOperator' 中设置 parquet 行组大小 (#31831)将 'cacheControl' 字段添加到 google cloud storage (#31338)将 'preserveAsciiControlCharacters' 添加到 'src_fmt_configs' (#31643)将 credential configuation 文件身份验证支持添加到 Google Secrets Manager secrets 后端 (#31597)将 credential configuration 文件支持添加到 Google Cloud Hook (#31548)将 deferrable 模式添加到 'GCSUploadSessionCompleteSensor' (#31081)在 DataflowStartFlexTemplateOperator 中添加 append_job_name 参数 (#31511)FIPS 环境:将 md5 的使用标记为“不用于安全目的” (#31171)实现 MetastoreHivePartitionSensor (#31016)
Bug 修复¶
Bigquery: 修复已存在的表和数据集的链接 (#31589)为 TabularDataset 提供缺少的 project id 和 creds (#31991)
其他¶
优化 'DataprocSubmitJobOperator' 的 deferrable 模式执行 (#31317)优化 可延期模式 执行 ,针对 'BigQueryInsertJobOperator' (#31249)移除 在 yield from triggers 类 后的 return 语句 (#31703)用 标准 csv 库 替换 unicodecsv (#31693)优化 可延期模式 (#31758)移除 Python 3.7 支持 (#30963)
10.1.1¶
Bug修复¶
修复 通过 私有 端点 在 'GKEStartPodOperator' 中 访问 GKE 集群 的问题 (#31391)修复 'BigQueryGetDataOperator' 在 可延期模式 下的 查询 作业 错误 (#31433)
10.1.0¶
注意
正如 Apache Airflow providers 支持策略中所述,此 provider 版本仅适用于 Airflow 2.4+。
注意
此版本将默认的 Google Ads 更新为 v13。由于 Google 已弃用 v12 并且即将删除它,因此我们不认为这是 Airflow 中的一项重大更改。
注意
此版本的 provider 更新了许多 Google 包。请查看包更改日志
特性¶
添加 可延期模式 到 DataprocInstantiateInlineWorkflowTemplateOperator (#30878)添加 可延期模式 到 'GCSObjectUpdateSensor' (#30579)添加 协议 来 定义 KubernetesPodOperator 依赖的 方法 (#31298)添加 BigQueryToPostgresOperator (#30658)
Bug修复¶
'DataflowTemplatedJobStartOperator' 修复了 当 提供了 区域时, 用 默认值 覆盖 location 的问题。 (#31082)在 为 GCSObjectsWithPrefixExistenceSensor 延期 之前 先 轮询 一次 (#30939)添加 可延期模式 到 'GCSObjectsWithPrefixExistenceSensor' (#30618)允许 在 gcs 删除/列表 hooks 和 operators 中使用 多个 前缀 (#30815)修复 在 可延期 GCS 传感器中 删除的 delegate_to 参数 (#30810)
其他¶
添加 'use_legacy_sql' 参数 到 'BigQueryGetDataOperator' (#31190)添加 'as_dict' 参数 到 'BigQueryGetDataOperator' (#30887)添加 标记 apply_gcs_prefix 到 S3ToGCSOperator (b/245077385) (#31127)添加 'priority' 参数 到 BigQueryHook (#30655)提升 providers 中的 最低 Airflow 版本 (#30917)为 BigQueryCreateExternalTableOperator 实现 gcs_schema_object (#30961)优化 延迟 执行 模式 (#30946)优化 可延期模式 执行 (#30920)优化 在 'GCSObjectExistenceSensor' 中的 可延期模式 (#30901)'CreateBatchPredictionJobOperator' 为 Vertex AI BatchPredictionJob 对象 添加 batch_size 参数 (#31118)GKEPodHook 需要 具有 KPO 调用的 所有 方法 (#31266)添加 CloudBuild 构建 id 日志 (#30516)将 默认 Google ads 切换到 v13 (#31382)切换到 google ads v13 (#31369)更新 google provider 包的 SDK (#30067)
10.0.0¶
重大更改¶
Google 宣布将于 2023 年 4 月 20 日停止 Campaign Manager 360 v3.5。有关更多信息,请查看:https://developers.google.com/doubleclick-advertisers/deprecation 。因此,Campaign Manager 360 operator 的默认 api 版本已更新为最新的 v4 版本。
警告
在此版本的 provider 中,已从所有 GCP operators、hooks 和 triggers 中删除已弃用的 delegate_to 参数,以及与 GCS 交互的 firestore 和 gsuite transfer operators。可以通过使用 impersonation_chain 参数来实现模拟。delegate_to 参数仍仅在 gsuite 和 marketing platform hooks 和 operators 中可用,它们不与 Google Cloud 交互。
从 GCP operators 和 hooks 中 移除 delegate_to (#30748)更新 Google Campaign Manager360 operators 以使用 API v4 (#30598)
Bug修复¶
更新 DataprocCreateCluster operator 以正确使用 'label' 参数 (#30741)
其他¶
在 BigQueryGetDataOperator 中 添加 缺失的 project_id (#30651)展示 Video 360 清理 v1 API 用法 (#30577)
9.0.0¶
重大更改¶
Google 宣布将于 2023 年 4 月 27 日停止 Bid manager API v1 和 v1.1,有关更多信息,请查看:docs 因此,GoogleDisplayVideo360Hook 和相关 operators 中的 api_version 默认值已更新为 v2
此版本的 provider 包含一个临时解决方法,用于解决 google-ads API 的 v11 版本已停止使用的问题,而 google provider 依赖项阻止安装任何支持 v12 API 的 google-ads 客户端。此版本包含 google-ads 库的内置版本 20.0.0,仅支持 v12。一旦 provider 的依赖项允许使用支持更新版本的 google-ads API 的 google-ads,此解决方法(和内置库)将被删除。
注意
仅支持 google ads 的 v12 版本。创建 operator 或客户端时,应设置 v12。
更新 DV360 operators 以使用 API v2 (#30326)修复 google ads 内置库中的 动态 导入 (#30544)修复 vendored-in google ads 所需的 另一个 动态 导入 (#30564)
特性¶
添加 可延期模式 到 GKEStartPodOperator (#29266)
Bug修复¶
BigQueryHook list_rows/get_datasets_list 可以返回 迭代器 (#30543)修复 云 构建 异步 凭据 (#30441)
8.12.0¶
特性¶
在 Bigquery operator 中 添加 缺失的 'poll_interval' (#30132)在 BigQueryInsertJobOperator 中添加 poll_interval 参数 (#30091)添加 'job_id' 到 'BigQueryToGCSOperator' templated_fields (#30006)支持 在 使用 远程 日志记录 时 删除 本地 日志 文件 (#29772)
Bug 修复¶
修复 设置 gs 到 bq 和 bq 到 gs 的 project_id (#30053)修复 云构建 操作符上的 location (#29937)'GoogleDriveHook': 修复 日志 消息 + 添加 更详细的 文档 (#29694)将 "BOOLEAN" 添加到 MSSQLToGCSOperator 的 type_map,修复 不正确的 bit->int 类型 转换,通过 显式指定 BIT 字段 (#29902)Google Cloud Providers - 修复 _MethodDefault deepcopy 失败 (#29518)处理 异步 BigQuery dts 触发器上的 项目 location 参数 (#29786)支持 CloudDataTransferServiceJobStatusSensor 而不指定 project_id (#30035)在 正常 模式下 等待 insert_job 结果 (#29925)
其他¶
将 BigQueryTableExistenceAsyncSensor 合并到 BigQueryTableExistenceSensor (#30235)从 google provider 中删除 不必要的 上限 约束 (#29915)将 BigQueryTableExistencePartitionAsyncSensor 合并到 BigQueryTableExistencePartitionSensor (#30231)将 GCSObjectExistenceAsyncSensor 逻辑 合并到 GCSObjectExistenceSensor (#30014)将 cncf provider 文件名 与 AIP-21 对齐 (#29905)切换到 使用 供应商提供的 google ads。 (#30410)合并 google ads 供应商提供的 代码。 (#30399)
8.11.0¶
特性¶
为 BigQueryTablePartitionExistenceSensor 添加 可延期 模式。 (#29735)为 BigQuery 操作符添加 一个 新 参数,以 支持 资源 存在时的 其他 操作 (#29394)为 DataprocInstantiateWorkflowTemplateOperator 添加 可延期 模式 (#28618)Dataproc 批处理 (#29136)添加 'CloudSQLCloneInstanceOperator' (#29726)
Bug 修复¶
修复 'NoneType' 对象 不可下标。 (#29820)修复 并 增强 'check-for-inclusive-language' CI 检查 (#29549)不要 在 BigQueryCreateDataTransferOperator 的 XCOM 中推送 secret (#29348)
其他¶
Google Cloud Providers - 引入 GoogleCloudBaseOperator (#29680)更新 google cloud dlp 包,并调整 hook 和 operators (#29234)重构 Dataproc 触发器 (#29364)删除 google-cloud-bigtable 上的 <2.0.0 限制 (#29644)将 帮助 消息 移动到 google auth 代码 (#29888)
8.10.0¶
特性¶
为 GKECreateClusterOperator 和 GKEDeleteClusterOperator 添加 延迟 模式 (#28406)
Bug 修复¶
将 cloud_sql_binary_path 从 connection 移动到 Hook (#29499)检查 cloud sql provider 版本是否有效 (#29497)'GoogleDriveHook': 为 upload_file 添加 folder_id 参数 (#29477)
其他¶
为 BigQuery 传输 操作符添加 文档 (#29466)
8.9.0¶
特性¶
为现有 ''DataprocDeleteClusterOperator'' 添加 可延期 功能 (#29349)为 dataflow 操作符添加 可延期 模式 (#27776)为 DataprocCreateBatchOperator 添加 可延期 模式 (#28457)为 DataprocCreateClusterOperator 和 DataprocUpdateClusterOperator 添加 可延期 模式 (#28529)为 MLEngineStartTrainingJobOperator 添加 可延期 模式 (#27405)为 DataFusionStartPipelineOperator 添加 可延期 模式 (#28690)为 Big Query Transfer 操作符添加 可延期 模式 (#27833)添加 对 BaseSQLToGCSOperator 中 write_on_empty 的支持 (#28959)添加 DataprocCancelOperationOperator (#28456)启用 单独的 触发器 日志记录 (#27758)Auto ML 资产 (#25466)
Bug 修复¶
修复 GoogleDriveHook 在上传 v2 时将文件写入已放入回收站的文件夹 (#29119)修复 Google provider CHANGELOG.rst (#29122)修复 Google provider CHANGELOG.rst (#29114)Keyfile dict 可以是 dict 而不是 str (#29135)GCSTaskHandler 可能使用 远程 日志 conn id (#29117)
其他¶
弃用 GCP 操作符中的 'delegate_to' 参数并更新文档 (#29088)
8.8.0¶
特性¶
添加 可延期 ''GCSObjectExistenceSensorAsync'' (#28763)支持 BaseSQLToGCSOperator 中的 partition_columns (#28677)
Bug 修复¶
'BigQueryCreateExternalTableOperator' 修复了 字段 分隔符 不适用于 csv 的问题 (#28856)修复了使用私有 _get_credentials 而不是公共 get_credentials 的问题 (#28588)修复了 'QUEUED' 状态的 'GoogleCampaignManagerReportSensor' (#28735)修复了 BigQueryColumnCheckOperator 运行时错误 (#28796)将 "datasetReference" 属性分配给 dataset_reference dict。 如果 在 bigquery hook 的 create_empty_dataset 方法中尚未设置,则默认使用 (#28782)
8.7.0¶
特性¶
将 table_resource 添加到 template 字段中, 用于 BigQueryCreateEmptyTableOperator (#28235)在 GCSObjectExistenceSensor 中添加 retry 参数 (#27943)将 preserveAsciiControlCharacters 添加到 src_fmt_configs (#27679)将 deferrable 模式 添加到 CloudBuildCreateBuildOperator (#27783)GCSToBigQueryOperator 允许 自动检测 None 并推断 schema (#28564)改进 Dataproc deferrable operators 中的 内存 使用 (#28117)为 dataproc submit job op 推送 job_id 到 xcom (#28639)
Bug修复¶
修复了 GCSToBigQueryOperator 中读取 JSON 文件的 schema 字段的问题 (#28284)修复 GCSToBigQueryOperator 不遵守 schema_obj 的问题 (#28444)修复 GCSToGCSOperator 复制不带 通配符的 对象列表 的问题 (#28111)修复: 重新启用 在 gcs_to_bq 中使用参数, 之前已被禁用 (#27961)正确设置 bigquery ''use_legacy_sql'' 参数 在 job config 中 (#28522)
其他¶
删除 'pylint' 消息 控制 指令 (#28555)从 google/provider.yaml 删除已弃用的 AIPlatformConsoleLinkk (#28449)在 config.yml 中使用 object 代替 array 作为 config template (#28417)[misc] 移除 conditions 中的 'pass' 语句 (#27775)当 google secret manager 找不到 secret 时, 将 log 级别更改为 DEBUG (#27856)[misc] 在 providers 中使用 'exactly_one' 辅助函数替换 XOR '^' 条件 (#27858)
8.6.0¶
特性¶
无论 job 状态如何,都为 workflow operators 保留 DataprocLink (#26986)BigQueryToGCSOperator 的可延迟 模式 (#27683)在 BigQueryToGCSOperator 中的 模板 字段中添加 导出 格式 (#27910)
Bug修复¶
修复 BigQueryToBigQueryOperator 中正确读取 location 参数的问题 (#27661)将 common.sql provider 升级到 1.3.1 (#27888)
8.5.0¶
注意
正如 Apache Airflow providers 支持策略中所述,此 provider 版本仅适用于 Airflow 2.3+
其他¶
将 所有 providers 的最小 airflow 版本移动到 2.3.0 (#27196)将 hook bigquery 函数 '_bq_cast' 重命名为 'bq_cast' (#27543)在 BigQueryHook 中使用非弃用方法 on_kill (#27547)类型转换 biquery job response col value (#27236)删除 google-cloud-storage 上 <2 的限制 (#26922)将 urlparse 替换为 urlsplit (#27389)
特性¶
当在环境变量或 secrets backend 中定义连接时,之前 extra 字段需要使用前缀 extra__google_cloud_platform__ 定义。现在不再需要了。因此,例如,您可以将 keyfile json 存储为 keyfile_dict 而不是 extra__google_cloud_platform__keyfile_dict。如果两者都存在,则优先使用短名称。
添加与旧版本的 Apache Beam 的向后兼容性 (#27263)为 GCSToBigQueryOperator 添加 deferrable 模式 + 测试 (#27052)在新方法中为 Vertex AI operators 添加系统测试 (#27053)Dataform operators、链接、更新系统测试和文档 (#27144)允许 WorkflowsCreateExecutionOperator execution 参数中的值是字典 (#27361)DataflowStopJobOperator Operator (#27033)允许覆盖 Postgres 中 json/jsonb 列数据类型的 stringify_dict #26875 (#26876)允许并优先使用 dataprep hook 的非前缀 extra 字段 (#27039)更新 google hooks 以优先使用非前缀 extra 字段 (#27023)
Bug修复¶
添加新的 Compute Engine Operators 并修复系统测试 (#25608)Common sql bugfixes 和改进 (#26761)修复 Dataproc CreateBatch operator 中的延迟 (#26126)删除 signature 中单个参数周围的不必要换行符 (#27525)取消 BigQuery job 时,设置 project_id 和 location (#27521)使用正确的 key 来检索 dataflow job_id (#27336)当没有值时,使 GSheetsHook 返回一个空列表 (#27261)Cloud ML Engine operators assets (#26836)
8.4.0¶
特性¶
添加 BigQuery 列和表检查 Operators (#26368)添加 deferrable big query operators 和 sensors (#26156)将 'output' 属性添加到 MappedOperator (#25604)为 DataflowTemplatedJobStartOperator 添加 append_job_name 参数 (#25746)在 GoogleDriveHook 中添加一个参数用于排除已放入回收站的文件 (#25675)云数据防丢失 (Data Loss Prevention) 操作符资产 (#26618)云存储转移 (Storage Transfer) 操作符资产 & 系统测试迁移 (AIP-47) (#26072)将可延期的 (deferrable) BigQuery 操作符合并到现有操作符中 (#26433)在 delete/create cluster 中调用 wait_for_operation 时指定 project id (#26418)在 Web UI 中自动跟踪文件日志 (#26169)云函数 (Cloud Functions) 操作符资产 & 系统测试迁移 (AIP-47) (#26073)GCSToBigQueryOperator 解决 'max_id_key' 作业检索和 xcom 返回问题 (#26285)允许覆盖 BaseSQLToGCSOperator 上 json 导出格式的 'stringify_dict' (#26277)在链接类中附加 GoogleLink 基础链接 (#26057)云视频智能 (Cloud Video Intelligence) 操作符资产 & 系统测试迁移 (AIP-47) (#26132)生命科学 (Life Science) 资产 & 系统测试迁移 (AIP-47) (#25548)GCSToBigQueryOperator 允许 schema_object 位于备用 GCS Bucket 中 (#26190)在可延期模式下,为 Composer 操作符使用 AsyncClient (#25951)使用 project_id 获取已认证的客户端 (#25984)云构建 (Cloud Build) 资产 & 系统测试迁移 (AIP-47) (#25895)Dataproc 提交作业操作符异步 (#25302)在 BigQueryGetDataOperator 中支持 project_id 参数 (#25782)
Bug 修复¶
修复 Datafusion 操作符中的 JSONDecodeError (#26202)修复 CreateWorkflowInvocation 中永不结束的循环 (#25737)更新 gcs.py (#26570)当 BQ cursor 作业没有 schema 时,不要抛出异常 (#26096)用于队列为空的 Google Cloud Tasks Sensor (#25622)更正传输配置名称。 (#25719)修复 BigQuery 结果 Schema 中可选 'mode' 字段的解析 (#26786)修复 GCSToBigQueryOperator 的 MaxID 逻辑 (#26768)
其他¶
Sql to GSC 操作符更新 parquet 格式的文档 (#25878)限制 Google Protobuf,以兼容 biggtable 客户端 (#25886)使 GoogleBaseHook 凭证函数公开 (#25785)整合到一个 'schedule' 参数 (#25410)
8.3.0¶
新特性¶
在 BigQueryCursor 类中添加 description 方法 (#25366)在两个 BQ 操作符中添加 project_id 作为模板变量 (#24768)删除 Amazon provider 中已弃用的模块 (#25543)将所有 "旧" SQL 操作符移动到 common.sql providers (#25350)使用 ParamSpec 改进 taskflow 类型提示 (#25173)使用覆盖它的方法统一 DbApiHook.run() 方法 (#23971)为 ParamSpec 提升 typing-extensions 和 mypy (#25088)弃用 hql 参数并同步 DBApiHook 方法 API (#25299)Dataform 操作符 (#25587)
Bug 修复¶
修复 GCSListObjectsOperator 文档字符串 (#25614)修复 BigQueryInsertJobOperator cancel_on_kill (#25342)修复 BaseSQLToGCSOperator approx_max_file_size_bytes (#25469)修复 PostgresToGCSOperat bool dtype (#25475)修复 Vertex AI 自定义作业训练问题 (#25367)修复 Flask Login 用户设置为 Flask 2.2 和 Flask-Login 0.6.2 (#25318)
8.2.0¶
新特性¶
PubSub 资产 & 系统测试迁移 (AIP-47) (#24867)添加对现有 Dataproc 批处理状态的处理 (#24924)为 Google Kubernetes Engine 操作符添加链接 (#24786)向 'GoogleBaseHook' 添加 test_connection 方法 (#24682)将 gcp_conn_id 参数添加到 GoogleDriveToLocalOperator (#24622)为 AutoML 中的 column_transformations 参数添加 DeprecationWarning (#24467)修改 BigQueryCreateExternalTableOperator 以使用更新后的 hook 函数 (#24363)将所有 SQL 类移动到 common-sql provider (#24836)Datacatalog 资产 & 系统测试迁移 (AIP-47) (#24600)将 FAB 升级到 4.1.1 (#24399)
Bug 修复¶
GCSDeleteObjectsOperator 空前缀 bug 修复 (#24353)perf(BigQuery): 将 table_id 作为 str 类型传递 (#23141)更新 providers 以使用 functools compat for ''cached_property'' (#24582)
8.1.0¶
新特性¶
将 Oracle 库更新到最新版本 (#24311)公开 SQL to GCS 元数据 (#24382)
Bug 修复¶
修复 google provider additional extras 中的拼写错误 (#24431)在 BigQueryToGCPOpertor 中使用 insert_job 并调整链接 (#24416)
8.0.0¶
重大变更¶
注意
此 provider 版本仅适用于 Airflow 2.2+,如 Apache Airflow providers 支持策略中所述。
功能特性¶
添加 key_secret_project_id 参数,用于指定包含 KeyFile 的项目 (#23930)为 DataflowStartFlexTemplateOperator 和 DataflowStartSqlJobOperator 添加了 impersonation_chain (#24046)向 CLOUD_SQL_EXPORT_VALIDATION 添加 字段。 (#23724)在使用 Compute Engine 中的 ADC 时,更新 凭据 (#23773)在 cloud_sql.py 中,为 operators 设置 颜色 (#24000)从 SQL 到 GCS,支持 排除 列 (#23695)[Issue#22846] 允许选择是否对UUID进行编码,当从Cassandra上传到GCS时 (#23766)工作流资产&系统测试迁移(AIP-47) (#24105)Spanner 资产 & 系统 测试 迁移 (AIP-47) (#23957)语音 转 文本 资产 & 系统 测试 迁移 (AIP-47) (#23643)Cloud SQL 资产 & 系统 测试 迁移 (AIP-47) (#23583)Cloud Storage 资产 & StorageLink 更新 (#23865)
Bug 修复¶
修复 BigQueryInsertJobOperator (#24165)修复指向googleworkplace的链接 (#24080)修复 DataprocJobBaseOperator 与 点式 名称 不兼容的问题 (#23439). (#23791)从 BigQuery DTS hook 中 删除 hack (#23887)修复 GCSToGCSOperator 无法 复制 单个 文件/文件夹,而不会复制 具有 该 前缀的 其他 文件/文件夹的问题 (#24039)解决 biguery 到 gcs 传输 的 job 竞争 bug (#24330)
其他¶
修复 BigQuery 系统 测试 (#24013)确保 @contextmanager 修饰 生成器 函数 (#23103)将 Dataproc 迁移到 新的 系统 测试 设计 (#22777)AIP-47 - 将 google leveldb DAG 迁移到 新的 设计 ##22447 (#24233)将 per-run 日志 模板 应用于 日志 处理程序 (#24153)
7.0.0¶
重大更改¶
从 PubSub operators 中 删除 已弃用的 参数: (#23261)升级以支持GoogleAdsv10 (#22965)'DataprocJobBaseOperator' 更改 (#23350)'DataprocJobBaseOperator': 参数 的 顺序 已更改。'region' 参数 没有 默认值 受影响的函数/类: 'DataprocHook.cancel_job' 'DataprocCreateClusterOperator' 'DataprocJobBaseOperator'
'DatastoreHook': 删除 'datastore_conn_id'。 请使用 'gcp_conn_id' (#23323)'CloudBuildCreateBuildOperator': 删除 'body'。 请使用 'build' (#23263)副本 集群 id 删除 (#23251)'BigtableCreateInstanceOperator' 删除 'replica_cluster_id', 'replica_cluster_zone'。 请使用 'replica_clusters''BigtableHook.create_instance': 删除 'replica_cluster_id', 'replica_cluster_zone'。 请使用 'replica_clusters'
删除 参数 (#23230)'GoogleDisplayVideo360CreateReportOperator': 删除 'params'。 请使用 'parameters''FacebookAdsReportToGcsOperator': 删除 'params'。 请使用 'parameters'
'GoogleDriveToGCSOperator': 删除 'destination_bucket' 和 'destination_object'。 请使用 'bucket_name' 和 'object_name' (#23072)'GCSObjectsWtihPrefixExistenceSensor' 已删除。 请使用 'GCSObjectsWithPrefixExistenceSensor' (#23050)删除 'project': (#23231)'PubSubCreateTopicOperator': 删除 'project'。 请使用 'project_id''PubSubCreateSubscriptionOperator': 删除 'topic_project'。 请使用 'project_id''PubSubCreateSubscriptionOperator': 删除 'subscription_project'。 请使用 'subscription_project_id''PubSubDeleteTopicOperator': 删除 'project'。 请使用 'project_id''PubSubDeleteSubscriptionOperator': 删除 'project'。 请使用 'project_id''PubSubPublishMessageOperator': 删除 'project'。 请使用 'project_id''PubSubPullSensor': 删除 'project'。 请使用 'project_id''PubSubPullSensor': 删除 'return_immediately'
删除 'location' - 已替换为 'region' (#23250)'DataprocJobSensor': 删除 'location'。 请使用 'region''DataprocCreateWorkflowTemplateOperator': 删除 'location'。 请使用 'region''DataprocCreateClusterOperator': 删除 'location'。 请使用 'region''DataprocSubmitJobOperator': 删除 'location'。 请使用 'region''DataprocHook': 删除 'location' 参数。 请使用 'region'受影响的函数有:'cancel_job''create_workflow_template''get_batch_client''get_cluster_client''get_job''get_job_client''get_template_client''instantiate_inline_workflow_template''instantiate_workflow_template''submit_job''update_cluster''wait_for_job'
'DataprocHook': 'wait_for_job' 函数中 参数的顺序 已更改'DataprocSubmitJobOperator': 参数的顺序 已更改。
移除 xcom_push (#23252)'CloudDatastoreImportEntitiesOperator': 删除 'xcom_push'。 请使用 'BaseOperator.do_xcom_push''CloudDatastoreExportEntitiesOperator': 移除 'xcom_push'。 请使用 'BaseOperator.do_xcom_push'。
'bigquery_conn_id' 和 'google_cloud_storage_conn_id' 已被移除。 请使用 'gcp_conn_id' (#23326).受影响的类:'BigQueryCheckOperator''BigQueryCreateEmptyDatasetOperator''BigQueryDeleteDatasetOperator''BigQueryDeleteTableOperator''BigQueryExecuteQueryOperator''BigQueryGetDataOperator''BigQueryHook''BigQueryIntervalCheckOperator''BigQueryTableExistenceSensor''BigQueryTablePartitionExistenceSensor''BigQueryToBigQueryOperator''BigQueryToGCSOperator''BigQueryUpdateTableSchemaOperator''BigQueryUpsertTableOperator''BigQueryValueCheckOperator''GCSToBigQueryOperator''ADLSToGCSOperator''BaseSQLToGCSOperator''CassandraToGCSOperator''GCSBucketCreateAclEntryOperator''GCSCreateBucketOperator''GCSDeleteObjectsOperator''GCSHook''GCSListObjectsOperator''GCSObjectCreateAclEntryOperator''GCSToBigQueryOperator''GCSToGCSOperator''GCSToLocalFilesystemOperator''LocalFilesystemToGCSOperator'
'S3ToGCSOperator': 移除 'dest_gcs_conn_id'。 请使用 'gcp_conn_id' (#23348)'BigQueryHook' 变更 (#23269)'BigQueryHook.create_empty_table' 移除 'num_retries'。 请使用 'retry''BigQueryHook.run_grant_dataset_view_access' 移除 'source_project'。 请使用 'project_id'
'DataprocHook': 移除已弃用的函数 'submit' (#23389)
功能¶
[功能] google provider - BigQueryInsertJobOperator 日志查询 (#23648)[功能] google provider - 拆分 GkeStartPodOperator 执行 (#23518)添加 exportContext.offload 标志到 CLOUD_SQL_EXPORT_VALIDATION。 (#23614)为 BiqTable 操作符创建链接 (#23164)实现 #22859 - 添加 .sql 作为可模板化的扩展 (#22920)'GCSFileTransformOperator': 新的模板化字段 'source_object', 'destination_object' (#23328)
Bug 修复¶
修复 'PostgresToGCSOperator' 不允许嵌套的 JSON (#23063)修复 GCSToGCSOperator 忽略 replace 参数,当没有通配符时 (#23340)更新 processor 以修复损坏的下载链接 (#23299)'LookerStartPdtBuildOperator', 'LookerCheckPdtBuildSensor' : 修复空的物化 id 处理 (#23025)更改 ComputeSSH 抛出 provider 导入错误,而不是 paramiko (#23035)修复 DataprocSubmitJobOperator 在执行超时后 cancel_on_kill (#22955)修复 BigQueryGetDataOperator 的 select * 查询 xcom push (#22936)MSSQLToGCSOperator 失败: datetime 不是 JSON 可序列化的 (#22882)
其他¶
添加 Stackdriver 资产并迁移系统测试到 AIP-47 (#23320)CloudTasks 资产 & 系统测试迁移 (AIP-47) (#23282)TextToSpeech 资产 & 系统测试迁移 (AIP-47) (#23247)修复 google provider 中的代码片段 (#23438)Bigquery 资产 (#23165)移除 'BigQueryUpdateTableSchemaOperator' 中冗余的文档字符串 (#23349)将 gcs 迁移到新的系统测试设计 (#22778)在 'BigQueryHook.create_empty_table' 中添加缺失的文档字符串 (#23270)清理 Google provider CHANGELOG.rst (#23390)将系统测试 gcs_to_bigquery 迁移到新设计 (#22753)添加用于演示 GCS 传感器用法的示例 DAG (#22808)清理行内 f-string 连接 (#23591)更新 pre-commit hook 版本 (#22887)使用新的 Breese 来构建、拉取和验证镜像。 (#23104)修复主分支中的新的 MyPy 错误 (#22884)
6.8.0¶
功能¶
在 BQCreateExternalTable Operator 中添加 autodetect 参数 (#22710)为 BigQuery 数据传输添加链接 (#22280)修改传输操作符以处理更多数据 (#22495)为 Vertex AI 服务创建端点和服务模型、批量预测和超参数调整任务操作符 (#22088)PostgresToGoogleCloudStorageOperator - 时区感知字段的 BigQuery schema 类型 (#22536)更新 secrets 后端以使用 get_conn_value 代替 get_conn_uri (#22348)
Bug 修复¶
修复文档字符串 (#22497)修复 'GoogleDisplayVideo360SDFtoGCSOperator' 中的 'download_media' 链接 (#22479)修复 'CloudBuildRunBuildTriggerOperator' 无法找到 build id。 (#22419)如果 src 不存在,则 Fail ''LocalFilesystemToGCSOperator'' (#22772)从 GCSTimeSpanFileTransformOperator 中移除 coerce_datetime 的用法 (#22501)
其他¶
重构: BigQuery 到 GCS Operator (#22506)在 PubSub 操作符中移除对已弃用的操作符/参数的引用 (#22519)系统测试的新设计 (#22311)
6.7.0¶
功能¶
将 dataflow_default_options 添加到 templated_fields (#22367)添加 'LocalFilesystemToGoogleDriveOperator' (#22219)向 BigQueryInsertJobOperator 添加超时和重试 (#22395)
Bug 修复¶
修复跳过非 GCS 定位的 jars (#22302)[FIX] gcs operator 的 typo 文档 (#22290)修复错误地为所有 provider 添加的 install_requires (#22382)
6.6.0¶
功能¶
支持 上传 更大 的文件 到 Google Drive (#22179)更改 默认 的 'chunk_size' 为一个 清晰的 表示 & 添加 文档 (#22222)添加 DataprocInstantiateInlineWorkflowTemplateOperator 的 指南 (#22062)允许 使用 GCS Hook 上传 来 上传 元数据 (#22058)添加 Dataplex 操作符 (#20377)
其他¶
添加 对 ARM 平台 的支持 (#22127)在 PyPI 中 添加 Trove 分类器 (Framework :: Apache Airflow :: Provider)使用 yaml safe load (#22091)
6.5.0¶
功能¶
添加 Looker PDT 操作符 (#20882)添加 自动检测 参数 到 GCSToBigQueryOperator 中 的 外部 表 创建 (#21944)添加 Dataproc 资产/链接 (#21756)为 Vertex AI 服务 添加 Auto ML 操作符 (#21470)添加 GoogleCalendarToGCSOperator (#20769)使 project_id 参数 在 所有 dataproc 操作符 中 变为 可选 (#21866)允许 在 更多 DataprocUpdateClusterOperator 字段 中使用 模板 (#21865)Dataflow 资产 (#21639)提取 ClientInfo 到 模块级别 (#21554)Datafusion 资产 (#21518)Dataproc 元数据存储 资产 (#21267)标准化 BigQuery 传感器 中 的 *_conn_id 参数 (#21430)
缺陷修复¶
修复 bigquery_dts 参数 文档字符串 拼写错误 (#21786)修复 当 use_server_side_cursor=True 时, PostgresToGCSOperator 在 空 结果集上 失败 (#21307)修复 bigquery 示例 DAG 中 的 多 查询 场景 (#21575)
其他¶
支持 Python 3.10取消固定 'google-cloud-memcache' (#21912)取消固定 ''pandas-gbq'' 并 删除 未使用的 代码 (#21915)抑制 来自 Bigquery 传输 的 hook 警告 (#20119)
6.4.0¶
功能¶
添加 与 Google 日历 集成 的 hook (#20542)将 编码 参数 添加到 'GCSToLocalFilesystemOperator' 以修复 #20901 (#20919)将 batch 作为 DataprocCreateBatchOperator 中的 模板化 字段 (#20905)使 timeout 对于 wait_for_operation 变为 可选 (#20981)添加更多 SQL 模板 字段 渲染器 (#21237) 为 Vertex AI 服务 创建 CustomJob 和 Datasets 操作符 (#21253)支持 将 文件 上传 到 Google 共享云盘 (#21319)(providers_google) 在 bigquery 中 添加 位置 检查 (#19571)添加 对 BeamGoPipelineOperator 的支持 (#20386)Google Cloud Composer 操作符 (#21251)在 BigQuery hook 中 启用 异步 作业 提交 (#21385)如果 源文件 在 GCSToGCSOperator 中 不存在, 则 可以选择 引发 错误 (#21391)
缺陷修复¶
Cloudsql 导入 链接 修复。 (#21199)修复 BigQueryDataTransferServiceHook.get_transfer_run() 请求 参数 (#21293):bug: (BigQueryHook) 修复 与 sqlalchemy 引擎 的 兼容性 (#19508)
其他¶
重构 操作符 链接 以避免 创建 ad hoc TaskInstances (#21285)
6.3.0¶
功能¶
向 bigquery 数据 传输 服务 添加 可选 位置 (#15088) (#20221)添加 Google Cloud Tasks 操作指南 文档 (#20145)为 MSSQL 到 Google Cloud Storage (GCS) 添加 示例 DAG (#19873)支持 区域性 GKE 集群 (#18966)在 KubernetesPodOperator 中 默认 删除 pod (#20575)
缺陷修复¶
修复 PubSubCreateSubscriptionOperator 的 文档字符串 (#20237)修复 Dataproc Metastore 缺少 get_backup 方法 (#20326)BigQueryHook 修复 run_load 文档 字符串 中的 拼写错误 (#19924)修复 在 sftp_to_gcs 上传递 gzip 压缩 参数 的问题。 (#20553)在 CloudSQL provider 中 切换到 httpx.get 调用 中的 follow_redirects (#20239)避免 BigQuery 传输 操作符 中 的 弃用 警告 (#20502)将 download_video 参数 更改为 resourceName (#20528)修复 big query 到 mssql/mysql 传输 问题 (#20001)修复 在 ''provide_authorized_gcloud'' 中 设置 项目 ID 的问题 (#20428)
其他¶
将 source_objects 数据类型 检查 移出 GCSToBigQueryOperator.__init__ (#20347)在 Amazon Provider 中 组织 S3 类 (#20167)提供者 facebook hook 多账户 (#19377)移除已弃用的方法调用 (blob.download_as_string) (#20091)从 GoogleDriveToGCSOperator 移除已弃用的 template_fields (#19991)
注意! apache-airflow-providers-facebook 和 apache-airflow-providers-amazon 的可选功能需要更新版本的提供者(如依赖项中所指定)
6.2.0¶
新特性¶
为 DataprocJobSensor 添加等待机制,以避免在作业不可用时出现 509 错误 (#19740)在 GCP 连接中添加支持,以便从 Secret Manager 读取密钥 (#19164)添加 dataproc metastore 运算符 (#18945)为 GCloud Storage Transfer Service 运算符添加对 'path' 参数的支持 (#17446)将 Google Marketing Platform 运算符中的 'bucket_name' 验证移出 '__init__' (#19383)创建 dataproc serverless spark batches 运算符 (#19248)更新 pipeline_timeout CloudDataFusionStartPipelineOperator (#18773)在 GKEStartPodOperator 中支持 impersonation_chain 参数 (#19518)
Bug 修复¶
修复 GKEPodOperator 中合并错误的模拟 (#19696)
6.1.0¶
新特性¶
为查询的 'namespaceId' 添加值 (#19163)添加 pre-commit hook 以检查文件中的常见拼写错误 (#18964)在 CassandraToGCSOperator 中支持查询超时作为参数 (#18927)更新 BigQueryCreateExternalTableOperator 文档和参数 (#18676)替换 BigQueryToMsSqlOperator 的非属性 template_fields (#19052)将 Dataproc 包升级到 3.0.0,并从 v1beta2 迁移到 v1 api (#18879)在子进程中执行 beam 命令时使用 google cloud 凭据 (#18992)替换 FacebookAdsReportToGcsOperator 的默认 api_version (#18996)Dataflow 运算符 - 在 on_kill 方法中使用作业中的项目和位置。 (#18699)
Bug 修复¶
修复 CloudSQL Hook 中硬编码的 /tmp 目录 (#19229)修复 Dataflow hook 中没有返回作业时的错误 (#18981)修复 BigQueryToMsSqlOperator 文档 (#18995)将模板化输入参数的验证移动到上下文初始化之后运行 (#19048)Google provider 捕获无效的 secret 名称 (#18790)
6.0.0¶
重大变更¶
将 Google Cloud Build 从 Discovery API 迁移到 Python SDK (#18184)
新特性¶
将索引添加到数据集名称,以便为每个示例 DAG 拥有单独的数据集 (#18459)为某些测试包添加缺少的 __init__.py 文件 (#18142)添加从系统测试运行 DAG 并查看 DAG 日志的可能性 (#17868)将 AzureDataLakeStorage 重命名为 ADLS (#18493)使 next_dagrun_info 接受数据间隔 (#18088)使用 parameters 代替 params (#18143)新的 google 运算符: SQLToGoogleSheetsOperator (#17887)
Bug 修复¶
修复 Google 系统测试的一部分 (#18494)修复 kubernetes engine 系统测试 (#18548)修复 BigQuery 系统测试 (#18373)修复使用表资源创建外部表时出现的错误 (#17998)修复 ''BigQueryToMySqlOperator'' 中 ''BigQuery'' 数据提取 (#18073)使用 eager 升级修复 main 分支中的 providers 测试 (#18040)fix(CloudSqlProxyRunner): 不要从 Airflow DB 查询连接 (#18006)删除 GCSToBigquery 中至少一个 schema 的检查 (#18150)在 BigQueryInsertJobOperator 上删除重复的运行作业 (#17496)
5.1.0¶
新特性¶
在 GKEStartPodOperator 中为 config_file 参数添加错误检查 (#17700)Gcp ai 超参数调整 (#17790)如果指定了 'node_pools',则允许省略 'initial_node_count' (#17820)[Airflow 13779] 在 wait_for_pipeline_state hook 中使用提供的参数 (#17137)在 'template_fields_renderers' 中启用指定字典路径 (#17321)不要缓存 Google Secret Manager 客户端 (#17539)[AIRFLOW-9300] 添加 DatafusionPipelineStateSensor 和 aync 选项 到 CloudDataFusionStartPipelineOperator (#17787)
Bug 修复¶
GCP Secret Manager 处理 缺失 凭据的 错误 (#17264)
其他¶
优化 Airflow 2.2.0 的 连接 导入添加 secrets 后端/日志/身份验证 信息 到 provider yaml 中 (#17625)
5.0.0¶
重大变更¶
更新 GoogleAdsHook 以支持 较新的 API 版本, 在 google 弃用 v5 之后。 Google Ads v8 是 新的 默认 API。 (#17111)Google Ads Hook: 支持 google-ads 库的 较新 版本 (#17160)
警告
底层 google-ads 库有重大变更。
以前,google ads 库将数据作为原生 protobuf 消息返回。 现在它将数据作为 proto-plus 对象返回,这些对象更像传统的 Python 对象。
为了保持兼容性,hook 的 search() 将数据转换回原生 protobuf 然后再返回。 您现有的运算符 *应该* 像以前一样工作,但由于 v5 API 被弃用的紧迫性,因此没有经过非常彻底的测试。 因此,您应该仔细评估此新版本的运算符和 hook 功能。
为了使用 API 的新 proto-plus 格式,您可以使用 search_proto_plus() 方法。
有关更多信息,请参阅 google-ads 迁移文档
功能¶
将 dataproc 位置 参数 标准化为 区域 (#16034)添加 自定义 Salesforce 连接 类型 + SalesforceToS3Operator 更新 (#17162)
Bug 修复¶
更新 Google Memmcache 中 field_mask 的 别名 (#16975)fix: dataprocpysparkjob project_id 作为 self.project_id (#17075)修复 GCStoGCS 运算符, 其中 replace 禁用, 并且存在 目标 对象 (#16991)
4.0.0¶
重大变更¶
自动应用 apply_default 装饰器 (#15667)
警告
由于删除了 apply_default 装饰器,此 provider 版本需要 Airflow 2.1.0+。 如果您的 Airflow 版本 < 2.1.0,并且您想安装此 provider 版本,请首先将 Airflow 升级到至少版本 2.1.0。 否则,您的 Airflow 包版本将自动升级,您必须手动运行 airflow upgrade db 才能完成迁移。
将 plyvel 移动到 google provider 额外 项 (#15812)修复 AzureFileShare 连接 额外 项 (#16388)
功能¶
为 google dataproc 添加 额外的 链接 (#10343)添加 oracle 连接 链接 (#15632)将 wait_for_done 参数 向下 传递给 _DataflowJobsController (#15541)仅在 GoogleAdsHook 中 使用 api 版本, 而不是 运算符 (#15266)实现 BigQuery 表 架构 更新 运算符 (#15367)添加 BigQueryToMsSqlOperator (#15422)
Bug 修复¶
修复: GCS To BigQuery source_object (#16160)修复: ``GCSToLocalFilesystemOperator 中 不必要的 下载(#16171)``修复 当 导出 格式 为 parquet 时,bigquery 类型 错误 (#16027)修复 bucket 和 object 的 参数 排序 和 类型 (#15738)修复 sql_to_gcs docstring lint 错误 (#15730)fix: 确保 datetime 相关 值 完全 兼容 MySQL 和 BigQuery (#15026)修复 google provider 中的 弃用 警告 位置 (#16403)
3.0.0¶
重大变更¶
AutoMLPredictOperator 中的更改¶
airflow.providers.google.cloud.operators.automl.AutoMLPredictOperator 类中的 params 参数已重命名为 operation_params,因为它与 BaseOperator 类中的 param 参数冲突。
与 apache.beam provider 的集成¶
在 provider 的 3.0.0 版本中,我们更改了与 apache.beam provider 集成的方式。 当尝试使用 PIP > 20.2.4 将两个 provider 一起安装时,之前的 provider 版本会导致冲突。 PIP 20.2.4 及以下版本未检测到此冲突,但冲突确实存在,并且 Google BigQuery python 客户端的版本在两端不匹配。 因此,当同时安装 apache.beam 和 google provider 时,BigQuery 运算符的某些功能可能无法正常工作。 这是由 apache-beam 客户端尚未支持新的 google python 客户端造成的,当使用 apache-beam[gcp] 额外项时。 Dataflow 运算符使用 apache-beam[gcp] 额外项,虽然它们可以使用较新版本的 Google BigQuery python 客户端,但这不能保证。
此版本为 google provider 的 apache.beam 额外项引入了额外的额外需求,并且对称地为 apache.beam provider 的 google 额外项引入了额外的需求。 google 和 apache.beam provider 默认情况下不使用这些额外项,但您可以在安装 provider 时指定它们。 这样做的后果是 Dataflow 运算符的某些功能可能不可用。
不幸的是,解决此问题的唯一 完整 解决方案是 apache.beam 迁移到新的 (>=2.0.0) Google Python 客户端。
这是 google provider 的额外项
extras_require = (
{
# ...
"apache.beam": ["apache-airflow-providers-apache-beam", "apache-beam[gcp]"],
# ...
},
)
同样,这是 apache.beam provider 的额外项
extras_require = ({"google": ["apache-airflow-providers-google", "apache-beam[gcp]"]},)
您仍然可以使用 PIP 版本 <= 20.2.4 运行此代码并返回到之前的行为
pip install apache-airflow-providers-google[apache.beam]
或
pip install apache-airflow-providers-apache-beam[google]
但请注意,在这种情况下,某些 BigQuery 运算符功能可能不可用。
功能¶
[Airflow-15245] - 将 自定义 镜像 系列 名称 传递给 DataProcClusterCreateoperator (#15250)
Bug 修复¶
Bugfix: 修复 ''GCSToLocalFilesystemOperator'' 中 ''object_name'' 的 呈现 (#15487)修复 DataprocCreateClusterOperator 中的 拼写错误 (#15462)修复 leveldb hook 中错误 指定的 路径 (#15453)
2.2.0¶
特性¶
添加 'Trino' 提供者 (测试时占用 更少的 内存) (#15187)更新 operators 剩余的 旧 导入 路径 (#15127)覆盖 dataprocSubmitJobOperator 中的 project (#14981)带有 标签 和 描述 参数的 GCS 到 BigQuery 传输 Operator (#14881)添加 GCS 时间跨度 转换 operator (#13996)向 bigquery 检查 operators 添加 作业 标签。 (#14685)在可用时使用 libyaml C 库。 (#14577)添加 Google leveldb hook 和 operator (#13109) (#14105)
Bug 修复¶
Google Dataflow Hook 处理 没有 Job 类型的情况 (#14914)
2.1.0¶
特性¶
修正 GCSHook.download 方法中 docstring 的参数 顺序 (#14497)重构 SQL/BigQuery/Qubole/Druid 检查 operators (#12677)添加 GoogleDriveToLocalOperator (#14191)添加 'exists_ok' 标志到 BigQueryCreateEmptyTable(Dataset)Operator (#14026)添加 对 BigQuery 的 物化视图 支持 (#14201)添加 BigQueryUpdateTableOperator (#14149)向 CloudDataTransferServiceOperator 添加 param (#14118)添加 gdrive_to_gcs operator, drive sensor, 以及 drive hook 的 附加功能 (#13982)改进 GCSToSFTPOperator 路径 处理 (#11284)
Bug 修复¶
修复 dataproc operators 和 hook 的问题 (#14086)#9803 修复 没有 通配符 的 复制 操作 中的 bug (#13919)
2.0.0¶
重大变更¶
更新了 google-cloud-* 库¶
此提供者软件包的版本包含第三方库的更新,如果使用这些库中的对象,可能需要更新 DAG 文件或自定义 hook 和 operator。 更新这些库是必要的,以便能够使用新版本库提供的新功能,并获得仅适用于新版本库的 bug 修复。
详细信息包含在每个库的 UPDATING.md 文件中,但有一些细节您应该注意。
库名称 |
之前的约束 |
当前的约束 |
升级文档 |
|---|---|---|---|
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
||
|
|
字段名称使用 snake_case 约定¶
如果您的 DAG 使用通过 XCom 传递的上述库中的对象,则必须更新所读取字段的命名约定。 以前,这些字段使用 CamelSnake 约定,现在使用 snake_case 约定。
之前
set_acl_permission = GCSBucketCreateAclEntryOperator(
task_id="gcs-set-acl-permission",
bucket=BUCKET_NAME,
entity="user-{{ task_instance.xcom_pull('get-instance')['persistenceIamIdentity'].split(':', 2)[1] }}",
role="OWNER",
)
之后
set_acl_permission = GCSBucketCreateAclEntryOperator(
task_id="gcs-set-acl-permission",
bucket=BUCKET_NAME,
entity="user-{{ task_instance.xcom_pull('get-instance')['persistence_iam_identity']"
".split(':', 2)[1] }}",
role="OWNER",
)
特性¶
添加 Apache Beam operators (#12814)添加 Google Cloud Workflows Operators (#13366)使用 'GCSHook' 时,将 'google_cloud_storage_conn_id' 替换为 'gcp_conn_id' (#13851)为 Dataflow 添加 操作指南 (#13461)将 MLEngineStartTrainingJobOperator 推广到 自定义镜像 (#13318)将 Parquet 数据 类型添加到 BaseSQLToGCSOperator (#13359)添加 DataprocCreateWorkflowTemplateOperator (#13338)添加 OracleToGCS 传输 (#13246)向 gcs hook 方法添加 超时 选项。 (#13156)向 dataproc 工作流 模板 operators 添加 区域 支持 (#12907)将 project_id 添加到 BigQuery hook update_table 方法内的 客户端 (#13018)
Bug 修复¶
修复 StackdriverTaskHandler 中的 四个 bug (#13784)解码 远程 Google 日志 (#13115)修复 并改进 GCP BigTable hook 和 系统 测试 (#13896)更新 Google DV360 Hook 以修复 SDF 问题 (#13703)修复 BigQueryHook 的 insert_all 方法以支持没有 schema 的表 (#13138)修复 Google BigQueryHook 方法 get_schema() (#13136)修复 Data Catalog operators (#13096)
1.0.0¶
提供者的初始版本。