Google Cloud BigQuery 到 Google Cloud Storage 传输运算符¶
Google Cloud BigQuery 是 Google Cloud 提供的无服务器数据仓库服务。Google Cloud Storage (GCS) 是一种用于存储非结构化数据的托管服务。此运算符可用于将数据从 BigQuery 表导出到 Cloud Storage 存储桶中的文件。
前提任务¶
要使用这些运算符,您必须执行以下操作:
使用 Cloud Console 选择或创建一个 Cloud Platform 项目。
为您的项目启用结算功能,详情请参见 Google Cloud 文档。
启用 API,详情请参见 Cloud Console 文档。
通过 pip 安装 API 库。
pip install 'apache-airflow[google]'有关 安装 的详细信息,请参见此处。
运算符¶
通过 BigQueryToGCSOperator
运算符执行从 BigQuery 到 GCS 的表导出。
使用 Jinja 模板化(Jinja templating) 配合 source_project_dataset_table
、destination_cloud_storage_uris
、export_format
、labels
、impersonation_chain
、job_id
等参数来动态定义值。
您可以定义多个目标 URI,以及 compression
和 export_format
等其他设置。更多信息请参考以上链接。
导出表¶
以下运算符将 BigQuery 表导出到 GCS。
tests/system/google/cloud/bigquery/example_bigquery_to_gcs.py
bigquery_to_gcs = BigQueryToGCSOperator(
task_id="bigquery_to_gcs",
source_project_dataset_table=f"{DATASET_NAME}.{TABLE}",
destination_cloud_storage_uris=[f"gs://{BUCKET_NAME}/{BUCKET_FILE}"],
)
参考¶
更多信息,请参阅: