airflow.providers.trino.transfers.gcs_to_trino¶
此模块包含从 Google Cloud Storage 到 Trino 的 Operator。
类¶
将 CSV 文件从 Google Cloud Storage 加载到 Trino 表中。 |
模块内容¶
- class airflow.providers.trino.transfers.gcs_to_trino.GCSToTrinoOperator(*, source_bucket, source_object, trino_table, trino_conn_id='trino_default', gcp_conn_id='google_cloud_default', schema_fields=None, schema_object=None, impersonation_chain=None, **kwargs)[源码]¶
基类:
airflow.models.BaseOperator
将 CSV 文件从 Google Cloud Storage 加载到 Trino 表中。
假设: 1. CSV 文件不应包含表头 2. 具有所需列的 Trino 表已创建 3. (可选)可以提供一个单独的包含表头的 JSON 文件
- 参数:
source_bucket (str) – 包含 CSV 文件的源 GCS 存储桶
source_object (str) – 包括路径的 CSV 文件
trino_table (str) – 上传数据的 Trino 表
trino_conn_id (str) – 目标 Trino 连接
gcp_conn_id (str) – (可选)用于连接 Google Cloud 并与 Google Cloud Storage 服务交互的连接 ID。
schema_fields (collections.abc.Iterable[str] | None) – 要填充到表中的列名。如果提供了 schema_fields,schema object 中提供的任何路径将
schema_object (str | None) – 包含 schema 字段的 JSON 文件
impersonation_chain (str | collections.abc.Sequence[str] | None) – (可选)要使用短期凭据模拟的服务帐户,或是获取列表中最后一个帐户的 access_token 所需的帐户链列表,最后一个帐户将在请求中被模拟。如果设置为字符串,该帐户必须授予发起帐户 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须授予紧前身份 Service Account Token Creator IAM 角色,列表中第一个帐户将此角色授予发起帐户。
- template_fields: collections.abc.Sequence[str] = ('source_bucket', 'source_object', 'trino_table')[源码]¶