airflow.providers.trino.transfers.gcs_to_trino

此模块包含从 Google Cloud Storage 到 Trino 的 Operator。

GCSToTrinoOperator

将 CSV 文件从 Google Cloud Storage 加载到 Trino 表中。

模块内容

class airflow.providers.trino.transfers.gcs_to_trino.GCSToTrinoOperator(*, source_bucket, source_object, trino_table, trino_conn_id='trino_default', gcp_conn_id='google_cloud_default', schema_fields=None, schema_object=None, impersonation_chain=None, **kwargs)[源码]

基类: airflow.models.BaseOperator

将 CSV 文件从 Google Cloud Storage 加载到 Trino 表中。

假设: 1. CSV 文件不应包含表头 2. 具有所需列的 Trino 表已创建 3. (可选)可以提供一个单独的包含表头的 JSON 文件

参数:
  • source_bucket (str) – 包含 CSV 文件的源 GCS 存储桶

  • source_object (str) – 包括路径的 CSV 文件

  • trino_table (str) – 上传数据的 Trino 表

  • trino_conn_id (str) – 目标 Trino 连接

  • gcp_conn_id (str) – (可选)用于连接 Google Cloud 并与 Google Cloud Storage 服务交互的连接 ID。

  • schema_fields (collections.abc.Iterable[str] | None) – 要填充到表中的列名。如果提供了 schema_fields,schema object 中提供的任何路径将

  • schema_object (str | None) – 包含 schema 字段的 JSON 文件

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – (可选)要使用短期凭据模拟的服务帐户,或是获取列表中最后一个帐户的 access_token 所需的帐户链列表,最后一个帐户将在请求中被模拟。如果设置为字符串,该帐户必须授予发起帐户 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须授予紧前身份 Service Account Token Creator IAM 角色,列表中第一个帐户将此角色授予发起帐户。

template_fields: collections.abc.Sequence[str] = ('source_bucket', 'source_object', 'trino_table')[源码]
source_bucket[源码]
source_object[源码]
trino_table[源码]
trino_conn_id = 'trino_default'[源码]
gcp_conn_id = 'google_cloud_default'[源码]
schema_fields = None[源码]
schema_object = None[源码]
impersonation_chain = None[源码]
execute(context)[源码]

在创建 operator 时派生。

Context 是用于渲染 jinja 模板的同一字典。

请参阅 get_template_context 以获取更多 context。

此条目有帮助吗?