Google Cloud Storage 到 Trino 传输算子

Google 提供了一项服务 Google Cloud Storage。此服务用于存储来自各种应用的大量数据。

Trino 是一个开源、快速、分布式的 SQL 查询引擎,能够对从几 GB 到数 PB 各种规模的数据源运行交互式分析查询。Trino 允许在数据所在位置直接查询,包括 Hive、Cassandra、关系型数据库或甚至专有数据存储。单个 Trino 查询可以组合来自多个源的数据,实现跨整个组织的分析。

从 GCS 加载 CSV 到 Trino 表

要将 Google Cloud Storage 中的 CSV 文件加载到 Trino 表中,可以使用 GCSToTrinoOperator

该算子默认 CSV 文件不包含表头,且数据与预先存在的 Presto 表的列对应。可选地,您可以提供 schema(以字符串元组/列表形式)或提供指向同一 bucket 中 CSV 文件所在路径的 JSON 文件。

tests/system/trino/example_gcs_to_trino.py[source]

gcs_csv_to_trino_table = GCSToTrinoOperator(
    task_id="gcs_csv_to_trino_table",
    source_bucket=BUCKET,
    source_object=PATH_TO_FILE,
    trino_table=TRINO_TABLE,
)

此条目是否有帮助?