Google Cloud Storage 到 Trino 传输操作符

Google 有一个服务 Google Cloud Storage。此服务用于存储来自各种应用程序的大量数据。

Trino 是一个开源、快速、分布式的 SQL 查询引擎,用于对千兆字节到拍字节大小的各种数据源运行交互式分析查询。 Trino 允许查询数据所在的位置,包括 Hive、Cassandra、关系数据库甚至专有数据存储。单个 Trino 查询可以组合来自多个来源的数据,从而可以跨整个组织进行分析。

从 GCS 加载 CSV 到 Trino 表

要将 CSV 文件从 Google Cloud Storage 加载到 Trino 表,您可以使用 GCSToTrinoOperator

此操作符假设 CSV 没有标题,并且数据与预先存在的 presto 表中的列相对应。 或者,您可以将模式作为字符串元组/列表提供,或者作为与 CSV 文件位于同一存储桶中的 JSON 文件的路径提供。

tests/system/trino/example_gcs_to_trino.py[源代码]

gcs_csv_to_trino_table = GCSToTrinoOperator(
    task_id="gcs_csv_to_trino_table",
    source_bucket=BUCKET,
    source_object=PATH_TO_FILE,
    trino_table=TRINO_TABLE,
)

此条目是否有帮助?