Google Cloud Storage 到 Trino 传输运算符

Google 有一项服务叫做 Google Cloud Storage。这项服务用于存储来自各种应用程序的大量数据。

Trino 是一个开源、快速、分布式 SQL 查询引擎,用于针对从千兆字节到拍字节的各种大小的数据源运行交互式分析查询。Trino 允许在数据所在的位置查询数据,包括 Hive、Cassandra、关系型数据库甚至专有数据存储。单个 Trino 查询可以组合来自多个来源的数据,从而实现跨整个组织的分析。

从 GCS 加载 CSV 到 Trino 表

要将 CSV 文件从 Google Cloud Storage 加载到 Trino 表,可以使用 GCSToTrinoOperator

此运算符假定 CSV 没有标题行,并且数据与预先存在的 presto 表中的列对应。可以选择将 schema 作为字符串元组/列表提供,或作为与 CSV 文件位于同一存储桶中的 JSON 文件路径提供。

tests/system/trino/example_gcs_to_trino.py

gcs_csv_to_trino_table = GCSToTrinoOperator(
    task_id="gcs_csv_to_trino_table",
    source_bucket=BUCKET,
    source_object=PATH_TO_FILE,
    trino_table=TRINO_TABLE,
)

此条目是否有帮助?