Google Cloud Storage 到 Presto 传输操作符

Google 有一项服务 Google Cloud Storage。这项服务用于存储来自各种应用程序的大数据。

Presto 是一个开源分布式 SQL 查询引擎,用于针对从千兆字节到拍字节的各种大小数据源运行交互式分析查询。Presto 允许在数据所在地进行查询,包括 Hive、Cassandra、关系型数据库甚至专有数据存储。单个 Presto 查询可以合并来自多个来源的数据,从而进行跨越整个组织的分析。

从 GCS 加载 CSV 到 Presto 表

要将 CSV 文件从 Google Cloud Storage 加载到 Presto 表,您可以使用 GCSToPrestoOperator

此操作符假定 CSV 不包含标题行,并且数据与预先存在的 presto 表中的列对应。可选地,您可以将 schema 指定为字符串元组/列表,或者指定为与 CSV 文件位于同一存储桶 (bucket) 中的 JSON 文件路径。

tests/system/presto/example_gcs_to_presto.py

gcs_csv_to_presto_table = GCSToPrestoOperator(
    task_id="gcs_csv_to_presto_table",
    source_bucket=BUCKET,
    source_object=PATH_TO_FILE,
    presto_table=PRESTO_TABLE,
)

此条目有帮助吗?