Google Cloud Storage 到 Presto 传输操作符¶
Google 提供了一项服务 Google Cloud Storage。此服务用于存储来自各种应用程序的大量数据。
Presto 是一个开源的分布式 SQL 查询引擎,用于针对从千兆字节到拍字节大小的各种数据源运行交互式分析查询。Presto 允许查询数据所在的位置,包括 Hive、Cassandra、关系数据库甚至专有数据存储。单个 Presto 查询可以组合来自多个来源的数据,从而允许您在整个组织中进行分析。
从 GCS 加载 CSV 到 Presto 表¶
要将 CSV 文件从 Google Cloud Storage 加载到 Presto 表,您可以使用 GCSToPrestoOperator
。
此操作符假设 CSV 没有标题,并且数据与预先存在的 Presto 表中的列相对应。可选地,您可以提供架构作为字符串的元组/列表,或者作为与 CSV 文件位于同一存储桶中的 JSON 文件的路径。
gcs_csv_to_presto_table = GCSToPrestoOperator(
task_id="gcs_csv_to_presto_table",
source_bucket=BUCKET,
source_object=PATH_TO_FILE,
presto_table=PRESTO_TABLE,
)