airflow.providers.apache.druid.transfers.hive_to_druid

此模块包含将数据从 Hive 移动到 Druid 的操作符。

模块内容

HiveToDruidOperator

将数据从 Hive 移动到 Druid。

属性

LOAD_CHECK_INTERVAL

DEFAULT_TARGET_PARTITION_SIZE

airflow.providers.apache.druid.transfers.hive_to_druid.LOAD_CHECK_INTERVAL = 5[源代码]
airflow.providers.apache.druid.transfers.hive_to_druid.DEFAULT_TARGET_PARTITION_SIZE = 5000000[源代码]
class airflow.providers.apache.druid.transfers.hive_to_druid.HiveToDruidOperator(*, sql, druid_datasource, ts_dim, metric_spec=None, hive_cli_conn_id='hive_cli_default', druid_ingest_conn_id='druid_ingest_default', metastore_conn_id='metastore_default', hadoop_dependency_coordinates=None, intervals=None, num_shards=-1, target_partition_size=-1, query_granularity='NONE', segment_granularity='DAY', hive_tblproperties=None, job_properties=None, **kwargs)[源代码]

基类: airflow.models.BaseOperator

将数据从 Hive 移动到 Druid。

[删除]请注意,目前数据在推送到 Druid 之前会被加载到内存中,因此此操作符应仅用于处理较小的数据量。[删除]

参数
  • sql (str) – 要对 Druid 数据库执行的 SQL 查询。(已模板化)

  • druid_datasource (str) – 您要摄取到 Druid 中的数据源

  • ts_dim (str) – 时间戳维度

  • metric_spec (list[Any] | None) – 您要为数据定义的度量

  • hive_cli_conn_id (str) – hive 连接 ID

  • druid_ingest_conn_id (str) – druid 摄取连接 ID

  • metastore_conn_id (str) – metastore 连接 ID

  • hadoop_dependency_coordinates (list[str] | None) – 要压缩到摄取 json 中的坐标列表

  • intervals (list[Any] | None) – 定义段的时间间隔列表,按原样传递到 json 对象。(已模板化)

  • num_shards (float) – 直接指定要创建的分片数。

  • target_partition_size (int) – 要包含在分区中的目标行数

  • query_granularity (str) – 能够查询结果的最小粒度以及段内数据的粒度。例如,“minute” 值将表示数据以分钟粒度聚合。也就是说,如果元组 (minute(timestamp), 维度) 中存在冲突,则它将使用聚合器聚合值,而不是存储单独的行。“NONE” 的粒度表示毫秒粒度。

  • segment_granularity (str) – 创建时间块的粒度。每个时间块可以创建多个段。例如,使用 ‘DAY’ segmentGranularity,同一天的事件将落入同一时间块中,该时间块可以根据其他配置和输入大小有选择地进一步划分为多个段。

  • hive_tblproperties (dict[Any, Any] | None) – 用于暂存表的 hive tblproperties 的附加属性

  • job_properties (dict[Any, Any] | None) – 用于作业的附加属性

template_fields: collections.abc.Sequence[str] = ('sql', 'intervals')[源代码]
template_ext: collections.abc.Sequence[str] = ('.sql',)[源代码]
template_fields_renderers[源代码]
execute(context)[源代码]

创建操作符时派生。

上下文与呈现 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

construct_ingest_query(static_path, columns)[源代码]

为 HDFS TSV 加载构建一个摄取查询。

参数
  • static_path (str) – 数据在 hdfs 上的路径

  • columns (list[str]) – 所有可用列的列表

此条目是否有帮助?