Apache Druid 操作符

前提条件

要使用 DruidOperator,您必须首先配置 Druid 连接。

DruidOperator

要直接向 Druid 提交任务,您需要提供 Druid 索引规范的 json_index_file 文件路径,以及 Druid overlord 的连接 ID druid_ingest_conn_id,该连接 ID 在 Airflow 连接中接受索引作业。此外,您可以提供摄取类型 ingestion_type 来确定作业是批处理摄取还是基于 SQL 的摄取。

下面是 Druid 摄取规范的示例内容。

有关参数定义,请参阅 DruidOperator

使用操作符

tests/system/apache/druid/example_druid_dag.py[源代码]

submit_job = DruidOperator(task_id="spark_submit_job", json_index_file="json_index.json")
# Example content of json_index.json:
JSON_INDEX_STR = """
    {
        "type": "index_hadoop",
        "datasource": "datasource_prd",
        "spec": {
            "dataSchema": {
                "granularitySpec": {
                    "intervals": ["2021-09-01/2021-09-02"]
                }
            }
        }
    }
"""

参考

有关更多信息,请参阅 Apache Druid 摄取规范参考

此条目是否有帮助?