airflow.providers.apache.livy.triggers.livy

此模块包含 Apache Livy Trigger。

LivyTrigger

检查先前提交的 batch_id 作业的状态。

模块内容

class airflow.providers.apache.livy.triggers.livy.LivyTrigger(batch_id, spark_params, livy_conn_id='livy_default', polling_interval=0, extra_options=None, extra_headers=None, livy_hook_async=None, execution_timeout=None, endpoint_prefix=None)[source]

基类: airflow.triggers.base.BaseTrigger

检查先前提交的 batch_id 作业的状态。

参数:
  • batch_id (int | str) – 批处理作业 ID

  • spark_params (dict[Any, Any]) – Spark 参数;例如,`spark_params = {“file”: “test/pi.py”, “class_name”: “org.apache.spark.examples.SparkPi”, “args”: [“/usr/lib/spark/bin/run-example”, “SparkPi”, “10”],”jars”: “command-runner.jar”, “driver_cores”: 1, “executor_cores”: 4,”num_executors”: 1}`

  • livy_conn_id (str) – 预定义的 Livy 连接的引用。

  • polling_interval (int) – 轮询作业完成状态的间隔时间(秒)。如果 `polling_interval=0`,则直接返回 `batch_id`;如果 `polling_interval > 0`,则以定义的轮询间隔轮询 Livy 作业直到其终止。

  • extra_options (dict[str, Any] | None) – 选项字典,其中键是字符串,值取决于要修改的选项。

  • extra_headers (dict[str, Any] | None) – 传递给 Livy HTTP 请求的头部字典。

  • livy_hook_async (airflow.providers.apache.livy.hooks.livy.LivyAsyncHook | None) – LivyAsyncHook 对象。

spark_params[source]
serialize()[source]

序列化 LivyTrigger 参数和类路径。

async run()[source]

运行 Trigger。

如果 _polling_interval > 0,则异步轮询 Livy 直到批处理终止。否则,立即创建成功响应。

async poll_for_termination(batch_id)[source]

异步轮询 Livy 直到批处理终止。

参数:

batch_id (int | str) – 要监控的批处理会话 ID。

此条目是否有帮助?