airflow.providers.databricks.operators.databricks_workflow¶
类¶
Databricks 工作流运行的元数据。 |
|
一个任务组,接受任务列表并创建 Databricks 工作流。 |
模块内容¶
- class airflow.providers.databricks.operators.databricks_workflow.WorkflowRunMetadata[source]¶
Databricks 工作流运行的元数据。
- 参数:
run_id – Databricks 工作流运行的 ID。
job_id – Databricks 工作流作业的 ID。
conn_id – 用于连接到 Databricks 的连接 ID。
- class airflow.providers.databricks.operators.databricks_workflow.DatabricksWorkflowTaskGroup(databricks_conn_id, existing_clusters=None, extra_job_params=None, jar_params=None, job_clusters=None, max_concurrent_runs=1, notebook_packages=None, notebook_params=None, python_params=None, spark_submit_params=None, **kwargs)[source]¶
基类:
airflow.utils.task_group.TaskGroup
一个任务组,接受任务列表并创建 Databricks 工作流。
DatabricksWorkflowTaskGroup 接受任务列表,并根据这些任务生成的元数据创建 Databricks 工作流。要使任务符合此任务组的条件,它必须包含
_convert_to_databricks_workflow_task
方法。如果任何任务不包含此方法,则任务组将在解析时引发错误。另请参阅
有关如何使用此操作符的更多信息,请参阅指南:DatabricksWorkflowTaskGroup
- 参数:
databricks_conn_id (str) – 要使用的 Databricks 连接名称。
extra_job_params (dict[str, Any] | None) – 一个字典,包含将覆盖默认 Databricks 工作流作业定义的属性。
jar_params (list[str] | None) – 要传递给工作流的 jar 参数列表。这些参数将传递给工作流中的所有 jar 任务。
max_concurrent_runs (int) – 此工作流的最大并行运行数。
notebook_packages (list[dict[str, Any]] | None) – 要安装的 Python 包字典列表。在工作流任务组级别定义的包将安装到其下的每个 notebook 任务。在 notebook 任务级别定义的包特定于该 notebook 任务。
notebook_params (dict | None) – 要传递给工作流的 notebook 参数字典。这些参数将传递给工作流中的所有 notebook 任务。
python_params (list | None) – 要传递给工作流的 python 参数列表。这些参数将传递给工作流中的所有 python 任务。
spark_submit_params (list | None) – 要传递给工作流的 spark submit 参数列表。这些参数将传递给所有 spark submit 任务。