airflow.providers.databricks.operators.databricks_workflow

WorkflowRunMetadata

Databricks 工作流运行的元数据。

DatabricksWorkflowTaskGroup

一个任务组,接受任务列表并创建 Databricks 工作流。

模块内容

class airflow.providers.databricks.operators.databricks_workflow.WorkflowRunMetadata[source]

Databricks 工作流运行的元数据。

参数:
  • run_id – Databricks 工作流运行的 ID。

  • job_id – Databricks 工作流作业的 ID。

  • conn_id – 用于连接到 Databricks 的连接 ID。

conn_id: str[source]
job_id: int[source]
run_id: int[source]
class airflow.providers.databricks.operators.databricks_workflow.DatabricksWorkflowTaskGroup(databricks_conn_id, existing_clusters=None, extra_job_params=None, jar_params=None, job_clusters=None, max_concurrent_runs=1, notebook_packages=None, notebook_params=None, python_params=None, spark_submit_params=None, **kwargs)[source]

基类: airflow.utils.task_group.TaskGroup

一个任务组,接受任务列表并创建 Databricks 工作流。

DatabricksWorkflowTaskGroup 接受任务列表,并根据这些任务生成的元数据创建 Databricks 工作流。要使任务符合此任务组的条件,它必须包含 _convert_to_databricks_workflow_task 方法。如果任何任务不包含此方法,则任务组将在解析时引发错误。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:DatabricksWorkflowTaskGroup

参数:
  • databricks_conn_id (str) – 要使用的 Databricks 连接名称。

  • existing_clusters (list[str] | None) – 此工作流要使用的现有集群列表。

  • extra_job_params (dict[str, Any] | None) – 一个字典,包含将覆盖默认 Databricks 工作流作业定义的属性。

  • jar_params (list[str] | None) – 要传递给工作流的 jar 参数列表。这些参数将传递给工作流中的所有 jar 任务。

  • job_clusters (list[dict] | None) – 此工作流要使用的工作集群列表。

  • max_concurrent_runs (int) – 此工作流的最大并行运行数。

  • notebook_packages (list[dict[str, Any]] | None) – 要安装的 Python 包字典列表。在工作流任务组级别定义的包将安装到其下的每个 notebook 任务。在 notebook 任务级别定义的包特定于该 notebook 任务。

  • notebook_params (dict | None) – 要传递给工作流的 notebook 参数字典。这些参数将传递给工作流中的所有 notebook 任务。

  • python_params (list | None) – 要传递给工作流的 python 参数列表。这些参数将传递给工作流中的所有 python 任务。

  • spark_submit_params (list | None) – 要传递给工作流的 spark submit 参数列表。这些参数将传递给所有 spark submit 任务。

is_databricks = True[source]
databricks_conn_id[source]
existing_clusters = [][source]
extra_job_params[source]
jar_params = [][source]
job_clusters = [][source]
max_concurrent_runs = 1[source]
notebook_packages = [][source]
notebook_params[source]
python_params = [][source]
spark_submit_params = [][source]
__exit__(_type, _value, _tb)[source]

退出上下文管理器并将任务添加到单个 _CreateDatabricksWorkflowOperator

此条目是否有帮助?