airflow.providers.databricks.operators.databricks_repos

此模块包含 Databricks operators。

DatabricksReposCreateOperator

使用 POST api/2.0/repos API 端点创建 Databricks 仓库,并可选地检出。

DatabricksReposUpdateOperator

使用 PATCH api/2.0/repos API 端点将指定仓库更新到给定分支或标签。

DatabricksReposDeleteOperator

使用 DELETE api/2.0/repos API 端点删除指定仓库。

模块内容

class airflow.providers.databricks.operators.databricks_repos.DatabricksReposCreateOperator(*, git_url, git_provider=None, branch=None, tag=None, repo_path=None, ignore_existing_repo=False, databricks_conn_id='databricks_default', databricks_retry_limit=3, databricks_retry_delay=1, **kwargs)[source]

基类: airflow.models.BaseOperator

使用 POST api/2.0/repos API 端点创建 Databricks 仓库,并可选地检出。

参数:
  • git_url (str) – 必需的 Git 仓库 HTTPS URL

  • git_provider (str | None) – 可选的 Git 提供商名称。如果无法从 URL 推断其名称,则必须提供。

  • repo_path (str | None) – 仓库的可选路径。必须采用 /Repos/{folder}/{repo-name} 格式。如果未指定,将在用户目录下创建。

  • branch (str | None) – 要检出的分支的可选名称。

  • tag (str | None) – 要检出的标签的可选名称。

  • ignore_existing_repo (bool) – 如果给定路径的仓库已存在,则不抛出异常。

  • databricks_conn_id (str) – 对 Databricks 连接 的引用。默认情况下通常是 databricks_default。要使用基于 token 的身份验证,请在连接的 extra 字段中提供 token 键,创建 host 键并留空 host 字段。(模板化)

  • databricks_retry_limit (int) – 如果 Databricks 后端不可达,重试的次数。其值必须大于或等于 1。

  • databricks_retry_delay (int) – 重试之间的等待秒数(可以是浮点数)。

template_fields: collections.abc.Sequence[str] = ('repo_path', 'tag', 'branch', 'databricks_conn_id')[source]
__git_providers__[source]
__aws_code_commit_regexp__[source]
__repos_path_regexp__[source]
databricks_conn_id = 'databricks_default'[source]
databricks_retry_limit = 3[source]
databricks_retry_delay = 1[source]
git_url[source]
ignore_existing_repo = False[source]
repo_path = None[source]
branch = None[source]
tag = None[source]
static __detect_repo_provider__(url)[source]
execute(context)[source]

创建一个 Databricks 仓库。

参数:

context (airflow.sdk.definitions.context.Context) – 上下文

返回:

仓库 ID

class airflow.providers.databricks.operators.databricks_repos.DatabricksReposUpdateOperator(*, branch=None, tag=None, repo_id=None, repo_path=None, databricks_conn_id='databricks_default', databricks_retry_limit=3, databricks_retry_delay=1, **kwargs)[source]

基类: airflow.models.BaseOperator

使用 PATCH api/2.0/repos API 端点将指定仓库更新到给定分支或标签。

参见: https://docs.databricks.com/dev-tools/api/latest/repos.html#operation/update-repo

参数:
  • branch (str | None) – 要更新到的分支的可选名称。如果省略 tag,则应指定此参数

  • tag (str | None) – 要更新到的标签的可选名称。如果省略 branch,则应指定此参数

  • repo_id (str | None) – 现有仓库的可选 ID。如果省略 repo_path,则应指定此参数

  • repo_path (str | None) – 现有仓库的可选路径。如果省略 repo_id,则应指定此参数

  • databricks_conn_id (str) – 对 Databricks 连接 的引用。默认情况下通常是 databricks_default。要使用基于 token 的身份验证,请在连接的 extra 字段中提供 token 键,创建 host 键并留空 host 字段。(模板化)

  • databricks_retry_limit (int) – 如果 Databricks 后端不可达,重试的次数。其值必须大于或等于 1。

  • databricks_retry_delay (int) – 重试之间的等待秒数(可以是浮点数)。

template_fields: collections.abc.Sequence[str] = ('repo_path', 'tag', 'branch', 'databricks_conn_id')[source]
databricks_conn_id = 'databricks_default'[source]
databricks_retry_limit = 3[source]
databricks_retry_delay = 1[source]
repo_path = None[source]
repo_id = None[source]
branch = None[source]
tag = None[source]
execute(context)[source]

创建 operator 时派生。

上下文与渲染 jinja 模板时使用的字典相同。

请参考 get_template_context 获取更多上下文信息。

class airflow.providers.databricks.operators.databricks_repos.DatabricksReposDeleteOperator(*, repo_id=None, repo_path=None, databricks_conn_id='databricks_default', databricks_retry_limit=3, databricks_retry_delay=1, **kwargs)[source]

基类: airflow.models.BaseOperator

使用 DELETE api/2.0/repos API 端点删除指定仓库。

参见: https://docs.databricks.com/dev-tools/api/latest/repos.html#operation/delete-repo

参数:
  • repo_id (str | None) – 现有仓库的可选 ID。如果省略 repo_path,则应指定此参数

  • repo_path (str | None) – 现有仓库的可选路径。如果省略 repo_id,则应指定此参数

  • databricks_conn_id (str) – 对 Databricks 连接 的引用。默认情况下通常是 databricks_default。要使用基于 token 的身份验证,请在连接的 extra 字段中提供 token 键,创建 host 键并留空 host 字段。(模板化)

  • databricks_retry_limit (int) – 如果 Databricks 后端不可达,重试的次数。其值必须大于或等于 1。

  • databricks_retry_delay (int) – 重试之间的等待秒数(可以是浮点数)。

template_fields: collections.abc.Sequence[str] = ('repo_path', 'databricks_conn_id')[source]
databricks_conn_id = 'databricks_default'[source]
databricks_retry_limit = 3[source]
databricks_retry_delay = 1[source]
repo_path = None[source]
repo_id = None[source]
execute(context)[source]

创建 operator 时派生。

上下文与渲染 jinja 模板时使用的字典相同。

请参考 get_template_context 获取更多上下文信息。

此条目有帮助吗?