airflow.providers.google.cloud.triggers.dataproc
¶
此模块包含 Google Dataproc 触发器。
模块内容¶
类¶
Dataproc 触发器的基类。 |
|
DataprocSubmitTrigger 在触发器工作器上运行,以执行创建构建操作。 |
|
DataprocClusterTrigger 在触发器工作器上运行,以执行创建构建操作。 |
|
DataprocCreateBatchTrigger 在触发器工作器上运行,以执行创建构建操作。 |
|
DataprocDeleteClusterTrigger 在触发器工作器上运行,以执行删除集群操作。 |
|
触发器,定期从 Dataproc API 轮询长时间运行的操作的信息以验证状态。 |
- class airflow.providers.google.cloud.triggers.dataproc.DataprocBaseTrigger(region, project_id=PROVIDE_PROJECT_ID, gcp_conn_id='google_cloud_default', impersonation_chain=None, polling_interval_seconds=30, cancel_on_kill=True, delete_on_error=True)[来源]¶
基类:
airflow.triggers.base.BaseTrigger
Dataproc 触发器的基类。
- class airflow.providers.google.cloud.triggers.dataproc.DataprocSubmitTrigger(job_id, **kwargs)[来源]¶
-
DataprocSubmitTrigger 在触发器工作器上运行,以执行创建构建操作。
- 参数
job_id (str) – Dataproc 作业的 ID。
project_id – 运行作业的 Google Cloud 项目
region – 处理请求的 Cloud Dataproc 区域。
gcp_conn_id – 可选,用于连接到 Google Cloud Platform 的连接 ID。
impersonation_chain – 可选的服务帐户,用于使用短期凭据进行模拟,或用于获取列表中最后一个帐户的 access_token 的链接帐户列表,该 access_token 将在请求中进行模拟。如果设置为字符串,则该帐户必须授予发起帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须授予紧接在其之前的标识“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户将此角色授予发起帐户(模板化)。
polling_interval_seconds – 检查状态的轮询周期(以秒为单位)
- get_task_instance(session)[来源]¶
获取当前任务的任务实例。
- 参数
session (sqlalchemy.orm.session.Session) – Sqlalchemy 会话
- class airflow.providers.google.cloud.triggers.dataproc.DataprocClusterTrigger(cluster_name, **kwargs)[来源]¶
-
DataprocClusterTrigger 在触发器工作器上运行,以执行创建构建操作。
- 参数
cluster_name (str) – 集群的名称。
project_id – 运行作业的 Google Cloud 项目
region – 处理请求的 Cloud Dataproc 区域。
gcp_conn_id – 可选,用于连接到 Google Cloud Platform 的连接 ID。
impersonation_chain – 可选的服务帐户,用于使用短期凭据进行模拟,或用于获取列表中最后一个帐户的 access_token 的链接帐户列表,该 access_token 将在请求中进行模拟。如果设置为字符串,则该帐户必须授予发起帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须授予紧接在其之前的标识“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户将此角色授予发起帐户(模板化)。
polling_interval_seconds – 检查状态的轮询周期(以秒为单位)
- safe_to_cancel()[来源]¶
是否可以安全地取消此触发器正在执行的外部作业。
这是为了避免由于触发器本身停止而调用 asyncio.CancelledError 的情况。因为在这些情况下,我们不应取消外部作业。
- class airflow.providers.google.cloud.triggers.dataproc.DataprocBatchTrigger(batch_id, **kwargs)[源代码]¶
-
DataprocCreateBatchTrigger 在触发器工作器上运行,以执行创建构建操作。
- 参数
batch_id (str) – 构建的 ID。
project_id – 运行作业的 Google Cloud 项目
region – 处理请求的 Cloud Dataproc 区域。
gcp_conn_id – 可选,用于连接到 Google Cloud Platform 的连接 ID。
impersonation_chain – 可选的服务帐户,用于使用短期凭据进行模拟,或用于获取列表中最后一个帐户的 access_token 的链接帐户列表,该 access_token 将在请求中进行模拟。如果设置为字符串,则该帐户必须授予发起帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须授予紧接在其之前的标识“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户将此角色授予发起帐户(模板化)。
polling_interval_seconds – 检查状态的轮询周期(以秒为单位)
- class airflow.providers.google.cloud.triggers.dataproc.DataprocDeleteClusterTrigger(cluster_name, end_time, metadata=(), **kwargs)[源代码]¶
-
DataprocDeleteClusterTrigger 在触发器工作器上运行,以执行删除集群操作。
- 参数
cluster_name (str) – 集群的名称
end_time (float) – 检查集群状态剩余的时间(秒)
project_id – 集群所属的 Google Cloud 项目的 ID
region – 处理请求的 Cloud Dataproc 区域
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据
gcp_conn_id – 获取连接信息时使用的连接 ID。
impersonation_chain – 可选的服务帐户,用于使用短期凭据模拟,或用于获取列表中最后一个帐户的 access_token 所需的链式帐户列表,该帐户将在请求中模拟。 如果设置为字符串,则该帐户必须授予原始帐户“服务帐户令牌创建者”IAM 角色。 如果设置为序列,则列表中的标识必须将“服务帐户令牌创建者”IAM 角色授予紧随其前的标识,列表中的第一个帐户将此角色授予原始帐户。
polling_interval_seconds – 检查集群状态之间休眠的时间(秒)