airflow.providers.google.cloud.triggers.dataproc¶
此模块包含 Google Dataproc 触发器。
类¶
Dataproc 触发器的基类。 |
|
DataprocSubmitTrigger 在 trigger worker 上运行以执行创建 Build 操作。 |
|
DataprocClusterTrigger 在 trigger worker 上运行以执行创建 Build 操作。 |
|
DataprocCreateBatchTrigger 在 trigger worker 上运行以执行创建 Build 操作。 |
|
DataprocDeleteClusterTrigger 在 trigger worker 上运行以执行删除集群操作。 |
|
定期从 Dataproc API 轮询长时间运行操作信息以验证状态的触发器。 |
模块内容¶
- class airflow.providers.google.cloud.triggers.dataproc.DataprocBaseTrigger(region, project_id=PROVIDE_PROJECT_ID, gcp_conn_id='google_cloud_default', impersonation_chain=None, polling_interval_seconds=30, cancel_on_kill=True, delete_on_error=True)[source]¶
基类:
airflow.triggers.base.BaseTrigger
Dataproc 触发器的基类。
- class airflow.providers.google.cloud.triggers.dataproc.DataprocSubmitTrigger(job_id, **kwargs)[source]¶
-
DataprocSubmitTrigger 在 trigger worker 上运行以执行创建 Build 操作。
- 参数:
job_id (str) – Dataproc 作业的 ID。
project_id – 作业运行所在的 Google Cloud 项目。
region – 处理请求所在的 Cloud Dataproc 区域。
gcp_conn_id – 可选,用于连接到 Google Cloud Platform 的连接 ID。
impersonation_chain – 可选的服务账号,用于使用短期凭据进行模拟,或账户链列表,需要获取列表中最后一个账户的 access_token,该 token 将用于请求中的模拟。如果设置为字符串,则该账户必须授予发起账户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予紧前身份 Service Account Token Creator IAM 角色,列表中第一个账户向发起账户授予此角色(模板化)。
polling_interval_seconds – 检查状态的轮询周期(秒)。
- get_task_instance(session)[source]¶
获取当前任务的任务实例。
- 参数:
session (sqlalchemy.orm.session.Session) – Sqlalchemy 会话
- class airflow.providers.google.cloud.triggers.dataproc.DataprocClusterTrigger(cluster_name, **kwargs)[source]¶
-
DataprocClusterTrigger 在 trigger worker 上运行以执行创建 Build 操作。
- 参数:
cluster_name (str) – 集群名称。
project_id – 作业运行所在的 Google Cloud 项目。
region – 处理请求所在的 Cloud Dataproc 区域。
gcp_conn_id – 可选,用于连接到 Google Cloud Platform 的连接 ID。
impersonation_chain – 可选的服务账号,用于使用短期凭据进行模拟,或账户链列表,需要获取列表中最后一个账户的 access_token,该 token 将用于请求中的模拟。如果设置为字符串,则该账户必须授予发起账户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予紧前身份 Service Account Token Creator IAM 角色,列表中第一个账户向发起账户授予此角色(模板化)。
polling_interval_seconds – 检查状态的轮询周期(秒)。
- safe_to_cancel()[source]¶
取消此触发器正在执行的外部作业是否安全。
这是为了避免因触发器自身停止而调用 asyncio.CancelledError 的情况。因为在这些情况下,我们不应该取消外部作业。
- class airflow.providers.google.cloud.triggers.dataproc.DataprocBatchTrigger(batch_id, **kwargs)[source]¶
-
DataprocCreateBatchTrigger 在 trigger worker 上运行以执行创建 Build 操作。
- 参数:
batch_id (str) – 构建 ID。
project_id – 作业运行所在的 Google Cloud 项目。
region – 处理请求所在的 Cloud Dataproc 区域。
gcp_conn_id – 可选,用于连接到 Google Cloud Platform 的连接 ID。
impersonation_chain – 可选的服务账号,用于使用短期凭据进行模拟,或账户链列表,需要获取列表中最后一个账户的 access_token,该 token 将用于请求中的模拟。如果设置为字符串,则该账户必须授予发起账户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予紧前身份 Service Account Token Creator IAM 角色,列表中第一个账户向发起账户授予此角色(模板化)。
polling_interval_seconds – 检查状态的轮询周期(秒)。
- class airflow.providers.google.cloud.triggers.dataproc.DataprocDeleteClusterTrigger(cluster_name, end_time, metadata=(), **kwargs)[source]¶
-
DataprocDeleteClusterTrigger 在 trigger worker 上运行以执行删除集群操作。
- 参数:
cluster_name (str) – 集群名称
end_time (float) – 检查集群状态剩余的时间(秒)
project_id – 集群所属的 Google Cloud 项目 ID
region – 处理请求的 Cloud Dataproc 区域
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据
gcp_conn_id – 获取连接信息时使用的连接 ID。
impersonation_chain – 可选的服务账号,用于使用短期凭据进行模拟,或账户链列表,需要获取列表中最后一个账户的 access_token,该 token 将用于请求中的模拟。如果设置为字符串,则该账户必须授予发起账户 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予紧前身份 Service Account Token Creator IAM 角色,列表中第一个账户向发起账户授予此角色。
polling_interval_seconds – 检查集群状态之间休眠的时间(秒)