airflow.providers.google.cloud.triggers.dataplex

此模块包含 Google Dataplex 触发器。

DataplexDataQualityJobTrigger

DataplexDataQualityJobTrigger 在触发器工作进程上运行,并等待作业进入 SUCCEEDED 状态。

DataplexDataProfileJobTrigger

DataplexDataProfileJobTrigger 在触发器工作进程上运行,并等待作业进入 SUCCEEDED 状态。

模块内容

class airflow.providers.google.cloud.triggers.dataplex.DataplexDataQualityJobTrigger(job_id, data_scan_id, project_id, region, gcp_conn_id='google_cloud_default', polling_interval_seconds=10, impersonation_chain=None, **kwargs)[source]

基类:airflow.triggers.base.BaseTrigger

DataplexDataQualityJobTrigger 在触发器工作进程上运行,并等待作业进入 SUCCEEDED 状态。

参数:
  • job_id (str | None) – 可选。Dataplex 作业的 ID。

  • data_scan_id (str) – 必需。DataScan 标识符。

  • project_id (str | None) – 作业运行所在的 Google Cloud 项目。

  • region (str) – 作业所属的 Google Cloud 区域的 ID。

  • gcp_conn_id (str) – 可选,用于连接到 Google Cloud Platform 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,用于使用短期凭据进行模拟;或者获取列表中最后一个帐号的访问令牌所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须授予发起帐号 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向直接前序的身份授予 Service Account Token Creator IAM 角色,列表中第一个帐号将此角色授予发起帐号(模板化)。

  • polling_interval_seconds (int) – 检查状态的轮询间隔(秒)。

job_id[source]
data_scan_id[source]
project_id[source]
region[source]
gcp_conn_id = 'google_cloud_default'[source]
polling_interval_seconds = 10[source]
impersonation_chain = None[source]
serialize()[source]

返回重建此触发器所需的信息。

返回:

包含(类路径,重新实例化所需的关键字参数)的元组。

async run()[source]

在异步上下文中运行触发器。

触发器在想要触发事件时应产生 (yield) 一个 Event,并在完成后返回 None。因此,单事件触发器应产生 (yield) 事件后立即返回。

如果它产生 (yield),很可能会很快恢复,但也有可能不会(例如,如果工作负载正在移至另一个触发器进程,或者多事件触发器被用于单事件任务延迟)。

无论哪种情况,Trigger 类都应假定它们将被持久化,然后在不再需要时依赖于 cleanup() 方法被调用。

class airflow.providers.google.cloud.triggers.dataplex.DataplexDataProfileJobTrigger(job_id, data_scan_id, project_id, region, gcp_conn_id='google_cloud_default', polling_interval_seconds=10, impersonation_chain=None, **kwargs)[source]

基类:airflow.triggers.base.BaseTrigger

DataplexDataProfileJobTrigger 在触发器工作进程上运行,并等待作业进入 SUCCEEDED 状态。

参数:
  • job_id (str | None) – 可选。Dataplex 作业的 ID。

  • data_scan_id (str) – 必需。DataScan 标识符。

  • project_id (str | None) – 作业运行所在的 Google Cloud 项目。

  • region (str) – 作业所属的 Google Cloud 区域的 ID。

  • gcp_conn_id (str) – 可选,用于连接到 Google Cloud Platform 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,用于使用短期凭据进行模拟;或者获取列表中最后一个帐号的访问令牌所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须授予发起帐号 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向直接前序的身份授予 Service Account Token Creator IAM 角色,列表中第一个帐号将此角色授予发起帐号(模板化)。

  • polling_interval_seconds (int) – 检查状态的轮询间隔(秒)。

job_id[source]
data_scan_id[source]
project_id[source]
region[source]
gcp_conn_id = 'google_cloud_default'[source]
polling_interval_seconds = 10[source]
impersonation_chain = None[source]
serialize()[source]

返回重建此触发器所需的信息。

返回:

包含(类路径,重新实例化所需的关键字参数)的元组。

async run()[source]

在异步上下文中运行触发器。

触发器在想要触发事件时应产生 (yield) 一个 Event,并在完成后返回 None。因此,单事件触发器应产生 (yield) 事件后立即返回。

如果它产生 (yield),很可能会很快恢复,但也有可能不会(例如,如果工作负载正在移至另一个触发器进程,或者多事件触发器被用于单事件任务延迟)。

无论哪种情况,Trigger 类都应假定它们将被持久化,然后在不再需要时依赖于 cleanup() 方法被调用。

此条目有帮助吗?