airflow.providers.google.cloud.sensors.dataplex

本模块包含 Google Dataplex 传感器。

TaskState

Dataplex 任务状态。

DataplexTaskStateSensor

检查 Dataplex 任务的状态。

DataplexDataQualityJobStatusSensor

检查 Dataplex 数据质量作业的状态。

DataplexDataProfileJobStatusSensor

检查 Dataplex 数据概要分析作业的状态。

模块内容

class airflow.providers.google.cloud.sensors.dataplex.TaskState[源码]

Dataplex 任务状态。

STATE_UNSPECIFIED = 0[源码]
ACTIVE = 1[源码]
CREATING = 2[源码]
DELETING = 3[源码]
ACTION_REQUIRED = 4[源码]
class airflow.providers.google.cloud.sensors.dataplex.DataplexTaskStateSensor(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[源码]

继承自: airflow.sensors.base.BaseSensorOperator

检查 Dataplex 任务的状态。

参数:
  • project_id (str) – 必需。任务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域 ID。

  • lake_id (str) – 必需。任务所属的 Google Cloud lake ID。

  • dataplex_task_id (str) – 必需。任务标识符。

  • api_version (str) – 将请求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 用于使用短期凭据模拟的可选服务帐号,或者获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,则该帐号必须授予发起帐号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予紧邻的前一个身份 Service Account Token Creator IAM 角色,列表中第一个帐号将此角色授予发起帐号(模板化)。

template_fields = ['dataplex_task_id'][源码]
project_id[源码]
region[源码]
lake_id[源码]
dataplex_task_id[源码]
api_version = 'v1'[源码]
retry[源码]
metadata = ()[源码]
gcp_conn_id = 'google_cloud_default'[源码]
impersonation_chain = None[源码]
poke(context)[源码]

派生此类时重写此方法。

class airflow.providers.google.cloud.sensors.dataplex.DataplexDataQualityJobStatusSensor(project_id, region, data_scan_id, job_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, fail_on_dq_failure=False, result_timeout=60.0 * 10, start_sensor_time=None, *args, **kwargs)[源码]

继承自: airflow.sensors.base.BaseSensorOperator

检查 Dataplex 数据质量作业的状态。

参数:
  • project_id (str) – 必需。任务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • job_id (str) – 必需。作业 ID。

  • api_version (str) – 将请求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 用于使用短期凭据模拟的可选服务帐号,或者获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,则该帐号必须授予发起帐号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予紧邻的前一个身份 Service Account Token Creator IAM 角色,列表中第一个帐号将此角色授予发起帐号(模板化)。

  • result_timeout (float) – 运算符等待数据质量扫描结果的秒数。如果在指定秒数后未找到结果,则抛出异常。

  • fail_on_dq_failure (bool) – 如果设置为 True 且并非所有数据质量扫描规则都已通过,则会抛出异常。如果设置为 False 且并非所有数据质量扫描规则都已通过,则执行将成功结束。

返回:

布尔值,指示作业运行是否已达到 DataScanJob.State.SUCCEEDED 状态。

template_fields = ['job_id'][源码]
project_id[源码]
region[源码]
data_scan_id[源码]
job_id[源码]
api_version = 'v1'[源码]
retry[源码]
metadata = ()[源码]
gcp_conn_id = 'google_cloud_default'[源码]
impersonation_chain = None[源码]
fail_on_dq_failure = False[源码]
result_timeout = 600.0[源码]
start_sensor_time = None[源码]
poke(context)[源码]

派生此类时重写此方法。

class airflow.providers.google.cloud.sensors.dataplex.DataplexDataProfileJobStatusSensor(project_id, region, data_scan_id, job_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, result_timeout=60.0 * 10, start_sensor_time=None, *args, **kwargs)[源码]

继承自: airflow.sensors.base.BaseSensorOperator

检查 Dataplex 数据概要分析作业的状态。

参数:
  • project_id (str) – 必需。任务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • job_id (str) – 必需。作业 ID。

  • api_version (str) – 将请求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 用于使用短期凭据模拟的可选服务帐号,或者获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,则该帐号必须授予发起帐号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予紧邻的前一个身份 Service Account Token Creator IAM 角色,列表中第一个帐号将此角色授予发起帐号(模板化)。

  • result_timeout (float) – 运算符等待数据质量扫描结果的秒数。如果在指定秒数后未找到结果,则抛出异常。

返回:

布尔值,指示作业运行是否已达到 DataScanJob.State.SUCCEEDED 状态。

template_fields = ['job_id'][源码]
project_id[源码]
region[源码]
data_scan_id[源码]
job_id[源码]
api_version = 'v1'[源码]
retry[源码]
metadata = ()[源码]
gcp_conn_id = 'google_cloud_default'[源码]
impersonation_chain = None[源码]
result_timeout = 600.0[源码]
start_sensor_time = None[源码]
poke(context)[源码]

派生此类时重写此方法。

此条目是否有帮助?