airflow.providers.google.cloud.sensors.dataplex

此模块包含 Google Dataplex 传感器。

模块内容

TaskState

Dataplex 任务状态。

DataplexTaskStateSensor

检查 Dataplex 任务的状态。

DataplexDataQualityJobStatusSensor

检查 Dataplex 数据质量作业的状态。

DataplexDataProfileJobStatusSensor

检查 Dataplex 数据剖析作业的状态。

class airflow.providers.google.cloud.sensors.dataplex.TaskState[源代码]

Dataplex 任务状态。

STATE_UNSPECIFIED = 0[源代码]
ACTIVE = 1[源代码]
CREATING = 2[源代码]
DELETING = 3[源代码]
ACTION_REQUIRED = 4[源代码]
class airflow.providers.google.cloud.sensors.dataplex.DataplexTaskStateSensor(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[源代码]

基类: airflow.sensors.base.BaseSensorOperator

检查 Dataplex 任务的状态。

参数
  • project_id (str) – 必需。该任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。该任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。该任务所属的 Google Cloud 湖的 ID。

  • dataplex_task_id (str) – 必需。任务标识符。

  • api_version (str) – 将被请求的 API 版本,例如 “v3”。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或获取列表中最后一个帐户的 access_token 所需的帐户链列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予发起帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中标识必须将“服务帐户令牌创建者”IAM 角色授予紧接的前一个标识,列表中的第一个帐户将此角色授予发起帐户(可模板化)。

template_fields = ['dataplex_task_id'][源代码]
poke(context)[源代码]

在派生此类时覆盖。

class airflow.providers.google.cloud.sensors.dataplex.DataplexDataQualityJobStatusSensor(project_id, region, data_scan_id, job_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, fail_on_dq_failure=False, result_timeout=60.0 * 10, start_sensor_time=None, *args, **kwargs)[来源]

基类: airflow.sensors.base.BaseSensorOperator

检查 Dataplex 数据质量作业的状态。

参数
  • project_id (str) – 必需。该任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。该任务所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • job_id (str) – 必需。作业 ID。

  • api_version (str) – 将被请求的 API 版本,例如 “v3”。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或获取列表中最后一个帐户的 access_token 所需的帐户链列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予发起帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中标识必须将“服务帐户令牌创建者”IAM 角色授予紧接的前一个标识,列表中的第一个帐户将此角色授予发起帐户(可模板化)。

  • result_timeout (float) – 操作符将等待数据质量扫描结果的秒数值。如果在指定的秒数后未找到结果,则会抛出异常。

  • fail_on_dq_failure (bool) – 如果设置为 true 且并非所有数据质量扫描规则都已通过,则会抛出异常。如果设置为 false 且并非所有数据质量扫描规则都已通过,则执行将成功完成。

返回

布尔值,指示作业运行是否已达到 DataScanJob.State.SUCCEEDED 状态。

template_fields = ['job_id'][来源]
poke(context)[来源]

在派生此类时覆盖。

class airflow.providers.google.cloud.sensors.dataplex.DataplexDataProfileJobStatusSensor(project_id, region, data_scan_id, job_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, result_timeout=60.0 * 10, start_sensor_time=None, *args, **kwargs)[来源]

基类: airflow.sensors.base.BaseSensorOperator

检查 Dataplex 数据剖析作业的状态。

参数
  • project_id (str) – 必需。该任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。该任务所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • job_id (str) – 必需。作业 ID。

  • api_version (str) – 将被请求的 API 版本,例如 “v3”。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或获取列表中最后一个帐户的 access_token 所需的帐户链列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予发起帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中标识必须将“服务帐户令牌创建者”IAM 角色授予紧接的前一个标识,列表中的第一个帐户将此角色授予发起帐户(可模板化)。

  • result_timeout (float) – 操作符将等待数据质量扫描结果的秒数值。如果在指定的秒数后未找到结果,则会抛出异常。

返回

布尔值,指示作业运行是否已达到 DataScanJob.State.SUCCEEDED 状态。

template_fields = ['job_id'][来源]
poke(context)[来源]

在派生此类时覆盖。

此条目是否有帮助?