airflow.providers.google.cloud.sensors.dataplex¶
本模块包含 Google Dataplex 传感器。
类¶
Dataplex 任务状态。 |
|
检查 Dataplex 任务的状态。 |
|
检查 Dataplex 数据质量作业的状态。 |
|
检查 Dataplex 数据概要分析作业的状态。 |
模块内容¶
- class airflow.providers.google.cloud.sensors.dataplex.DataplexTaskStateSensor(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[源码]¶
继承自:
airflow.sensors.base.BaseSensorOperator
检查 Dataplex 任务的状态。
- 参数:
project_id (str) – 必需。任务所属的 Google Cloud 项目 ID。
region (str) – 必需。任务所属的 Google Cloud 区域 ID。
lake_id (str) – 必需。任务所属的 Google Cloud lake ID。
dataplex_task_id (str) – 必需。任务标识符。
api_version (str) – 将请求的 API 版本,例如 'v3'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 用于使用短期凭据模拟的可选服务帐号,或者获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,则该帐号必须授予发起帐号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予紧邻的前一个身份 Service Account Token Creator IAM 角色,列表中第一个帐号将此角色授予发起帐号(模板化)。
- class airflow.providers.google.cloud.sensors.dataplex.DataplexDataQualityJobStatusSensor(project_id, region, data_scan_id, job_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, fail_on_dq_failure=False, result_timeout=60.0 * 10, start_sensor_time=None, *args, **kwargs)[源码]¶
继承自:
airflow.sensors.base.BaseSensorOperator
检查 Dataplex 数据质量作业的状态。
- 参数:
project_id (str) – 必需。任务所属的 Google Cloud 项目 ID。
region (str) – 必需。任务所属的 Google Cloud 区域 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
job_id (str) – 必需。作业 ID。
api_version (str) – 将请求的 API 版本,例如 'v3'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 用于使用短期凭据模拟的可选服务帐号,或者获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,则该帐号必须授予发起帐号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予紧邻的前一个身份 Service Account Token Creator IAM 角色,列表中第一个帐号将此角色授予发起帐号(模板化)。
result_timeout (float) – 运算符等待数据质量扫描结果的秒数。如果在指定秒数后未找到结果,则抛出异常。
fail_on_dq_failure (bool) – 如果设置为 True 且并非所有数据质量扫描规则都已通过,则会抛出异常。如果设置为 False 且并非所有数据质量扫描规则都已通过,则执行将成功结束。
- 返回:
布尔值,指示作业运行是否已达到
DataScanJob.State.SUCCEEDED
状态。
- class airflow.providers.google.cloud.sensors.dataplex.DataplexDataProfileJobStatusSensor(project_id, region, data_scan_id, job_id, api_version='v1', retry=DEFAULT, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, result_timeout=60.0 * 10, start_sensor_time=None, *args, **kwargs)[源码]¶
继承自:
airflow.sensors.base.BaseSensorOperator
检查 Dataplex 数据概要分析作业的状态。
- 参数:
project_id (str) – 必需。任务所属的 Google Cloud 项目 ID。
region (str) – 必需。任务所属的 Google Cloud 区域 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
job_id (str) – 必需。作业 ID。
api_version (str) – 将请求的 API 版本,例如 'v3'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 用于使用短期凭据模拟的可选服务帐号,或者获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,则该帐号必须授予发起帐号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须授予紧邻的前一个身份 Service Account Token Creator IAM 角色,列表中第一个帐号将此角色授予发起帐号(模板化)。
result_timeout (float) – 运算符等待数据质量扫描结果的秒数。如果在指定秒数后未找到结果,则抛出异常。
- 返回:
布尔值,指示作业运行是否已达到
DataScanJob.State.SUCCEEDED
状态。