airflow.providers.google.cloud.hooks.dataplex

该模块包含 Google Dataplex hook。

模块内容

DataplexHook

用于 Google Dataplex 的 Hook。

DataplexAsyncHook

用于 Google Cloud Dataplex API 的异步 Hook。

属性

PATH_DATA_SCAN

airflow.providers.google.cloud.hooks.dataplex.PATH_DATA_SCAN = 'projects/{project_id}/locations/{region}/dataScans/{data_scan_id}'[来源]
exception airflow.providers.google.cloud.hooks.dataplex.AirflowDataQualityScanException[来源]

基类: airflow.exceptions.AirflowException

当数据质量扫描规则失败时引发。

exception airflow.providers.google.cloud.hooks.dataplex.AirflowDataQualityScanResultTimeoutException[来源]

基类: airflow.exceptions.AirflowException

在指定秒数后未找到结果时引发。

class airflow.providers.google.cloud.hooks.dataplex.DataplexHook(api_version='v1', gcp_conn_id='google_cloud_default', impersonation_chain=None, location=None, **kwargs)[来源]

基类: airflow.providers.google.common.hooks.base_google.GoogleBaseHook

用于 Google Dataplex 的 Hook。

参数
  • api_version (str) – 将请求的 API 版本,例如 ‘v3’。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据模拟,或获取列表中最后一个帐户的 access_token 所需的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予发起帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须将“服务帐户令牌创建者”IAM 角色授予紧随其后的标识,列表中的第一个帐户将此角色授予发起帐户(模板化)。

get_dataplex_client()[来源]

返回 DataplexServiceClient。

get_dataplex_data_scan_client()[来源]

返回 DataScanServiceClient。

wait_for_operation(timeout, operation)[来源]

等待长时间运行的操作完成。

create_task(project_id, region, lake_id, body, dataplex_task_id, validate_only=None, retry=DEFAULT, timeout=None, metadata=())[来源]

在湖中创建任务资源。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.Task) – 必需。请求正文包含 Task 的实例。

  • dataplex_task_id (str) – 必需。任务标识符。

  • validate_only (bool | None) – 可选。仅验证请求,但不执行修改。默认为 false。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

delete_task(project_id, region, lake_id, dataplex_task_id, retry=DEFAULT, timeout=None, metadata=())[source]

删除任务资源。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。

  • dataplex_task_id (str) – 必需。要删除的 Google Cloud 任务的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

list_tasks(project_id, region, lake_id, page_size=None, page_token=None, filter=None, order_by=None, retry=DEFAULT, timeout=None, metadata=())[source]

列出给定湖下的任务。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。

  • page_size (int | None) – 可选。要返回的最大任务数。服务可能会返回小于此值的值。如果未指定,则最多返回 10 个任务。最大值为 1000;高于 1000 的值将被强制转换为 1000。

  • page_token (str | None) – 可选。从先前的 ListZones 调用收到的页面令牌。提供此令牌以检索后续页面。分页时,提供给 ListZones 的所有其他参数必须与提供页面令牌的调用匹配。

  • filter (str | None) – 可选。筛选请求。

  • order_by (str | None) – 可选。结果的排序依据字段。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

get_task(project_id, region, lake_id, dataplex_task_id, retry=DEFAULT, timeout=None, metadata=())[source]

获取任务资源。

参数
  • project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。任务所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。

  • dataplex_task_id (str) – 必需。要检索的 Google Cloud 任务的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

delete_lake(project_id, region, lake_id, retry=DEFAULT, timeout=None, metadata=())[source]

删除湖泊资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。要删除的 Google Cloud 湖泊的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

create_lake(project_id, region, lake_id, body, validate_only=None, retry=DEFAULT, timeout=None, metadata=())[source]

创建湖泊资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。湖泊标识符。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.Lake) – 必需。请求正文包含 Lake 的实例。

  • validate_only (bool | None) – 可选。仅验证请求,但不执行修改。默认为 false。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

get_lake(project_id, region, lake_id, retry=DEFAULT, timeout=None, metadata=())[source]

获取湖泊资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。要检索的 Google Cloud 湖泊的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

create_zone(project_id, region, lake_id, zone_id, body, retry=DEFAULT, timeout=None, metadata=())[source]

在湖泊内创建区域资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。要检索的 Google Cloud 湖泊的 ID。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.Zone) – 必需。请求正文包含 Zone 的实例。

  • zone_id (str) – 必需。区域标识符。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

delete_zone(project_id, region, lake_id, zone_id, retry=DEFAULT, timeout=None, metadata=())[source]

删除一个区域资源。在删除区域之前,必须删除区域内的所有资产。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。要检索的 Google Cloud 湖泊的 ID。

  • zone_id (str) – 必需。区域标识符。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

create_asset(project_id, region, lake_id, zone_id, asset_id, body, retry=DEFAULT, timeout=None, metadata=())[source]

创建一个资产资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。要检索的 Google Cloud 湖泊的 ID。

  • zone_id (str) – 必需。区域标识符。

  • asset_id (str) – 必需。资产标识符。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.Asset) – 必需。请求正文包含资产的实例。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

delete_asset(project_id, region, lake_id, asset_id, zone_id, retry=DEFAULT, timeout=None, metadata=())[source]

删除一个资产资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。要检索的 Google Cloud 湖泊的 ID。

  • zone_id (str) – 必需。区域标识符。

  • asset_id (str) – 必需。资产标识符。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

create_data_scan(project_id, region, body, data_scan_id=None, retry=DEFAULT, timeout=None, metadata=())[source]

创建 DataScan 资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str | None) – 必需。数据质量扫描标识符。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

run_data_scan(project_id, region, data_scan_id, retry=DEFAULT, timeout=None, metadata=())[source]

按需运行 DataScan 的执行。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

get_data_scan_job(project_id, region, data_scan_id=None, job_id=None, retry=DEFAULT, timeout=None, metadata=())[source]

获取 DataScan 作业资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str | None) – 必需。数据质量扫描标识符。

  • job_id (str | None) – 必需。DataScanJob 的资源名称:projects/{project_id}/locations/{region}/dataScans/{data_scan_id}/jobs/{data_scan_job_id}

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

wait_for_data_scan_job(data_scan_id, job_id=None, project_id=PROVIDE_PROJECT_ID, region=None, wait_time=10, result_timeout=None)[source]

等待 Dataplex 数据扫描作业。

参数
  • job_id (str | None) – 必需。要等待的 job_id。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • region (str | None) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • project_id (str) – 可选。Google Cloud 项目 ID。

  • wait_time (int) – 检查之间的时间间隔(以秒为单位)。

  • result_timeout (float | None) – 运算符将等待数据质量扫描结果的时间(以秒为单位)。如果在指定秒数后未找到结果,则抛出异常。

get_data_scan(project_id, region, data_scan_id, retry=DEFAULT, timeout=None, metadata=())[source]

获取 DataScan 资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

update_data_scan(project_id, region, data_scan_id, body, update_mask=None, retry=DEFAULT, timeout=None, metadata=())[source]

更新 DataScan 资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。

  • update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 必需。要更新的字段的掩码。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

delete_data_scan(project_id, region, data_scan_id, retry=DEFAULT, timeout=None, metadata=())[source]

删除 DataScan 资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

list_data_scan_jobs(project_id, region, data_scan_id, retry=DEFAULT, timeout=None, metadata=())[source]

列出给定 DataScan 下的 DataScanJobs。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

class airflow.providers.google.cloud.hooks.dataplex.DataplexAsyncHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.common.hooks.base_google.GoogleBaseAsyncHook

用于 Google Cloud Dataplex API 的异步 Hook。

钩子中所有使用 project_id 的方法都必须使用关键字参数而不是位置参数调用。

sync_hook_class[source]
async get_dataplex_data_scan_client()[source]

返回 DataScanServiceAsyncClient。

async get_data_scan_job(project_id, region, data_scan_id=None, job_id=None, retry=DEFAULT, timeout=None, metadata=())[source]

获取 DataScan 作业资源。

参数
  • project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。

  • data_scan_id (str | None) – 必需。DataScan 标识符。

  • job_id (str | None) – 必需。DataScanJob 的资源名称:projects/{project_id}/locations/{region}/dataScans/{data_scan_id}/jobs/{data_scan_job_id}

  • retry (google.api_core.retry_async.AsyncRetry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。

这个条目有帮助吗?