airflow.providers.google.cloud.hooks.dataplex
¶
该模块包含 Google Dataplex hook。
模块内容¶
类¶
用于 Google Dataplex 的 Hook。 |
|
用于 Google Cloud Dataplex API 的异步 Hook。 |
属性¶
- airflow.providers.google.cloud.hooks.dataplex.PATH_DATA_SCAN = 'projects/{project_id}/locations/{region}/dataScans/{data_scan_id}'[来源]¶
- exception airflow.providers.google.cloud.hooks.dataplex.AirflowDataQualityScanException[来源]¶
基类:
airflow.exceptions.AirflowException
当数据质量扫描规则失败时引发。
- exception airflow.providers.google.cloud.hooks.dataplex.AirflowDataQualityScanResultTimeoutException[来源]¶
基类:
airflow.exceptions.AirflowException
在指定秒数后未找到结果时引发。
- class airflow.providers.google.cloud.hooks.dataplex.DataplexHook(api_version='v1', gcp_conn_id='google_cloud_default', impersonation_chain=None, location=None, **kwargs)[来源]¶
基类:
airflow.providers.google.common.hooks.base_google.GoogleBaseHook
用于 Google Dataplex 的 Hook。
- 参数
api_version (str) – 将请求的 API 版本,例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据模拟,或获取列表中最后一个帐户的 access_token 所需的链式帐户列表,该帐户将在请求中被模拟。如果设置为字符串,则该帐户必须授予发起帐户“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须将“服务帐户令牌创建者”IAM 角色授予紧随其后的标识,列表中的第一个帐户将此角色授予发起帐户(模板化)。
- create_task(project_id, region, lake_id, body, dataplex_task_id, validate_only=None, retry=DEFAULT, timeout=None, metadata=())[来源]¶
在湖中创建任务资源。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。
body (dict[str, Any] | google.cloud.dataplex_v1.types.Task) – 必需。请求正文包含 Task 的实例。
dataplex_task_id (str) – 必需。任务标识符。
validate_only (bool | None) – 可选。仅验证请求,但不执行修改。默认为 false。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- delete_task(project_id, region, lake_id, dataplex_task_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
删除任务资源。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。
dataplex_task_id (str) – 必需。要删除的 Google Cloud 任务的 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- list_tasks(project_id, region, lake_id, page_size=None, page_token=None, filter=None, order_by=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
列出给定湖下的任务。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。
page_size (int | None) – 可选。要返回的最大任务数。服务可能会返回小于此值的值。如果未指定,则最多返回 10 个任务。最大值为 1000;高于 1000 的值将被强制转换为 1000。
page_token (str | None) – 可选。从先前的 ListZones 调用收到的页面令牌。提供此令牌以检索后续页面。分页时,提供给 ListZones 的所有其他参数必须与提供页面令牌的调用匹配。
filter (str | None) – 可选。筛选请求。
order_by (str | None) – 可选。结果的排序依据字段。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- get_task(project_id, region, lake_id, dataplex_task_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
获取任务资源。
- 参数
project_id (str) – 必需。任务所属的 Google Cloud 项目的 ID。
region (str) – 必需。任务所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。任务所属的 Google Cloud 湖的 ID。
dataplex_task_id (str) – 必需。要检索的 Google Cloud 任务的 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- delete_lake(project_id, region, lake_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
删除湖泊资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。要删除的 Google Cloud 湖泊的 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- create_lake(project_id, region, lake_id, body, validate_only=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
创建湖泊资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。湖泊标识符。
body (dict[str, Any] | google.cloud.dataplex_v1.types.Lake) – 必需。请求正文包含 Lake 的实例。
validate_only (bool | None) – 可选。仅验证请求,但不执行修改。默认为 false。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- get_lake(project_id, region, lake_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
获取湖泊资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。要检索的 Google Cloud 湖泊的 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- create_zone(project_id, region, lake_id, zone_id, body, retry=DEFAULT, timeout=None, metadata=())[source]¶
在湖泊内创建区域资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。要检索的 Google Cloud 湖泊的 ID。
body (dict[str, Any] | google.cloud.dataplex_v1.types.Zone) – 必需。请求正文包含 Zone 的实例。
zone_id (str) – 必需。区域标识符。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- delete_zone(project_id, region, lake_id, zone_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
删除一个区域资源。在删除区域之前,必须删除区域内的所有资产。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。要检索的 Google Cloud 湖泊的 ID。
zone_id (str) – 必需。区域标识符。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- create_asset(project_id, region, lake_id, zone_id, asset_id, body, retry=DEFAULT, timeout=None, metadata=())[source]¶
创建一个资产资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。要检索的 Google Cloud 湖泊的 ID。
zone_id (str) – 必需。区域标识符。
asset_id (str) – 必需。资产标识符。
body (dict[str, Any] | google.cloud.dataplex_v1.types.Asset) – 必需。请求正文包含资产的实例。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- delete_asset(project_id, region, lake_id, asset_id, zone_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
删除一个资产资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。要检索的 Google Cloud 湖泊的 ID。
zone_id (str) – 必需。区域标识符。
asset_id (str) – 必需。资产标识符。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- create_data_scan(project_id, region, body, data_scan_id=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
创建 DataScan 资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str | None) – 必需。数据质量扫描标识符。
body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- run_data_scan(project_id, region, data_scan_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
按需运行 DataScan 的执行。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- get_data_scan_job(project_id, region, data_scan_id=None, job_id=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
获取 DataScan 作业资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str | None) – 必需。数据质量扫描标识符。
job_id (str | None) – 必需。DataScanJob 的资源名称:projects/{project_id}/locations/{region}/dataScans/{data_scan_id}/jobs/{data_scan_job_id}
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- wait_for_data_scan_job(data_scan_id, job_id=None, project_id=PROVIDE_PROJECT_ID, region=None, wait_time=10, result_timeout=None)[source]¶
等待 Dataplex 数据扫描作业。
- get_data_scan(project_id, region, data_scan_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
获取 DataScan 资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- update_data_scan(project_id, region, data_scan_id, body, update_mask=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
更新 DataScan 资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。
update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 必需。要更新的字段的掩码。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- delete_data_scan(project_id, region, data_scan_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
删除 DataScan 资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- list_data_scan_jobs(project_id, region, data_scan_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
列出给定 DataScan 下的 DataScanJobs。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。
- class airflow.providers.google.cloud.hooks.dataplex.DataplexAsyncHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.common.hooks.base_google.GoogleBaseAsyncHook
用于 Google Cloud Dataplex API 的异步 Hook。
钩子中所有使用 project_id 的方法都必须使用关键字参数而不是位置参数调用。
- async get_data_scan_job(project_id, region, data_scan_id=None, job_id=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
获取 DataScan 作业资源。
- 参数
project_id (str) – 必需。湖泊所属的 Google Cloud 项目的 ID。
region (str) – 必需。湖泊所属的 Google Cloud 区域的 ID。
data_scan_id (str | None) – 必需。DataScan 标识符。
job_id (str | None) – 必需。DataScanJob 的资源名称:projects/{project_id}/locations/{region}/dataScans/{data_scan_id}/jobs/{data_scan_job_id}
retry (google.api_core.retry_async.AsyncRetry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定 retry,则超时适用于每次尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的额外元数据。