airflow.providers.google.cloud.operators.dataplex¶
此模块包含 Google Dataplex 操作符。
类¶
在 lake 中创建一个 task 资源。 |
|
删除 task 资源。 |
|
列出指定 lake 下的 tasks。 |
|
获取 task 资源。 |
|
在 lake 中创建一个 lake 资源。 |
|
删除 lake 资源。 |
|
创建一个 DataScan 资源。 |
|
获取 DataScan 资源。 |
|
删除 DataScan 资源。 |
|
运行 DataScan 的按需执行。 |
|
获取 Data Scan Job 资源。 |
|
创建一个 DataScan Data Profile 资源。 |
|
获取 DataScan DataProfile 资源。 |
|
删除 DataScan DataProfile 资源。 |
|
运行 DataScan Data Profile Scan 的按需执行。 |
|
获取 DataScan Data Profile Job 资源。 |
|
在 Lake 中创建一个 Zone 资源。 |
|
删除 Zone 资源。必须先删除 Zone 内的所有 assets,然后才能删除 Zone。 |
|
创建一个 Asset 资源。 |
|
删除 asset 资源。 |
|
所有 Dataplex Catalog 操作符的基类。 |
|
创建一个 EntryGroup 资源。 |
|
获取 EntryGroup 资源。 |
|
删除 EntryGroup 资源。 |
|
列出 EntryGroup 资源。 |
|
更新 EntryGroup 资源。 |
|
创建一个 EntryType 资源。 |
|
获取 EntryType 资源。 |
|
删除 EntryType 资源。 |
|
列出 EntryType 资源。 |
|
更新 EntryType 资源。 |
|
创建一个 AspectType 资源。 |
|
获取 AspectType 资源。 |
|
列出 AspectType 资源。 |
|
更新 AspectType 资源。 |
|
删除 AspectType 资源。 |
|
创建一个 Entry 资源。 |
|
获取 Entry 资源。 |
|
列出 Entry 资源。 |
|
根据指定的查询和范围搜索 Entries。 |
|
使用源系统上的权限按名称查找单个 Entry。 |
|
更新 Entry 资源。 |
|
删除 Entry 资源。 |
模块内容¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateTaskOperator(project_id, region, lake_id, body, dataplex_task_id, validate_only=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
在 lake 中创建一个 task 资源。
- 参数:
project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。
region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。
dataplex_task_id (str) – 必需。Task 标识符。
validate_only (bool | None) – 可选。仅验证请求,但不执行更改。默认为 false。
api_version (str) – 将请求的 API 版本,例如 'v3'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
asynchronous (bool) – 指示是否应异步创建 Dataplex task 的标志。这对于长时间运行的创建 tasks 并使用 DataplexTaskSensor 异步等待它们非常有用。
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteTaskOperator(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除 task 资源。
- 参数:
project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。
region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。
dataplex_task_id (str) – 必需。Task 标识符。
api_version (str) – 将请求的 API 版本,例如 'v3'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- class airflow.providers.google.cloud.operators.dataplex.DataplexListTasksOperator(project_id, region, lake_id, page_size=None, page_token=None, filter=None, order_by=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
列出指定 lake 下的 tasks。
- 参数:
project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。
region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。
page_size (int | None) – 可选。要返回的最大 tasks 数量。服务返回的数量可能少于此值。如果未指定,则最多返回 10 个 tasks。最大值为 1000;超过 1000 的值将被强制设置为 1000。
page_token (str | None) – 可选。从之前的 ListZones 调用接收到的页面令牌。提供此令牌可检索后续页面。分页时,提供给 ListZones 的所有其他参数必须与提供页面令牌的调用相匹配。
filter (str | None) – 可选。过滤请求。
order_by (str | None) – 可选。结果的排序字段。
api_version (str) – 将请求的 API 版本,例如 'v3'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetTaskOperator(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取 task 资源。
- 参数:
project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。
region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。
dataplex_task_id (str) – 必需。Task 标识符。
api_version (str) – 将请求的 API 版本,例如 'v3'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateLakeOperator(project_id, region, lake_id, body, validate_only=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
在 lake 中创建一个 lake 资源。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
lake_id (str) – 必需。Lake 标识符。
validate_only (bool | None) – 可选。仅验证请求,但不执行更改。默认为 false。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
asynchronous (bool) – 指示 Dataplex lake 是否应异步创建的标志。这对于长时间运行的 lake 创建非常有用。
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteLakeOperator(project_id, region, lake_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除 lake 资源。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
lake_id (str) – 必需。Lake 标识符。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateOrUpdateDataQualityScanOperator(project_id, region, data_scan_id, body, api_version='v1', retry=DEFAULT, timeout=None, update_mask=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
创建一个 DataScan 资源。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。
data_scan_id (str) – 必需。数据质量扫描标识符。
update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 要更新的字段掩码。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- 返回:
Dataplex 数据扫描 ID
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取 DataScan 资源。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- 返回:
Dataplex 数据扫描
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除 DataScan 资源。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- 返回:
无
- class airflow.providers.google.cloud.operators.dataplex.DataplexRunDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, fail_on_dq_failure=False, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
运行 DataScan 的按需执行。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
asynchronous (bool) – 指示 Dataplex 作业应以异步方式运行的标志。这对于提交长时间运行的作业并使用 DataplexDataQualityJobStatusSensor 异步等待它们非常有用。
fail_on_dq_failure (bool) – 如果设置为 true 且并非所有数据质量扫描规则都已通过,则会抛出异常。如果设置为 false 且并非所有数据质量扫描规则都已通过,则执行将成功完成。
result_timeout (float) – 当标志 asynchronous = False 时,操作符将等待数据质量扫描结果的秒数。如果在指定的秒数后未找到结果,则抛出异常。
polling_interval_seconds (int) – 轮询作业完成之间的秒数。该值仅在可推迟模式下运行时考虑。必须大于 0。
deferrable (bool) – 在可推迟模式下运行操作符。
- 返回:
Dataplex 数据质量扫描作业 ID。
- class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataQualityScanResultOperator(project_id, region, data_scan_id, job_id=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, fail_on_dq_failure=False, wait_for_results=True, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取 Data Scan Job 资源。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
data_scan_id (str) – 必需。数据质量扫描标识符。
job_id (str | None) – 可选。数据质量扫描作业标识符。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,单位为秒。请注意,如果指定了
retry
,则超时应用于每次单独尝试。metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
fail_on_dq_failure (bool) – 如果设置为 true 且并非所有数据质量扫描规则都已通过,则会抛出异常。如果设置为 false 且并非所有数据质量扫描规则都已通过,则执行将成功完成。
wait_for_results (bool) – 指示是等待作业执行结果还是返回作业当前状态的标志。
result_timeout (float) – 当标志 wait_for_results = True 时,操作符将等待数据质量扫描结果的秒数。如果在指定的秒数后未找到结果,则抛出异常。
polling_interval_seconds (int) – 轮询作业完成之间的秒数。该值仅在可推迟模式下运行时考虑。必须大于 0。
deferrable (bool) – 在可推迟模式下运行操作符。
- 返回:
表示 DataScanJob 的字典。当作业以成功状态完成时,可以获取有关数据质量结果的信息。
- 类 airflow.providers.google.cloud.operators.dataplex.DataplexCreateOrUpdateDataProfileScanOperator(project_id, region, data_scan_id, body, api_version='v1', retry=DEFAULT, timeout=None, update_mask=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
创建一个 DataScan Data Profile 资源。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。
data_scan_id (str) – 必需。数据资料分析扫描标识符。
update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 要更新的字段掩码。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- 返回:
Dataplex 数据资料分析 ID
- 类 airflow.providers.google.cloud.operators.dataplex.DataplexGetDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取 DataScan DataProfile 资源。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
data_scan_id (str) – 必需。数据资料分析扫描标识符。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- 返回:
Dataplex 数据资料分析
- 类 airflow.providers.google.cloud.operators.dataplex.DataplexDeleteDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除 DataScan DataProfile 资源。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
data_scan_id (str) – 必需。数据资料分析扫描标识符。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- 返回:
无
- 类 airflow.providers.google.cloud.operators.dataplex.DataplexRunDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
运行 DataScan Data Profile Scan 的按需执行。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
data_scan_id (str) – 必需。数据资料分析扫描标识符。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
asynchronous (bool) – 指示应异步运行 Dataplex 作业的标志。这对于提交长时间运行的作业并使用 DataplexDataProfileJobStatusSensor 异步等待它们的结果非常有用。
result_timeout (float) – 当标志 asynchronous = False 时,操作符等待数据资料分析扫描结果的秒数。如果在指定的秒数后未找到结果,则抛出异常。
polling_interval_seconds (int) – 轮询作业完成之间的秒数。该值仅在可推迟模式下运行时考虑。必须大于 0。
deferrable (bool) – 在可推迟模式下运行操作符。
- 返回:
Dataplex 数据资料分析扫描作业 ID。
- 类 airflow.providers.google.cloud.operators.dataplex.DataplexGetDataProfileScanResultOperator(project_id, region, data_scan_id, job_id=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, wait_for_results=True, result_timeout=60.0 * 10, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取 DataScan Data Profile Job 资源。
- 参数:
project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。
region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。
data_scan_id (str) – 必需。数据资料分析扫描标识符。
job_id (str | None) – 可选。数据资料分析扫描作业标识符。
api_version (str) – 将要请求的 API 版本,例如 ‘v1’。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,单位为秒。请注意,如果指定了
retry
,则超时应用于每次单独尝试。metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
wait_for_results (bool) – 指示是等待作业执行结果还是返回作业当前状态的标志。
result_timeout (浮点数) – 以秒为单位的值,当标志 wait_for_results = True 时,operator 将等待数据概况扫描结果的时间。如果在指定秒数后未找到结果,则抛出异常。
- 返回:
表示 DataScanJob 的字典。当作业成功完成时,可获取数据概况结果的相关信息。
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateZoneOperator(project_id, region, lake_id, body, zone_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
在 Lake 中创建一个 Zone 资源。
- 参数:
project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。
region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。
body (字典[字符串, Any] | google.cloud.dataplex_v1.types.Zone) – 必需。请求正文包含一个 Zone 实例。
zone_id (字符串) – 必需。任务标识符。
api_version (str) – 将请求的 API 版本,例如 'v3'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- 返回:
Zone
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteZoneOperator(project_id, region, lake_id, zone_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除 Zone 资源。必须先删除 Zone 内的所有 assets,然后才能删除 Zone。
- 参数:
project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。
region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。
lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。
zone_id (字符串) – 必需。Zone 标识符。
api_version (str) – 将请求的 API 版本,例如 'v3'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- 返回:
无
- class airflow.providers.google.cloud.operators.dataplex.DataplexCreateAssetOperator(project_id, region, lake_id, body, zone_id, asset_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
创建一个 Asset 资源。
- 参数:
project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。
region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。
lake_id (字符串) – 必需。资产所属的 Google Cloud Lake 的 ID。
zone_id (字符串) – 必需。Zone 标识符。
asset_id (字符串) – 必需。Asset 标识符。
body (字典[字符串, Any] | google.cloud.dataplex_v1.types.Asset) – 必需。请求正文包含一个 Asset 实例。
api_version (str) – 将请求的 API 版本,例如 'v3'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- 返回:
Asset
- class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteAssetOperator(project_id, region, lake_id, zone_id, asset_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除 asset 资源。
- 参数:
project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。
region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。
lake_id (字符串) – 必需。资产所属的 Google Cloud Lake 的 ID。
zone_id (字符串) – 必需。Zone 标识符。
asset_id (字符串) – 必需。Asset 标识符。
api_version (str) – 将请求的 API 版本,例如 'v3'。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。
- 返回:
无
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogBaseOperator(project_id, location, gcp_conn_id='google_cloud_default', retry=DEFAULT, timeout=None, metadata=(), impersonation_chain=None, *args, **kwargs)[source]¶
Bases:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
所有 Dataplex Catalog 操作符的基类。
- 参数:
project_id (str) – Required. 使用服务的 Google Cloud 项目 ID。
location (str) – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id (str) – Optional. 用于连接到 Google Cloud 的连接 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – Optional. 提供给方法的附加元数据。
impersonation_chain (str | collections.abc.Sequence[str] | None) – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('project_id', 'location', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogCreateEntryGroupOperator(entry_group_id, entry_group_configuration, validate_request=False, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
创建一个 EntryGroup 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南: 创建 EntryGroup
- 参数:
entry_group_id (str) – Required. EntryGroup 标识符。
entry_group_configuration (google.cloud.dataplex_v1.types.EntryGroup | dict) – Required. EntryGroup 配置。更多详情请参阅 API 文档: https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.entryGroups#EntryGroup
validate_request (bool) – Optional. 如果设置,将执行请求验证,但不实际执行请求。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogGetEntryGroupOperator(entry_group_id, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
获取 EntryGroup 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南: 获取 EntryGroup
- 参数:
entry_group_id (str) – Required. EntryGroup 标识符。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogDeleteEntryGroupOperator(entry_group_id, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
删除 EntryGroup 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南: 删除 EntryGroup
- 参数:
entry_group_id (str) – Required. EntryGroup 标识符。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogListEntryGroupsOperator(page_size=None, page_token=None, filter_by=None, order_by=None, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
列出 EntryGroup 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南: 列出 EntryGroups
- 参数:
filter_by (str | None) – Optional. 应用于列表结果的过滤器。
order_by (str | None) – Optional. 用于对结果进行排序的字段。
page_size (int | None) – Optional. 每页返回的 EntryGroups 最大数量。
page_token (str | None) – Optional. 用于检索下一页结果的令牌。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('project_id', 'location', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogUpdateEntryGroupOperator(entry_group_id, entry_group_configuration, update_mask=None, validate_request=False, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
更新 EntryGroup 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南: 更新 EntryGroup
- 参数:
project_id – Required. 任务所属的 Google Cloud 项目 ID。
location – Required. 任务所属的 Google Cloud 区域 ID。
update_mask (list[str] | google.protobuf.field_mask_pb2.FieldMask | None) – Optional. 要覆盖条目组上其值的字段名称。如果此参数缺失或为空,则会覆盖所有可修改字段。如果请求正文中省略了此类非必需字段,则其值将被清空。
entry_group_id (str) – Required. 要更新的 EntryGroup ID。
entry_group_configuration (dict | google.cloud.dataplex_v1.types.EntryGroup) – Required. EntryGroup 的更新配置正文。更多详情请参阅 API 文档: https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.entryGroups#EntryGroup
validate_only – Optional. 服务验证请求,但不执行任何修改。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
gcp_conn_id – Optional. 获取连接信息时使用的连接 ID。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogCreateEntryTypeOperator(entry_type_id, entry_type_configuration, validate_request=False, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
创建一个 EntryType 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南: 创建 EntryType
- 参数:
entry_type_id (str) – Required. EntryType 标识符。
entry_type_configuration (google.cloud.dataplex_v1.types.EntryType | dict) – 必需。EntryType 配置。有关更多详细信息,请参阅 API 文档:https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.entryGroups#EntryGroup
validate_request (bool) – Optional. 如果设置,将执行请求验证,但不实际执行请求。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogGetEntryTypeOperator(entry_type_id, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
获取 EntryType 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南:获取 EntryType
- 参数:
entry_type_id (str) – Required. EntryType 标识符。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogDeleteEntryTypeOperator(entry_type_id, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
删除 EntryType 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南:删除 EntryType
- 参数:
entry_type_id (str) – Required. EntryType 标识符。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogListEntryTypesOperator(page_size=None, page_token=None, filter_by=None, order_by=None, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
列出 EntryType 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南:列出 EntryType
- 参数:
filter_by (str | None) – Optional. 应用于列表结果的过滤器。
order_by (str | None) – Optional. 用于对结果进行排序的字段。
page_size (int | None) – 可选。每页返回的最大 EntryType 数量。
page_token (str | None) – Optional. 用于检索下一页结果的令牌。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('project_id', 'location', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogUpdateEntryTypeOperator(entry_type_id, entry_type_configuration, update_mask=None, validate_request=False, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
更新 EntryType 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南:更新 EntryType
- 参数:
project_id – Required. 任务所属的 Google Cloud 项目 ID。
location – Required. 任务所属的 Google Cloud 区域 ID。
update_mask (list[str] | google.protobuf.field_mask_pb2.FieldMask | None) – Optional. 要覆盖条目组上其值的字段名称。如果此参数缺失或为空,则会覆盖所有可修改字段。如果请求正文中省略了此类非必需字段,则其值将被清空。
entry_type_id (str) – 必需。要更新的 EntryType 的 ID。
entry_type_configuration (dict | google.cloud.dataplex_v1.types.EntryType) – 必需。EntryType 更新后的配置主体。有关更多详细信息,请参阅 API 文档:https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.entryGroups#EntryGroup
validate_only – Optional. 服务验证请求,但不执行任何修改。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
gcp_conn_id – Optional. 获取连接信息时使用的连接 ID。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogCreateAspectTypeOperator(aspect_type_id, aspect_type_configuration, validate_request=False, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
创建一个 AspectType 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南:创建 AspectType
- 参数:
aspect_type_id (str) – 必需。AspectType 标识符。
aspect_type_configuration (google.cloud.dataplex_v1.types.AspectType | dict) – 必需。AspectType 配置。有关更多详细信息,请参阅 API 文档:https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.aspectTypes#AspectType
validate_request (bool) – Optional. 如果设置,将执行请求验证,但不实际执行请求。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogGetAspectTypeOperator(aspect_type_id, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
获取 AspectType 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南:获取 AspectType
- 参数:
aspect_type_id (str) – 必需。AspectType 标识符。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogListAspectTypesOperator(page_size=None, page_token=None, filter_by=None, order_by=None, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
列出 AspectType 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南:列出 AspectType
- 参数:
filter_by (str | None) – Optional. 应用于列表结果的过滤器。
order_by (str | None) – Optional. 用于对结果进行排序的字段。
page_size (int | None) – 可选。每页返回的最大 AspectType 数量。
page_token (str | None) – Optional. 用于检索下一页结果的令牌。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('project_id', 'location', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogUpdateAspectTypeOperator(aspect_type_id, aspect_type_configuration, update_mask=None, validate_request=False, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
更新 AspectType 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南:更新 AspectType
- 参数:
project_id – Required. 任务所属的 Google Cloud 项目 ID。
location – Required. 任务所属的 Google Cloud 区域 ID。
update_mask (list[str] | google.protobuf.field_mask_pb2.FieldMask | None) – Optional. 要覆盖条目组上其值的字段名称。如果此参数缺失或为空,则会覆盖所有可修改字段。如果请求正文中省略了此类非必需字段,则其值将被清空。
aspect_type_id (str) – 必需。要更新的 AspectType 的 ID。
aspect_type_configuration (dict (字典) | google.cloud.dataplex_v1.types.AspectType) – 必需。AspectType 更新后的配置主体。有关更多详情,请参阅 API 文档:https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.aspectTypes#AspectType
validate_only – Optional. 服务验证请求,但不执行任何修改。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
gcp_conn_id – Optional. 获取连接信息时使用的连接 ID。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogDeleteAspectTypeOperator(aspect_type_id, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
删除 AspectType 资源。
另请参阅
要详细了解如何使用此运算符,请参阅以下指南:Delete an AspectType
- 参数:
aspect_type_id (str) – 必需。AspectType 标识符。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogCreateEntryOperator(entry_id, entry_group_id, entry_configuration, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
创建一个 Entry 资源。
另请参阅
要详细了解如何使用此运算符,请参阅以下指南:Create an Entry
- 参数:
entry_id (str (字符串)) – 必需。条目标识符。它必须在条目组内唯一。与 Google Cloud 资源对应的条目使用基于完整资源名称的条目 ID 格式。格式为资源名称,但省略了完整资源名称中 API 服务名称部分的双斜杠前缀。这允许使用与条目关联的资源名称检索条目。例如,如果某个资源的完整资源名称是
//library.googleapis.com/shelves/shelf1/books/book2
,则建议的 entry_id 为library.googleapis.com/shelves/shelf1/books/book2
。也建议对于与 Google Cloud 以外的提供商或系统的资源对应的条目,遵循相同的约定。字段的最大大小为 4000 个字符。entry_group_id (str (字符串)) – 必需。该创建的条目将属于的 EntryGroup 资源名称。
entry_configuration (google.cloud.dataplex_v1.types.Entry | dict (字典)) – 必需。条目配置。有关更多详情,请参阅 API 文档:https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.entryGroups.entries#Entry
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogGetEntryOperator(entry_id, entry_group_id, view=None, aspect_types=None, paths=None, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
获取 Entry 资源。
另请参阅
要详细了解如何使用此运算符,请参阅以下指南:Get an Entry
- 参数:
entry_id (str (字符串)) – 必需。条目标识符。它必须在条目组内唯一。与 Google Cloud 资源对应的条目使用基于完整资源名称的条目 ID 格式。格式为资源名称,但省略了完整资源名称中 API 服务名称部分的双斜杠前缀。这允许使用与条目关联的资源名称检索条目。例如,如果某个资源的完整资源名称是
//library.googleapis.com/shelves/shelf1/books/book2
,则建议的 entry_id 为library.googleapis.com/shelves/shelf1/books/book2
。也建议对于与 Google Cloud 以外的提供商或系统的资源对应的条目,遵循相同的约定。字段的最大大小为 4000 个字符。entry_group_id (str (字符串)) – 必需。该创建的条目将属于的 EntryGroup 资源名称。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
view (google.cloud.dataplex_v1.types.EntryView | str (字符串) | None) – 可选。用于控制服务应返回的条目的哪些部分的视图。
aspect_types (collections.abc.MutableSequence[str (字符串)] | None) – 可选。将返回的方面限制为提供的 AspectType。它仅适用于 CUSTOM 视图。
paths (collections.abc.MutableSequence[str (字符串)] | None) – 可选。将返回的方面限制为与条目内提供的路径相关联的那些。它仅适用于 CUSTOM 视图。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogListEntriesOperator(entry_group_id, page_size=None, page_token=None, filter_by=None, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
列出 Entry 资源。
另请参阅
要详细了解如何使用此运算符,请参阅以下指南:List Entries
- 参数:
entry_group_id (str (字符串)) – 必需。该创建的条目所属的 EntryGroup 资源名称。
filter_by (str (字符串) | None) –
可选。用于过滤要返回的条目的过滤器。过滤器区分大小写。您可以通过以下字段过滤请求:
entry_type
entry_source.display_name
比较运算符包括 =、!=、<、>、<=、>=。服务根据词汇顺序比较字符串。您可以在过滤器中使用逻辑运算符 AND、OR、NOT。您可以使用通配符“*”,但对于 entry_type,您需要提供完整的项目 ID 或编号。示例过滤器表达式:
”entry_source.display_name=AnExampleDisplayName”
”entry_type=projects/example-project/locations/global/entryTypes/example-entry_type”
- ”entry_type=projects/example-project/locations/us/entryTypes/a*
OR entry_type=projects/another-project/locations/*”
”NOT entry_source.display_name=AnotherExampleDisplayName”。
page_size (int (整数) | None) – 可选。每页返回的条目数。如果还有剩余结果,服务会返回 next_page_token。如果未指定,服务最多返回 10 个条目。最大值为 100;大于 100 的值将被强制设为 100。
page_token (str (字符串) | None) – 可选。从上一个
ListEntries
调用接收到的页面令牌。提供此令牌以检索后续页面。project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('project_id', 'location', 'gcp_conn_id', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogSearchEntriesOperator(query, order_by=None, scope=None, page_size=None, page_token=None, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
根据指定的查询和范围搜索 Entries。
另请参阅
要详细了解如何使用此运算符,请参阅以下指南:Search Entries
- 参数:
query (str (字符串)) – 必需。要在范围内匹配条目的查询。查询语法在 Dataplex Catalog 的搜索语法 中定义。
order_by (str (字符串) | None) –
可选。指定结果的排序方式。支持的值包括:
relevance
(默认)last_modified_timestamp
last_modified_timestamp asc
scope (str (字符串) | None) – 可选。搜索应在其下进行操作的范围。它必须是
organizations/<org_id>
或projects/<project_ref>
之一。如果未指定,则默认为name
中提供的项目所在的组织。page_size (int (整数) | None) – 可选。每页返回的条目数。如果还有剩余结果,服务会返回 next_page_token。如果未指定,服务最多返回 10 个条目。最大值为 100;大于 100 的值将被强制设为 100。
page_token (str (字符串) | None) – 可选。从上一个
ListEntries
调用接收到的页面令牌。提供此令牌以检索后续页面。project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogLookupEntryOperator(entry_id, entry_group_id, view=None, aspect_types=None, paths=None, *args, **kwargs)[source]¶
基础:
DataplexCatalogBaseOperator
使用源系统上的权限按名称查找单个 Entry。
另请参阅
要详细了解如何使用此运算符,请参阅以下指南:Look up a single Entry
- 参数:
entry_id (str (字符串)) – 必需。条目标识符。它必须在条目组内唯一。与 Google Cloud 资源对应的条目使用基于完整资源名称的条目 ID 格式。格式为资源名称,但省略了完整资源名称中 API 服务名称部分的双斜杠前缀。这允许使用与条目关联的资源名称检索条目。例如,如果某个资源的完整资源名称是
//library.googleapis.com/shelves/shelf1/books/book2
,则建议的 entry_id 为library.googleapis.com/shelves/shelf1/books/book2
。也建议对于与 Google Cloud 以外的提供商或系统的资源对应的条目,遵循相同的约定。字段的最大大小为 4000 个字符。entry_group_id (str (字符串)) – 必需。该创建的条目将属于的 EntryGroup 资源名称。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
view (google.cloud.dataplex_v1.types.EntryView | str (字符串) | None) – 可选。用于控制服务应返回的条目的哪些部分的视图。
aspect_types (collections.abc.MutableSequence[str (字符串)] | None) – 可选。将返回的方面限制为提供的 AspectType。它仅适用于 CUSTOM 视图。
paths (collections.abc.MutableSequence[str (字符串)] | None) – 可选。将返回的方面限制为与条目内提供的路径相关联的那些。它仅适用于 CUSTOM 视图。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][source]¶
- 类 airflow.providers.google.cloud.operators.dataplex.DataplexCatalogUpdateEntryOperator(entry_id, entry_group_id, entry_configuration, allow_missing=False, delete_missing_aspects=False, aspect_keys=None, update_mask=None, *args, **kwargs)[源代码]¶
基础:
DataplexCatalogBaseOperator
更新 Entry 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南:更新条目
- 参数:
project_id – Required. 任务所属的 Google Cloud 项目 ID。
location – Required. 任务所属的 Google Cloud 区域 ID。
entry_id (str (字符串)) – 必需。条目标识符。它必须在条目组内唯一。与 Google Cloud 资源对应的条目使用基于完整资源名称的条目 ID 格式。格式为资源名称,但省略了完整资源名称中 API 服务名称部分的双斜杠前缀。这允许使用与条目关联的资源名称检索条目。例如,如果某个资源的完整资源名称是
//library.googleapis.com/shelves/shelf1/books/book2
,则建议的 entry_id 为library.googleapis.com/shelves/shelf1/books/book2
。也建议对于与 Google Cloud 以外的提供商或系统的资源对应的条目,遵循相同的约定。字段的最大大小为 4000 个字符。entry_group_id (str (字符串)) – 必需。该创建的条目所属的 EntryGroup 资源名称。
entry_configuration (dict | google.cloud.dataplex_v1.types.Entry) – 必填。条目的更新配置主体。
allow_missing (bool | None) – 可选。如果设置为 true 且条目不存在,服务将创建它。
delete_missing_aspects (bool | None) – 可选。如果设置为 true 且 aspect_keys 指定了 Aspect 范围,服务将删除该范围内请求中未提供的任何现有 Aspect。
aspect_keys (collections.abc.MutableSequence[str] | None) –
可选。服务应修改的 Aspect 的映射键。它支持以下语法:
<aspect_type_reference>
- 匹配给定类型和空路径的 Aspect。<aspect_type_reference>@path
- 匹配给定类型和指定路径的 Aspect。例如,要将 Aspect 附加到由
schema
Aspect 指定的字段,路径应采用以下格式:Schema.<field_name>
。
<aspect_type_reference>@*
- 匹配给定类型在所有路径上的 Aspect。*@path
- 匹配给定路径上所有类型的 Aspect。
除非将
delete_missing_aspects
设置为 true,否则服务不会删除与该语法匹配的现有 Aspect。如果此字段留空,服务会将其视为仅指定请求中存在的那些 Aspect。retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
gcp_conn_id – Optional. 获取连接信息时使用的连接 ID。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][源代码]¶
- 类 airflow.providers.google.cloud.operators.dataplex.DataplexCatalogDeleteEntryOperator(entry_id, entry_group_id, *args, **kwargs)[源代码]¶
基础:
DataplexCatalogBaseOperator
删除 Entry 资源。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南:删除条目
- 参数:
entry_id (str (字符串)) – 必需。条目标识符。它必须在条目组内唯一。与 Google Cloud 资源对应的条目使用基于完整资源名称的条目 ID 格式。格式为资源名称,但省略了完整资源名称中 API 服务名称部分的双斜杠前缀。这允许使用与条目关联的资源名称检索条目。例如,如果某个资源的完整资源名称是
//library.googleapis.com/shelves/shelf1/books/book2
,则建议的 entry_id 为library.googleapis.com/shelves/shelf1/books/book2
。也建议对于与 Google Cloud 以外的提供商或系统的资源对应的条目,遵循相同的约定。字段的最大大小为 4000 个字符。entry_group_id (str (字符串)) – 必需。该创建的条目将属于的 EntryGroup 资源名称。
project_id – Required. 使用服务的 Google Cloud 项目 ID。
location – Required. 使用服务的 Google Cloud 区域 ID。
gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。
retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。
metadata – Optional. 提供给方法的附加元数据。
impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。
- template_fields: collections.abc.Sequence[str][源代码]¶