airflow.providers.google.cloud.operators.dataplex

此模块包含 Google Dataplex 操作符。

DataplexCreateTaskOperator

在 lake 中创建一个 task 资源。

DataplexDeleteTaskOperator

删除 task 资源。

DataplexListTasksOperator

列出指定 lake 下的 tasks。

DataplexGetTaskOperator

获取 task 资源。

DataplexCreateLakeOperator

在 lake 中创建一个 lake 资源。

DataplexDeleteLakeOperator

删除 lake 资源。

DataplexCreateOrUpdateDataQualityScanOperator

创建一个 DataScan 资源。

DataplexGetDataQualityScanOperator

获取 DataScan 资源。

DataplexDeleteDataQualityScanOperator

删除 DataScan 资源。

DataplexRunDataQualityScanOperator

运行 DataScan 的按需执行。

DataplexGetDataQualityScanResultOperator

获取 Data Scan Job 资源。

DataplexCreateOrUpdateDataProfileScanOperator

创建一个 DataScan Data Profile 资源。

DataplexGetDataProfileScanOperator

获取 DataScan DataProfile 资源。

DataplexDeleteDataProfileScanOperator

删除 DataScan DataProfile 资源。

DataplexRunDataProfileScanOperator

运行 DataScan Data Profile Scan 的按需执行。

DataplexGetDataProfileScanResultOperator

获取 DataScan Data Profile Job 资源。

DataplexCreateZoneOperator

在 Lake 中创建一个 Zone 资源。

DataplexDeleteZoneOperator

删除 Zone 资源。必须先删除 Zone 内的所有 assets,然后才能删除 Zone。

DataplexCreateAssetOperator

创建一个 Asset 资源。

DataplexDeleteAssetOperator

删除 asset 资源。

DataplexCatalogBaseOperator

所有 Dataplex Catalog 操作符的基类。

DataplexCatalogCreateEntryGroupOperator

创建一个 EntryGroup 资源。

DataplexCatalogGetEntryGroupOperator

获取 EntryGroup 资源。

DataplexCatalogDeleteEntryGroupOperator

删除 EntryGroup 资源。

DataplexCatalogListEntryGroupsOperator

列出 EntryGroup 资源。

DataplexCatalogUpdateEntryGroupOperator

更新 EntryGroup 资源。

DataplexCatalogCreateEntryTypeOperator

创建一个 EntryType 资源。

DataplexCatalogGetEntryTypeOperator

获取 EntryType 资源。

DataplexCatalogDeleteEntryTypeOperator

删除 EntryType 资源。

DataplexCatalogListEntryTypesOperator

列出 EntryType 资源。

DataplexCatalogUpdateEntryTypeOperator

更新 EntryType 资源。

DataplexCatalogCreateAspectTypeOperator

创建一个 AspectType 资源。

DataplexCatalogGetAspectTypeOperator

获取 AspectType 资源。

DataplexCatalogListAspectTypesOperator

列出 AspectType 资源。

DataplexCatalogUpdateAspectTypeOperator

更新 AspectType 资源。

DataplexCatalogDeleteAspectTypeOperator

删除 AspectType 资源。

DataplexCatalogCreateEntryOperator

创建一个 Entry 资源。

DataplexCatalogGetEntryOperator

获取 Entry 资源。

DataplexCatalogListEntriesOperator

列出 Entry 资源。

DataplexCatalogSearchEntriesOperator

根据指定的查询和范围搜索 Entries。

DataplexCatalogLookupEntryOperator

使用源系统上的权限按名称查找单个 Entry。

DataplexCatalogUpdateEntryOperator

更新 Entry 资源。

DataplexCatalogDeleteEntryOperator

删除 Entry 资源。

模块内容

class airflow.providers.google.cloud.operators.dataplex.DataplexCreateTaskOperator(project_id, region, lake_id, body, dataplex_task_id, validate_only=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在 lake 中创建一个 task 资源。

参数:
  • project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。

  • body (dict[str, Any]) – 必需。请求体包含 Task 的一个实例。

  • dataplex_task_id (str) – 必需。Task 标识符。

  • validate_only (bool | None) – 可选。仅验证请求,但不执行更改。默认为 false。

  • api_version (str) – 将请求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

  • asynchronous (bool) – 指示是否应异步创建 Dataplex task 的标志。这对于长时间运行的创建 tasks 并使用 DataplexTaskSensor 异步等待它们非常有用。

template_fields = ('project_id', 'dataplex_task_id', 'body', 'validate_only', 'impersonation_chain')[source]
template_fields_renderers[source]
project_id[source]
region[source]
lake_id[source]
body[source]
dataplex_task_id[source]
validate_only = None[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
asynchronous = False[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteTaskOperator(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除 task 资源。

参数:
  • project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。

  • dataplex_task_id (str) – 必需。Task 标识符。

  • api_version (str) – 将请求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

template_fields = ('project_id', 'dataplex_task_id', 'impersonation_chain')[source]
project_id[source]
region[source]
lake_id[source]
dataplex_task_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexListTasksOperator(project_id, region, lake_id, page_size=None, page_token=None, filter=None, order_by=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

列出指定 lake 下的 tasks。

参数:
  • project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。

  • page_size (int | None) – 可选。要返回的最大 tasks 数量。服务返回的数量可能少于此值。如果未指定,则最多返回 10 个 tasks。最大值为 1000;超过 1000 的值将被强制设置为 1000。

  • page_token (str | None) – 可选。从之前的 ListZones 调用接收到的页面令牌。提供此令牌可检索后续页面。分页时,提供给 ListZones 的所有其他参数必须与提供页面令牌的调用相匹配。

  • filter (str | None) – 可选。过滤请求。

  • order_by (str | None) – 可选。结果的排序字段。

  • api_version (str) – 将请求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

template_fields = ('project_id', 'page_size', 'page_token', 'filter', 'order_by', 'impersonation_chain')[source]
project_id[source]
region[source]
lake_id[source]
page_size = None[source]
page_token = None[source]
filter = None[source]
order_by = None[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexGetTaskOperator(project_id, region, lake_id, dataplex_task_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取 task 资源。

参数:
  • project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。

  • dataplex_task_id (str) – 必需。Task 标识符。

  • api_version (str) – 将请求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

template_fields = ('project_id', 'dataplex_task_id', 'impersonation_chain')[source]
project_id[source]
region[source]
lake_id[source]
dataplex_task_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCreateLakeOperator(project_id, region, lake_id, body, validate_only=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在 lake 中创建一个 lake 资源。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • lake_id (str) – 必需。Lake 标识符。

  • body (dict[str, Any]) – 必需。请求正文包含 Lake 的实例。

  • validate_only (bool | None) – 可选。仅验证请求,但不执行更改。默认为 false。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

  • asynchronous (bool) – 指示 Dataplex lake 是否应异步创建的标志。这对于长时间运行的 lake 创建非常有用。

template_fields = ('project_id', 'lake_id', 'body', 'validate_only', 'impersonation_chain')[source]
template_fields_renderers[source]
project_id[source]
region[source]
lake_id[source]
body[source]
validate_only = None[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
asynchronous = False[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteLakeOperator(project_id, region, lake_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除 lake 资源。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • lake_id (str) – 必需。Lake 标识符。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

template_fields = ('project_id', 'lake_id', 'impersonation_chain')[source]
project_id[source]
region[source]
lake_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCreateOrUpdateDataQualityScanOperator(project_id, region, data_scan_id, body, api_version='v1', retry=DEFAULT, timeout=None, update_mask=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建一个 DataScan 资源。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 要更新的字段掩码。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

返回:

Dataplex 数据扫描 ID

template_fields = ('project_id', 'data_scan_id', 'body', 'impersonation_chain')[source]
template_fields_renderers[source]
project_id[source]
region[source]
data_scan_id[source]
body[source]
update_mask = None[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取 DataScan 资源。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

返回:

Dataplex 数据扫描

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[source]
project_id[source]
region[source]
data_scan_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除 DataScan 资源。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

返回:

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[source]
project_id[source]
region[source]
data_scan_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexRunDataQualityScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, fail_on_dq_failure=False, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

运行 DataScan 的按需执行。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

  • asynchronous (bool) – 指示 Dataplex 作业应以异步方式运行的标志。这对于提交长时间运行的作业并使用 DataplexDataQualityJobStatusSensor 异步等待它们非常有用。

  • fail_on_dq_failure (bool) – 如果设置为 true 且并非所有数据质量扫描规则都已通过,则会抛出异常。如果设置为 false 且并非所有数据质量扫描规则都已通过,则执行将成功完成。

  • result_timeout (float) – 当标志 asynchronous = False 时,操作符将等待数据质量扫描结果的秒数。如果在指定的秒数后未找到结果,则抛出异常。

  • polling_interval_seconds (int) – 轮询作业完成之间的秒数。该值仅在可推迟模式下运行时考虑。必须大于 0。

  • deferrable (bool) – 在可推迟模式下运行操作符。

返回:

Dataplex 数据质量扫描作业 ID。

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[source]
project_id[source]
region[source]
data_scan_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
asynchronous = False[source]
fail_on_dq_failure = False[source]
result_timeout = 600.0[source]
deferrable = True[source]
polling_interval_seconds = 10[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

execute_complete(context, event=None)[source]

当触发器触发时作为回调 - 立即返回。

依赖触发器抛出异常,否则假定执行成功。

class airflow.providers.google.cloud.operators.dataplex.DataplexGetDataQualityScanResultOperator(project_id, region, data_scan_id, job_id=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, fail_on_dq_failure=False, wait_for_results=True, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取 Data Scan Job 资源。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • data_scan_id (str) – 必需。数据质量扫描标识符。

  • job_id (str | None) – 可选。数据质量扫描作业标识符。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,单位为秒。请注意,如果指定了 retry,则超时应用于每次单独尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

  • fail_on_dq_failure (bool) – 如果设置为 true 且并非所有数据质量扫描规则都已通过,则会抛出异常。如果设置为 false 且并非所有数据质量扫描规则都已通过,则执行将成功完成。

  • wait_for_results (bool) – 指示是等待作业执行结果还是返回作业当前状态的标志。

  • result_timeout (float) – 当标志 wait_for_results = True 时,操作符将等待数据质量扫描结果的秒数。如果在指定的秒数后未找到结果,则抛出异常。

  • polling_interval_seconds (int) – 轮询作业完成之间的秒数。该值仅在可推迟模式下运行时考虑。必须大于 0。

  • deferrable (bool) – 在可推迟模式下运行操作符。

返回:

表示 DataScanJob 的字典。当作业以成功状态完成时,可以获取有关数据质量结果的信息。

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain', 'job_id')[source]
project_id[source]
region[source]
data_scan_id[source]
job_id = None[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
fail_on_dq_failure = False[source]
wait_for_results = True[source]
result_timeout = 600.0[source]
deferrable = True[source]
polling_interval_seconds = 10[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

execute_complete(context, event=None)[source]

当触发器触发时作为回调 - 立即返回。

依赖触发器抛出异常,否则假定执行成功。

airflow.providers.google.cloud.operators.dataplex.DataplexCreateOrUpdateDataProfileScanOperator(project_id, region, data_scan_id, body, api_version='v1', retry=DEFAULT, timeout=None, update_mask=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建一个 DataScan Data Profile 资源。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • body (dict[str, Any] | google.cloud.dataplex_v1.types.DataScan) – 必需。请求正文包含 DataScan 的实例。

  • data_scan_id (str) – 必需。数据资料分析扫描标识符。

  • update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 要更新的字段掩码。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

返回:

Dataplex 数据资料分析 ID

template_fields = ('project_id', 'data_scan_id', 'body', 'impersonation_chain')[source]
template_fields_renderers[source]
project_id[source]
region[source]
data_scan_id[source]
body[source]
update_mask = None[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

airflow.providers.google.cloud.operators.dataplex.DataplexGetDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取 DataScan DataProfile 资源。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • data_scan_id (str) – 必需。数据资料分析扫描标识符。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

返回:

Dataplex 数据资料分析

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[source]
project_id[source]
region[source]
data_scan_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

airflow.providers.google.cloud.operators.dataplex.DataplexDeleteDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除 DataScan DataProfile 资源。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • data_scan_id (str) – 必需。数据资料分析扫描标识符。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

返回:

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[source]
project_id[source]
region[source]
data_scan_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

airflow.providers.google.cloud.operators.dataplex.DataplexRunDataProfileScanOperator(project_id, region, data_scan_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, result_timeout=60.0 * 10, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

运行 DataScan Data Profile Scan 的按需执行。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • data_scan_id (str) – 必需。数据资料分析扫描标识符。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

  • asynchronous (bool) – 指示应异步运行 Dataplex 作业的标志。这对于提交长时间运行的作业并使用 DataplexDataProfileJobStatusSensor 异步等待它们的结果非常有用。

  • result_timeout (float) – 当标志 asynchronous = False 时,操作符等待数据资料分析扫描结果的秒数。如果在指定的秒数后未找到结果,则抛出异常。

  • polling_interval_seconds (int) – 轮询作业完成之间的秒数。该值仅在可推迟模式下运行时考虑。必须大于 0。

  • deferrable (bool) – 在可推迟模式下运行操作符。

返回:

Dataplex 数据资料分析扫描作业 ID。

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[source]
project_id[source]
region[source]
data_scan_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
asynchronous = False[source]
result_timeout = 600.0[source]
deferrable = True[source]
polling_interval_seconds = 10[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

execute_complete(context, event=None)[source]

当触发器触发时作为回调 - 立即返回。

依赖触发器抛出异常,否则假定执行成功。

airflow.providers.google.cloud.operators.dataplex.DataplexGetDataProfileScanResultOperator(project_id, region, data_scan_id, job_id=None, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, wait_for_results=True, result_timeout=60.0 * 10, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取 DataScan Data Profile Job 资源。

参数:
  • project_id (str) – 必需。Lake 所属的 Google Cloud 项目 ID。

  • region (str) – 必需。Lake 所属的 Google Cloud 区域 ID。

  • data_scan_id (str) – 必需。数据资料分析扫描标识符。

  • job_id (str | None) – 可选。数据资料分析扫描作业标识符。

  • api_version (str) – 将要请求的 API 版本,例如 ‘v1’。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,单位为秒。请注意,如果指定了 retry,则超时应用于每次单独尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

  • wait_for_results (bool) – 指示是等待作业执行结果还是返回作业当前状态的标志。

  • result_timeout (浮点数) – 以秒为单位的值,当标志 wait_for_results = True 时,operator 将等待数据概况扫描结果的时间。如果在指定秒数后未找到结果,则抛出异常。

返回:

表示 DataScanJob 的字典。当作业成功完成时,可获取数据概况结果的相关信息。

template_fields = ('project_id', 'data_scan_id', 'impersonation_chain')[source]
project_id[source]
region[source]
data_scan_id[source]
job_id = None[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
wait_for_results = True[source]
result_timeout = 600.0[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

execute_complete(context, event=None)[source]

当触发器触发时作为回调 - 立即返回。

依赖触发器抛出异常,否则假定执行成功。

class airflow.providers.google.cloud.operators.dataplex.DataplexCreateZoneOperator(project_id, region, lake_id, body, zone_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在 Lake 中创建一个 Zone 资源。

参数:
  • project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。

  • body (字典[字符串, Any] | google.cloud.dataplex_v1.types.Zone) – 必需。请求正文包含一个 Zone 实例。

  • zone_id (字符串) – 必需。任务标识符。

  • api_version (str) – 将请求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

返回:

Zone

template_fields = ('project_id', 'zone_id', 'body', 'lake_id', 'impersonation_chain')[source]
template_fields_renderers[source]
project_id[source]
region[source]
lake_id[source]
body[source]
zone_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteZoneOperator(project_id, region, lake_id, zone_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除 Zone 资源。必须先删除 Zone 内的所有 assets,然后才能删除 Zone。

参数:
  • project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。

  • lake_id (str) – 必需。Task 所属的 Google Cloud lake 的 ID。

  • zone_id (字符串) – 必需。Zone 标识符。

  • api_version (str) – 将请求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

返回:

template_fields = ('project_id', 'lake_id', 'zone_id', 'impersonation_chain')[source]
project_id[source]
region[source]
lake_id[source]
zone_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCreateAssetOperator(project_id, region, lake_id, body, zone_id, asset_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建一个 Asset 资源。

参数:
  • project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。

  • lake_id (字符串) – 必需。资产所属的 Google Cloud Lake 的 ID。

  • zone_id (字符串) – 必需。Zone 标识符。

  • asset_id (字符串) – 必需。Asset 标识符。

  • body (字典[字符串, Any] | google.cloud.dataplex_v1.types.Asset) – 必需。请求正文包含一个 Asset 实例。

  • api_version (str) – 将请求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

返回:

Asset

template_fields = ('project_id', 'zone_id', 'asset_id', 'body', 'impersonation_chain')[source]
template_fields_renderers[source]
project_id[source]
region[source]
lake_id[source]
body[source]
zone_id[source]
asset_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexDeleteAssetOperator(project_id, region, lake_id, zone_id, asset_id, api_version='v1', retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除 asset 资源。

参数:
  • project_id (str) – 必需。Task 所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。Task 所属的 Google Cloud 区域的 ID。

  • lake_id (字符串) – 必需。资产所属的 Google Cloud Lake 的 ID。

  • zone_id (字符串) – 必需。Zone 标识符。

  • asset_id (字符串) – 必需。Asset 标识符。

  • api_version (str) – 将请求的 API 版本,例如 'v3'。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量,以秒为单位。请注意,如果指定了 retry,则超时应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选。用于使用短期凭据进行身份模拟的服务账号,或获取列表中最后一个账号的 access_token 所需的链式账号列表,该账号将在请求中被模拟。如果设置为字符串,该账号必须授予源账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须向直接前置的身份授予 Service Account Token Creator IAM 角色,其中列表中的第一个账号将此角色授予源账号(模板化)。

返回:

template_fields = ('project_id', 'zone_id', 'asset_id', 'impersonation_chain')[source]
project_id[source]
region[source]
lake_id[source]
zone_id[source]
asset_id[source]
api_version = 'v1'[source]
retry[source]
timeout = None[source]
metadata = ()[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogBaseOperator(project_id, location, gcp_conn_id='google_cloud_default', retry=DEFAULT, timeout=None, metadata=(), impersonation_chain=None, *args, **kwargs)[source]

Bases: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

所有 Dataplex Catalog 操作符的基类。

参数:
  • project_id (str) – Required. 使用服务的 Google Cloud 项目 ID。

  • location (str) – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id (str) – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – Optional. 提供给方法的附加元数据。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str] = ('project_id', 'location', 'gcp_conn_id', 'impersonation_chain')[source]
project_id[source]
location[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
retry[source]
timeout = None[source]
metadata = ()[source]
property hook: airflow.providers.google.cloud.hooks.dataplex.DataplexHook[source]
class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogCreateEntryGroupOperator(entry_group_id, entry_group_configuration, validate_request=False, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

创建一个 EntryGroup 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: 创建 EntryGroup

参数:
  • entry_group_id (str) – Required. EntryGroup 标识符。

  • entry_group_configuration (google.cloud.dataplex_v1.types.EntryGroup | dict) – Required. EntryGroup 配置。更多详情请参阅 API 文档: https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.entryGroups#EntryGroup

  • validate_request (bool) – Optional. 如果设置,将执行请求验证,但不实际执行请求。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
entry_group_id[source]
entry_group_configuration[source]
validate_request = False[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogGetEntryGroupOperator(entry_group_id, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

获取 EntryGroup 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: 获取 EntryGroup

参数:
  • entry_group_id (str) – Required. EntryGroup 标识符。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
entry_group_id[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogDeleteEntryGroupOperator(entry_group_id, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

删除 EntryGroup 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: 删除 EntryGroup

参数:
  • entry_group_id (str) – Required. EntryGroup 标识符。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
entry_group_id[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogListEntryGroupsOperator(page_size=None, page_token=None, filter_by=None, order_by=None, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

列出 EntryGroup 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: 列出 EntryGroups

参数:
  • filter_by (str | None) – Optional. 应用于列表结果的过滤器。

  • order_by (str | None) – Optional. 用于对结果进行排序的字段。

  • page_size (int | None) – Optional. 每页返回的 EntryGroups 最大数量。

  • page_token (str | None) – Optional. 用于检索下一页结果的令牌。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str] = ('project_id', 'location', 'gcp_conn_id', 'impersonation_chain')[source]
page_size = None[source]
page_token = None[source]
filter_by = None[source]
order_by = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogUpdateEntryGroupOperator(entry_group_id, entry_group_configuration, update_mask=None, validate_request=False, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

更新 EntryGroup 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: 更新 EntryGroup

参数:
  • project_id – Required. 任务所属的 Google Cloud 项目 ID。

  • location – Required. 任务所属的 Google Cloud 区域 ID。

  • update_mask (list[str] | google.protobuf.field_mask_pb2.FieldMask | None) – Optional. 要覆盖条目组上其值的字段名称。如果此参数缺失或为空,则会覆盖所有可修改字段。如果请求正文中省略了此类非必需字段,则其值将被清空。

  • entry_group_id (str) – Required. 要更新的 EntryGroup ID。

  • entry_group_configuration (dict | google.cloud.dataplex_v1.types.EntryGroup) – Required. EntryGroup 的更新配置正文。更多详情请参阅 API 文档: https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.entryGroups#EntryGroup

  • validate_only – Optional. 服务验证请求,但不执行任何修改。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • gcp_conn_id – Optional. 获取连接信息时使用的连接 ID。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
entry_group_id[source]
entry_group_configuration[source]
update_mask = None[source]
validate_request = False[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogCreateEntryTypeOperator(entry_type_id, entry_type_configuration, validate_request=False, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

创建一个 EntryType 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: 创建 EntryType

参数:
  • entry_type_id (str) – Required. EntryType 标识符。

  • entry_type_configuration (google.cloud.dataplex_v1.types.EntryType | dict) – 必需。EntryType 配置。有关更多详细信息,请参阅 API 文档:https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.entryGroups#EntryGroup

  • validate_request (bool) – Optional. 如果设置,将执行请求验证,但不实际执行请求。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
entry_type_id[source]
entry_type_configuration[source]
validate_request = False[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogGetEntryTypeOperator(entry_type_id, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

获取 EntryType 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:获取 EntryType

参数:
  • entry_type_id (str) – Required. EntryType 标识符。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
entry_type_id[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogDeleteEntryTypeOperator(entry_type_id, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

删除 EntryType 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:删除 EntryType

参数:
  • entry_type_id (str) – Required. EntryType 标识符。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
entry_type_id[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogListEntryTypesOperator(page_size=None, page_token=None, filter_by=None, order_by=None, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

列出 EntryType 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:列出 EntryType

参数:
  • filter_by (str | None) – Optional. 应用于列表结果的过滤器。

  • order_by (str | None) – Optional. 用于对结果进行排序的字段。

  • page_size (int | None) – 可选。每页返回的最大 EntryType 数量。

  • page_token (str | None) – Optional. 用于检索下一页结果的令牌。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str] = ('project_id', 'location', 'gcp_conn_id', 'impersonation_chain')[source]
page_size = None[source]
page_token = None[source]
filter_by = None[source]
order_by = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogUpdateEntryTypeOperator(entry_type_id, entry_type_configuration, update_mask=None, validate_request=False, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

更新 EntryType 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:更新 EntryType

参数:
  • project_id – Required. 任务所属的 Google Cloud 项目 ID。

  • location – Required. 任务所属的 Google Cloud 区域 ID。

  • update_mask (list[str] | google.protobuf.field_mask_pb2.FieldMask | None) – Optional. 要覆盖条目组上其值的字段名称。如果此参数缺失或为空,则会覆盖所有可修改字段。如果请求正文中省略了此类非必需字段,则其值将被清空。

  • entry_type_id (str) – 必需。要更新的 EntryType 的 ID。

  • entry_type_configuration (dict | google.cloud.dataplex_v1.types.EntryType) – 必需。EntryType 更新后的配置主体。有关更多详细信息,请参阅 API 文档:https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.entryGroups#EntryGroup

  • validate_only – Optional. 服务验证请求,但不执行任何修改。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • gcp_conn_id – Optional. 获取连接信息时使用的连接 ID。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
entry_type_id[source]
entry_type_configuration[source]
update_mask = None[source]
validate_request = False[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogCreateAspectTypeOperator(aspect_type_id, aspect_type_configuration, validate_request=False, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

创建一个 AspectType 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:创建 AspectType

参数:
  • aspect_type_id (str) – 必需。AspectType 标识符。

  • aspect_type_configuration (google.cloud.dataplex_v1.types.AspectType | dict) – 必需。AspectType 配置。有关更多详细信息,请参阅 API 文档:https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.aspectTypes#AspectType

  • validate_request (bool) – Optional. 如果设置,将执行请求验证,但不实际执行请求。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
aspect_type_id[source]
aspect_type_configuration[source]
validate_request = False[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogGetAspectTypeOperator(aspect_type_id, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

获取 AspectType 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:获取 AspectType

参数:
  • aspect_type_id (str) – 必需。AspectType 标识符。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
aspect_type_id[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogListAspectTypesOperator(page_size=None, page_token=None, filter_by=None, order_by=None, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

列出 AspectType 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:列出 AspectType

参数:
  • filter_by (str | None) – Optional. 应用于列表结果的过滤器。

  • order_by (str | None) – Optional. 用于对结果进行排序的字段。

  • page_size (int | None) – 可选。每页返回的最大 AspectType 数量。

  • page_token (str | None) – Optional. 用于检索下一页结果的令牌。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str] = ('project_id', 'location', 'gcp_conn_id', 'impersonation_chain')[source]
page_size = None[source]
page_token = None[source]
filter_by = None[source]
order_by = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogUpdateAspectTypeOperator(aspect_type_id, aspect_type_configuration, update_mask=None, validate_request=False, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

更新 AspectType 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:更新 AspectType

参数:
  • project_id – Required. 任务所属的 Google Cloud 项目 ID。

  • location – Required. 任务所属的 Google Cloud 区域 ID。

  • update_mask (list[str] | google.protobuf.field_mask_pb2.FieldMask | None) – Optional. 要覆盖条目组上其值的字段名称。如果此参数缺失或为空,则会覆盖所有可修改字段。如果请求正文中省略了此类非必需字段,则其值将被清空。

  • aspect_type_id (str) – 必需。要更新的 AspectType 的 ID。

  • aspect_type_configuration (dict (字典) | google.cloud.dataplex_v1.types.AspectType) – 必需。AspectType 更新后的配置主体。有关更多详情,请参阅 API 文档:https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.aspectTypes#AspectType

  • validate_only – Optional. 服务验证请求,但不执行任何修改。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • gcp_conn_id – Optional. 获取连接信息时使用的连接 ID。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
aspect_type_id[source]
aspect_type_configuration[source]
update_mask = None[source]
validate_request = False[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogDeleteAspectTypeOperator(aspect_type_id, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

删除 AspectType 资源。

另请参阅

要详细了解如何使用此运算符,请参阅以下指南:Delete an AspectType

参数:
  • aspect_type_id (str) – 必需。AspectType 标识符。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
aspect_type_id[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogCreateEntryOperator(entry_id, entry_group_id, entry_configuration, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

创建一个 Entry 资源。

另请参阅

要详细了解如何使用此运算符,请参阅以下指南:Create an Entry

参数:
  • entry_id (str (字符串)) – 必需。条目标识符。它必须在条目组内唯一。与 Google Cloud 资源对应的条目使用基于完整资源名称的条目 ID 格式。格式为资源名称,但省略了完整资源名称中 API 服务名称部分的双斜杠前缀。这允许使用与条目关联的资源名称检索条目。例如,如果某个资源的完整资源名称是 //library.googleapis.com/shelves/shelf1/books/book2,则建议的 entry_id 为 library.googleapis.com/shelves/shelf1/books/book2。也建议对于与 Google Cloud 以外的提供商或系统的资源对应的条目,遵循相同的约定。字段的最大大小为 4000 个字符。

  • entry_group_id (str (字符串)) – 必需。该创建的条目将属于的 EntryGroup 资源名称。

  • entry_configuration (google.cloud.dataplex_v1.types.Entry | dict (字典)) – 必需。条目配置。有关更多详情,请参阅 API 文档:https://cloud.google.com/dataplex/docs/reference/rest/v1/projects.locations.entryGroups.entries#Entry

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
entry_id[source]
entry_group_id[source]
entry_configuration[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogGetEntryOperator(entry_id, entry_group_id, view=None, aspect_types=None, paths=None, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

获取 Entry 资源。

另请参阅

要详细了解如何使用此运算符,请参阅以下指南:Get an Entry

参数:
  • entry_id (str (字符串)) – 必需。条目标识符。它必须在条目组内唯一。与 Google Cloud 资源对应的条目使用基于完整资源名称的条目 ID 格式。格式为资源名称,但省略了完整资源名称中 API 服务名称部分的双斜杠前缀。这允许使用与条目关联的资源名称检索条目。例如,如果某个资源的完整资源名称是 //library.googleapis.com/shelves/shelf1/books/book2,则建议的 entry_id 为 library.googleapis.com/shelves/shelf1/books/book2。也建议对于与 Google Cloud 以外的提供商或系统的资源对应的条目,遵循相同的约定。字段的最大大小为 4000 个字符。

  • entry_group_id (str (字符串)) – 必需。该创建的条目将属于的 EntryGroup 资源名称。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • view (google.cloud.dataplex_v1.types.EntryView | str (字符串) | None) – 可选。用于控制服务应返回的条目的哪些部分的视图。

  • aspect_types (collections.abc.MutableSequence[str (字符串)] | None) – 可选。将返回的方面限制为提供的 AspectType。它仅适用于 CUSTOM 视图。

  • paths (collections.abc.MutableSequence[str (字符串)] | None) – 可选。将返回的方面限制为与条目内提供的路径相关联的那些。它仅适用于 CUSTOM 视图。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
entry_id[source]
entry_group_id[source]
view = None[source]
aspect_types = None[source]
paths = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogListEntriesOperator(entry_group_id, page_size=None, page_token=None, filter_by=None, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

列出 Entry 资源。

另请参阅

要详细了解如何使用此运算符,请参阅以下指南:List Entries

参数:
  • entry_group_id (str (字符串)) – 必需。该创建的条目所属的 EntryGroup 资源名称。

  • filter_by (str (字符串) | None) –

    可选。用于过滤要返回的条目的过滤器。过滤器区分大小写。您可以通过以下字段过滤请求:

    • entry_type

    • entry_source.display_name

    比较运算符包括 =、!=、<、>、<=、>=。服务根据词汇顺序比较字符串。您可以在过滤器中使用逻辑运算符 AND、OR、NOT。您可以使用通配符“*”,但对于 entry_type,您需要提供完整的项目 ID 或编号。示例过滤器表达式:

    • ”entry_source.display_name=AnExampleDisplayName”

    • ”entry_type=projects/example-project/locations/global/entryTypes/example-entry_type”

    • ”entry_type=projects/example-project/locations/us/entryTypes/a*

      OR entry_type=projects/another-project/locations/*”

    • ”NOT entry_source.display_name=AnotherExampleDisplayName”。

  • page_size (int (整数) | None) – 可选。每页返回的条目数。如果还有剩余结果,服务会返回 next_page_token。如果未指定,服务最多返回 10 个条目。最大值为 100;大于 100 的值将被强制设为 100。

  • page_token (str (字符串) | None) – 可选。从上一个 ListEntries 调用接收到的页面令牌。提供此令牌以检索后续页面。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str] = ('project_id', 'location', 'gcp_conn_id', 'impersonation_chain')[source]
entry_group_id[source]
page_size = None[source]
page_token = None[source]
filter_by = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogSearchEntriesOperator(query, order_by=None, scope=None, page_size=None, page_token=None, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

根据指定的查询和范围搜索 Entries。

另请参阅

要详细了解如何使用此运算符,请参阅以下指南:Search Entries

参数:
  • query (str (字符串)) – 必需。要在范围内匹配条目的查询。查询语法在 Dataplex Catalog 的搜索语法 中定义。

  • order_by (str (字符串) | None) –

    可选。指定结果的排序方式。支持的值包括:

    • relevance (默认)

    • last_modified_timestamp

    • last_modified_timestamp asc

  • scope (str (字符串) | None) – 可选。搜索应在其下进行操作的范围。它必须是 organizations/<org_id>projects/<project_ref> 之一。如果未指定,则默认为 name 中提供的项目所在的组织。

  • page_size (int (整数) | None) – 可选。每页返回的条目数。如果还有剩余结果,服务会返回 next_page_token。如果未指定,服务最多返回 10 个条目。最大值为 100;大于 100 的值将被强制设为 100。

  • page_token (str (字符串) | None) – 可选。从上一个 ListEntries 调用接收到的页面令牌。提供此令牌以检索后续页面。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
query[source]
page_size = None[source]
page_token = None[source]
order_by = None[source]
scope = None[source]
execute(context)[source]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

class airflow.providers.google.cloud.operators.dataplex.DataplexCatalogLookupEntryOperator(entry_id, entry_group_id, view=None, aspect_types=None, paths=None, *args, **kwargs)[source]

基础: DataplexCatalogBaseOperator

使用源系统上的权限按名称查找单个 Entry。

另请参阅

要详细了解如何使用此运算符,请参阅以下指南:Look up a single Entry

参数:
  • entry_id (str (字符串)) – 必需。条目标识符。它必须在条目组内唯一。与 Google Cloud 资源对应的条目使用基于完整资源名称的条目 ID 格式。格式为资源名称,但省略了完整资源名称中 API 服务名称部分的双斜杠前缀。这允许使用与条目关联的资源名称检索条目。例如,如果某个资源的完整资源名称是 //library.googleapis.com/shelves/shelf1/books/book2,则建议的 entry_id 为 library.googleapis.com/shelves/shelf1/books/book2。也建议对于与 Google Cloud 以外的提供商或系统的资源对应的条目,遵循相同的约定。字段的最大大小为 4000 个字符。

  • entry_group_id (str (字符串)) – 必需。该创建的条目将属于的 EntryGroup 资源名称。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • view (google.cloud.dataplex_v1.types.EntryView | str (字符串) | None) – 可选。用于控制服务应返回的条目的哪些部分的视图。

  • aspect_types (collections.abc.MutableSequence[str (字符串)] | None) – 可选。将返回的方面限制为提供的 AspectType。它仅适用于 CUSTOM 视图。

  • paths (collections.abc.MutableSequence[str (字符串)] | None) – 可选。将返回的方面限制为与条目内提供的路径相关联的那些。它仅适用于 CUSTOM 视图。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][source]
entry_id[source]
entry_group_id[source]
view = None[source]
aspect_types = None[source]
paths = None[source]
execute(context)[源代码]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

airflow.providers.google.cloud.operators.dataplex.DataplexCatalogUpdateEntryOperator(entry_id, entry_group_id, entry_configuration, allow_missing=False, delete_missing_aspects=False, aspect_keys=None, update_mask=None, *args, **kwargs)[源代码]

基础: DataplexCatalogBaseOperator

更新 Entry 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:更新条目

参数:
  • project_id – Required. 任务所属的 Google Cloud 项目 ID。

  • location – Required. 任务所属的 Google Cloud 区域 ID。

  • entry_id (str (字符串)) – 必需。条目标识符。它必须在条目组内唯一。与 Google Cloud 资源对应的条目使用基于完整资源名称的条目 ID 格式。格式为资源名称,但省略了完整资源名称中 API 服务名称部分的双斜杠前缀。这允许使用与条目关联的资源名称检索条目。例如,如果某个资源的完整资源名称是 //library.googleapis.com/shelves/shelf1/books/book2,则建议的 entry_id 为 library.googleapis.com/shelves/shelf1/books/book2。也建议对于与 Google Cloud 以外的提供商或系统的资源对应的条目,遵循相同的约定。字段的最大大小为 4000 个字符。

  • entry_group_id (str (字符串)) – 必需。该创建的条目所属的 EntryGroup 资源名称。

  • entry_configuration (dict | google.cloud.dataplex_v1.types.Entry) – 必填。条目的更新配置主体。

  • allow_missing (bool | None) – 可选。如果设置为 true 且条目不存在,服务将创建它。

  • delete_missing_aspects (bool | None) – 可选。如果设置为 true 且 aspect_keys 指定了 Aspect 范围,服务将删除该范围内请求中未提供的任何现有 Aspect。

  • aspect_keys (collections.abc.MutableSequence[str] | None) –

    可选。服务应修改的 Aspect 的映射键。它支持以下语法:

    • <aspect_type_reference> - 匹配给定类型和空路径的 Aspect。

    • <aspect_type_reference>@path - 匹配给定类型和指定路径的 Aspect。

      例如,要将 Aspect 附加到由 schema Aspect 指定的字段,路径应采用以下格式:Schema.<field_name>

    • <aspect_type_reference>@* - 匹配给定类型在所有路径上的 Aspect。

    • *@path - 匹配给定路径上所有类型的 Aspect。

    除非将 delete_missing_aspects 设置为 true,否则服务不会删除与该语法匹配的现有 Aspect。如果此字段留空,服务会将其视为仅指定请求中存在的那些 Aspect。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • gcp_conn_id – Optional. 获取连接信息时使用的连接 ID。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][源代码]
entry_id[源代码]
entry_group_id[源代码]
entry_configuration[源代码]
update_mask = None[源代码]
allow_missing = False[源代码]
delete_missing_aspects = False[源代码]
aspect_keys = None[源代码]
execute(context)[源代码]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

airflow.providers.google.cloud.operators.dataplex.DataplexCatalogDeleteEntryOperator(entry_id, entry_group_id, *args, **kwargs)[源代码]

基础: DataplexCatalogBaseOperator

删除 Entry 资源。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南:删除条目

参数:
  • entry_id (str (字符串)) – 必需。条目标识符。它必须在条目组内唯一。与 Google Cloud 资源对应的条目使用基于完整资源名称的条目 ID 格式。格式为资源名称,但省略了完整资源名称中 API 服务名称部分的双斜杠前缀。这允许使用与条目关联的资源名称检索条目。例如,如果某个资源的完整资源名称是 //library.googleapis.com/shelves/shelf1/books/book2,则建议的 entry_id 为 library.googleapis.com/shelves/shelf1/books/book2。也建议对于与 Google Cloud 以外的提供商或系统的资源对应的条目,遵循相同的约定。字段的最大大小为 4000 个字符。

  • entry_group_id (str (字符串)) – 必需。该创建的条目将属于的 EntryGroup 资源名称。

  • project_id – Required. 使用服务的 Google Cloud 项目 ID。

  • location – Required. 使用服务的 Google Cloud 区域 ID。

  • gcp_conn_id – Optional. 用于连接到 Google Cloud 的连接 ID。

  • retry – Optional. 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout – Optional. 等待请求完成的时间(秒)。请注意,如果指定了 retry,则超时时间应用于每次单独的尝试。

  • metadata – Optional. 提供给方法的附加元数据。

  • impersonation_chain – Optional. 用于使用短期凭据模拟的服务账号,或者获取列表中最后一个账号的 access_token 所需的账号链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则此账号必须授予发起账号 Service Account Token Creator IAM 角色。如果设置为序列,则列表中的身份必须将 Service Account Token Creator IAM 角色授予其直接前置身份,列表中的第一个账号将此角色授予发起账号(模板化)。

template_fields: collections.abc.Sequence[str][源代码]
entry_id[源代码]
entry_group_id[源代码]
execute(context)[源代码]

在创建操作符时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

请参阅 get_template_context 以获取更多上下文。

此条目有帮助吗?