airflow.providers.google.cloud.hooks.dataproc_metastore

此模块包含 Google Cloud Dataproc Metastore Hook。

DataprocMetastoreHook

用于 Google Cloud Dataproc Metastore API 的 Hook。

模块内容

class airflow.providers.google.cloud.hooks.dataproc_metastore.DataprocMetastoreHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]

基类: airflow.providers.google.common.hooks.base_google.GoogleBaseHook

用于 Google Cloud Dataproc Metastore API 的 Hook。

get_dataproc_metastore_client()[源代码]

返回 DataprocMetastoreClient。

get_dataproc_metastore_client_v1beta()[源代码]

返回 DataprocMetastoreClient (来自 v1 beta)。

wait_for_operation(timeout, operation)[源代码]

等待长时间运行的操作完成。

create_backup(project_id, region, service_id, backup, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

在指定的项目和位置中创建新的备份。

参数:
  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • service_id (str) –

    必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • backup (dict[Any, Any] | google.cloud.metastore_v1.types.Backup) –

    必需。要创建的备份。 name 字段将被忽略。创建的备份 ID 必须在请求的 backup_id 字段中提供。

    这对应于 request 实例上的 backup 字段;如果提供了 request,则不应设置此字段。

  • backup_id (str) –

    必需。备份的 ID,用作备份名称的最后一部分。此值必须包含 1 到 64 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 backup_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。

create_metadata_import(project_id, region, service_id, metadata_import, metadata_import_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

在指定的项目和位置中创建新的 MetadataImport。

参数:
  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • service_id (str) –

    必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • metadata_import (dict | google.cloud.metastore_v1.types.MetadataImport) –

    必需。要创建的元数据导入。 name 字段将被忽略。创建的元数据导入 ID 必须在请求的 metadata_import_id 字段中提供。

    这对应于 request 实例上的 metadata_import 字段;如果提供了 request,则不应设置此字段。

  • metadata_import_id (str) –

    必需。元数据导入的 ID,用作元数据导入名称的最后一部分。此值必须包含 1 到 64 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 metadata_import_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。

create_service(region, project_id, service, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

在项目和位置中创建元数据存储服务。

参数:
  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • service (dict | google.cloud.metastore_v1.types.Service) –

    必需。要创建的 Metastore 服务。 name 字段将被忽略。创建的元数据存储服务 ID 必须在请求的 service_id 字段中提供。

    这对应于 request 实例上的 service 字段;如果提供了 request,则不应设置此字段。

  • service_id (str) –

    必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。

delete_backup(project_id, region, service_id, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

删除单个备份。

参数:
  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • service_id (str) –

    必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • backup_id (str) –

    必需。备份的 ID,用作备份名称的最后一部分。此值必须包含 1 到 64 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 backup_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。

delete_service(project_id, region, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

删除单个服务。

参数:
  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • service_id (str) –

    必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。

export_metadata(destination_gcs_folder, project_id, region, service_id, request_id=None, database_dump_type=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

从服务导出元数据。

参数:
  • destination_gcs_folder (str) – 文件夹的 Cloud Storage URI,格式为 gs://<bucket_name>/<path_inside_bucket>。将在其下方创建一个包含导出文件的子文件夹 <export_folder>

  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • service_id (str) –

    必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • database_dump_type (google.cloud.metastore_v1.types.metastore.DatabaseDumpSpec | None) – 可选。数据库转储的类型。如果未指定,默认为 MYSQL

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。

get_service(project_id, region, service_id, retry=DEFAULT, timeout=None, metadata=())[源代码]

获取单个服务的详细信息。

参数:
  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • service_id (str) –

    必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。

get_backup(project_id, region, service_id, backup_id, retry=DEFAULT, timeout=None, metadata=())[源代码]

从服务获取备份。

参数:
  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • service_id (str) –

    必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • backup_id (str) – 必需。用于恢复的元数据存储服务备份 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。

list_backups(project_id, region, service_id, page_size=None, page_token=None, filter=None, order_by=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

列出服务中的备份。

参数:
  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • service_id (str) –

    必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • page_size (int | None) – 可选。要返回的最大备份数。响应可能包含少于最大数量的备份。如果未指定,则最多返回 500 个备份。最大值为 1000;超过 1000 的值将更改为 1000。

  • page_token (str | None) – 可选。页面令牌,从上一次 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 调用中接收。提供此令牌以检索后续页面。要检索第一页,请提供一个空页面令牌。分页时,提供给 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 的其他参数必须与提供页面令牌的调用匹配。

  • filter (str | None) – 可选。应用于列表结果的过滤条件。

  • order_by (str | None) – 可选。按排序顺序中所述指定结果的排序方式。如果未指定,结果将按默认顺序排序。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。

restore_service(project_id, region, service_id, backup_project_id, backup_region, backup_service_id, backup_id, restore_type=None, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

从备份恢复服务。

参数:
  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • service_id (str) –

    必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • backup_project_id (str) – 必需。用于恢复的元数据存储服务备份所属的 Google Cloud 项目 ID。

  • backup_region (str) – 必需。用于恢复的元数据存储服务备份所属的 Google Cloud 区域 ID。

  • backup_service_id (str) – 必需。用于恢复的元数据存储服务备份 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

  • backup_id (str) – 必需。用于恢复的元数据存储服务备份 ID。

  • restore_type (google.cloud.metastore_v1.types.metastore.Restore | None) – 可选。恢复类型。如果未指定,默认为 METADATA_ONLY

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。

update_service(project_id, region, service_id, service, update_mask, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

更新单个服务的参数。

参数:
  • project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • service_id (str) –

    必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • service (dict | google.cloud.metastore_v1.types.Service) –

    必需。要更新的元数据存储服务。服务器仅在 update_mask 中指定了字段时才合并服务中的字段。

    元数据存储服务的 name 字段用于标识要更新的元数据存储服务。

    这对应于 request 实例上的 service 字段;如果提供了 request,则不应设置此字段。

  • update_mask (google.protobuf.field_mask_pb2.FieldMask) –

    必需。用于指定在元数据存储服务资源中通过更新覆盖的字段的字段掩码。 update_mask 中指定的字段相对于资源(而非完整请求)。如果在掩码中,则该字段会被覆盖。

    这对应于 request 实例上的 update_mask 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。

list_hive_partitions(project_id, service_id, region, table, partition_names=None)[源代码]

列出 Hive 分区。

参数:
  • project_id (str) – 可选。dbt Cloud 项目的 ID。

  • service_id (str) – 必需。Dataproc Metastore 服务 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域 ID。

  • table (str) – 必需。分区表的名称。

  • partition_names (list[str] | None) – 可选。要等待的表分区列表。分区名称应类似于“ds=1”,或在多个分区的情况下类似于“a=1/b=2”。请注意,您不能使用类似于 HivePartitionSensor 中的逻辑或比较运算符。如果未指定,则传感器将等待至少一个分区,无论其名称如何。

此条目是否有帮助?