airflow.providers.google.cloud.hooks.dataproc_metastore

该模块包含一个 Google Cloud Dataproc Metastore 钩子。

模块内容

DataprocMetastoreHook

用于 Google Cloud Dataproc Metastore API 的钩子。

class airflow.providers.google.cloud.hooks.dataproc_metastore.DataprocMetastoreHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]

基类:airflow.providers.google.common.hooks.base_google.GoogleBaseHook

用于 Google Cloud Dataproc Metastore API 的钩子。

get_dataproc_metastore_client()[源代码]

返回 DataprocMetastoreClient。

get_dataproc_metastore_client_v1beta()[源代码]

返回 DataprocMetastoreClient(来自 v1 beta)。

wait_for_operation(timeout, operation)[源代码]

等待长时间运行的操作完成。

create_backup(project_id, region, service_id, backup, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

在给定的项目和位置创建新的备份。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • service_id (str) –

    必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • backup (dict[Any, Any] | google.cloud.metastore_v1.types.Backup) –

    必需。要创建的备份。name 字段将被忽略。创建的备份的 ID 必须在请求的 backup_id 字段中提供。

    这对应于 request 实例上的 backup 字段;如果提供了 request,则不应设置此字段。

  • backup_id (str) –

    必需。备份的 ID,用作备份名称的最后一个组成部分。此值必须介于 1 到 64 个字符之间(包括 1 和 64),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 backup_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

create_metadata_import(project_id, region, service_id, metadata_import, metadata_import_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

在给定的项目和位置创建新的 MetadataImport。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • service_id (str) –

    必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • metadata_import (dict | google.cloud.metastore_v1.types.MetadataImport) –

    必需。要创建的元数据导入。name 字段将被忽略。创建的元数据导入的 ID 必须在请求的 metadata_import_id 字段中提供。

    这对应于 request 实例上的 metadata_import 字段;如果提供了 request,则不应设置此字段。

  • metadata_import_id (str) –

    必需。元数据导入的 ID,用作元数据导入名称的最后一个组成部分。此值必须介于 1 到 64 个字符之间(包括 1 和 64),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 metadata_import_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

create_service(region, project_id, service, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

在项目和位置中创建一个元存储服务。

参数
  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • service (dict | google.cloud.metastore_v1.types.Service) –

    必需。要创建的 Metastore 服务。 name 字段将被忽略。必须在请求的 service_id 字段中提供创建的 metastore 服务的 ID。

    这对应于 request 实例上的 service 字段;如果提供了 request,则不应设置此字段。

  • service_id (str) –

    必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

delete_backup(project_id, region, service_id, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

删除单个备份。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • service_id (str) –

    必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • backup_id (str) –

    必需。备份的 ID,用作备份名称的最后一个组成部分。此值必须介于 1 到 64 个字符之间(包括 1 和 64),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 backup_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

delete_service(project_id, region, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

删除单个服务。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • service_id (str) –

    必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

export_metadata(destination_gcs_folder, project_id, region, service_id, request_id=None, database_dump_type=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

从服务导出元数据。

参数
  • destination_gcs_folder (str) – Cloud Storage 文件夹的 URI,格式为 gs://<bucket_name>/<path_inside_bucket>。将在其下方创建一个包含导出文件的子文件夹 <export_folder>

  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • service_id (str) –

    必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • database_dump_type (google.cloud.metastore_v1.types.metastore.DatabaseDumpSpec | None) – 可选。数据库转储的类型。如果未指定,则默认为 MYSQL

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

get_service(project_id, region, service_id, retry=DEFAULT, timeout=None, metadata=())[源代码]

获取单个服务的详细信息。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • service_id (str) –

    必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

get_backup(project_id, region, service_id, backup_id, retry=DEFAULT, timeout=None, metadata=())[源代码]

从服务获取备份。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • service_id (str) –

    必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • backup_id (str) – 必需。要从中还原的 metastore 服务备份的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

list_backups(project_id, region, service_id, page_size=None, page_token=None, filter=None, order_by=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

列出服务中的备份。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • service_id (str) –

    必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • page_size (int | None) – 可选。要返回的最大备份数。响应可能包含小于最大数量的备份。如果未指定,则最多返回 500 个备份。最大值为 1000;大于 1000 的值将更改为 1000。

  • page_token (str | None) – 可选。从之前的 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 调用中收到的页面令牌。提供此令牌以检索后续页面。要检索第一页,请提供一个空页面令牌。分页时,提供给 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 的其他参数必须与提供页面令牌的调用匹配。

  • filter (str | None) – 可选。要应用于列表结果的过滤器。

  • order_by (str | None) – 可选。指定结果的排序方式,如排序顺序中所述。如果未指定,则结果将按默认顺序排序。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

restore_service(project_id, region, service_id, backup_project_id, backup_region, backup_service_id, backup_id, restore_type=None, request_id=None, retry=DEFAULT, timeout=None, metadata=())[source]

从备份恢复服务。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • service_id (str) –

    必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • backup_project_id (str) – 必需。要从中恢复 Metastore 服务备份的 Google Cloud 项目 ID。

  • backup_region (str) – 必需。要从中恢复 Metastore 服务备份的 Google Cloud 区域 ID。

  • backup_service_id (str) – 必需。要从中恢复的 Metastore 服务备份的 ID,用作 Metastore 服务名称的最后一部分。此值必须为 2 到 63 个字符(含)长,以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

  • backup_id (str) – 必需。要从中还原的 metastore 服务备份的 ID。

  • restore_type (google.cloud.metastore_v1.types.metastore.Restore | None) – 可选。恢复类型。如果未指定,则默认为 METADATA_ONLY

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

update_service(project_id, region, service_id, service, update_mask, request_id=None, retry=DEFAULT, timeout=None, metadata=())[source]

更新单个服务的参数。

参数
  • project_id (str) – 必需。服务所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • service_id (str) –

    必需。元存储服务的 ID,用作元存储服务名称的最后一个组成部分。此值必须介于 2 到 63 个字符之间(包括 2 和 63),以字母开头,以字母或数字结尾,并且由字母数字 ASCII 字符或连字符组成。

    这对应于 request 实例上的 service_id 字段;如果提供了 request,则不应设置此字段。

  • service (dict | google.cloud.metastore_v1.types.Service) –

    必需。要更新的 Metastore 服务。仅当服务中的字段在 update_mask 中指定时,服务器才会合并这些字段。

    Metastore 服务的 name 字段用于标识要更新的 Metastore 服务。

    这对应于 request 实例上的 service 字段;如果提供了 request,则不应设置此字段。

  • update_mask (google.protobuf.field_mask_pb2.FieldMask) –

    必需。一个字段掩码,用于指定要通过更新覆盖 Metastore 服务资源中的哪些字段。update_mask 中指定的字段相对于资源(而不是完整请求)。如果字段在掩码中,则会被覆盖。

    这对应于 request 实例上的 update_mask 字段;如果提供了 request,则不应设置此字段。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定应重试哪些错误(如果有)。

  • timeout (float | None) – 此请求的超时时间。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 应与请求一起作为元数据发送的字符串。

list_hive_partitions(project_id, service_id, region, table, partition_names=None)[source]

列出 Hive 分区。

参数
  • project_id (str) – 可选。dbt Cloud 项目的 ID。

  • service_id (str) – 必需。Dataproc Metastore 服务 ID。

  • region (str) – 必需。服务所属的 Google Cloud 区域的 ID。

  • table (str) – 必需。分区表的名称

  • partition_names (list[str] | None) – 可选。要等待的表分区列表。分区的名称应类似于“ds=1”,或者在多个分区的情况下类似于“a=1/b=2”。请注意,您不能像在 HivePartitionSensor 中那样使用逻辑或比较运算符。如果未指定,则传感器将等待至少一个分区,无论其名称如何。

此条目是否有帮助?