airflow.providers.google.cloud.hooks.dataproc_metastore¶
此模块包含 Google Cloud Dataproc Metastore Hook。
类¶
用于 Google Cloud Dataproc Metastore API 的 Hook。 |
模块内容¶
- class airflow.providers.google.cloud.hooks.dataproc_metastore.DataprocMetastoreHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]¶
基类:
airflow.providers.google.common.hooks.base_google.GoogleBaseHook
用于 Google Cloud Dataproc Metastore API 的 Hook。
- create_backup(project_id, region, service_id, backup, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
在指定的项目和位置中创建新的备份。
- 参数:
project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
service_id (str) –
必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。backup (dict[Any, Any] | google.cloud.metastore_v1.types.Backup) –
必需。要创建的备份。
name
字段将被忽略。创建的备份 ID 必须在请求的backup_id
字段中提供。这对应于
request
实例上的backup
字段;如果提供了request
,则不应设置此字段。backup_id (str) –
必需。备份的 ID,用作备份名称的最后一部分。此值必须包含 1 到 64 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的backup_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。
- create_metadata_import(project_id, region, service_id, metadata_import, metadata_import_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
在指定的项目和位置中创建新的 MetadataImport。
- 参数:
project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
service_id (str) –
必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。metadata_import (dict | google.cloud.metastore_v1.types.MetadataImport) –
必需。要创建的元数据导入。
name
字段将被忽略。创建的元数据导入 ID 必须在请求的metadata_import_id
字段中提供。这对应于
request
实例上的metadata_import
字段;如果提供了request
,则不应设置此字段。metadata_import_id (str) –
必需。元数据导入的 ID,用作元数据导入名称的最后一部分。此值必须包含 1 到 64 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的metadata_import_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。
- create_service(region, project_id, service, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
在项目和位置中创建元数据存储服务。
- 参数:
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
service (dict | google.cloud.metastore_v1.types.Service) –
必需。要创建的 Metastore 服务。
name
字段将被忽略。创建的元数据存储服务 ID 必须在请求的service_id
字段中提供。这对应于
request
实例上的service
字段;如果提供了request
,则不应设置此字段。service_id (str) –
必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。
- delete_backup(project_id, region, service_id, backup_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
删除单个备份。
- 参数:
project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
service_id (str) –
必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。backup_id (str) –
必需。备份的 ID,用作备份名称的最后一部分。此值必须包含 1 到 64 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的backup_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。
- delete_service(project_id, region, service_id, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
删除单个服务。
- 参数:
project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
service_id (str) –
必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。
- export_metadata(destination_gcs_folder, project_id, region, service_id, request_id=None, database_dump_type=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
从服务导出元数据。
- 参数:
destination_gcs_folder (str) – 文件夹的 Cloud Storage URI,格式为
gs://<bucket_name>/<path_inside_bucket>
。将在其下方创建一个包含导出文件的子文件夹<export_folder>
。project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
service_id (str) –
必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
database_dump_type (google.cloud.metastore_v1.types.metastore.DatabaseDumpSpec | None) – 可选。数据库转储的类型。如果未指定,默认为
MYSQL
。retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。
- get_service(project_id, region, service_id, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
获取单个服务的详细信息。
- 参数:
project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
service_id (str) –
必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。
- get_backup(project_id, region, service_id, backup_id, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
从服务获取备份。
- 参数:
project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
service_id (str) –
必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。backup_id (str) – 必需。用于恢复的元数据存储服务备份 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。
- list_backups(project_id, region, service_id, page_size=None, page_token=None, filter=None, order_by=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
列出服务中的备份。
- 参数:
project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
service_id (str) –
必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。page_size (int | None) – 可选。要返回的最大备份数。响应可能包含少于最大数量的备份。如果未指定,则最多返回 500 个备份。最大值为 1000;超过 1000 的值将更改为 1000。
page_token (str | None) – 可选。页面令牌,从上一次 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 调用中接收。提供此令牌以检索后续页面。要检索第一页,请提供一个空页面令牌。分页时,提供给 [DataprocMetastore.ListBackups][google.cloud.metastore.v1.DataprocMetastore.ListBackups] 的其他参数必须与提供页面令牌的调用匹配。
filter (str | None) – 可选。应用于列表结果的过滤条件。
order_by (str | None) – 可选。按排序顺序中所述指定结果的排序方式。如果未指定,结果将按默认顺序排序。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。
- restore_service(project_id, region, service_id, backup_project_id, backup_region, backup_service_id, backup_id, restore_type=None, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
从备份恢复服务。
- 参数:
project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
service_id (str) –
必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。backup_project_id (str) – 必需。用于恢复的元数据存储服务备份所属的 Google Cloud 项目 ID。
backup_region (str) – 必需。用于恢复的元数据存储服务备份所属的 Google Cloud 区域 ID。
backup_service_id (str) – 必需。用于恢复的元数据存储服务备份 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
backup_id (str) – 必需。用于恢复的元数据存储服务备份 ID。
restore_type (google.cloud.metastore_v1.types.metastore.Restore | None) – 可选。恢复类型。如果未指定,默认为
METADATA_ONLY
request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。
- update_service(project_id, region, service_id, service, update_mask, request_id=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
更新单个服务的参数。
- 参数:
project_id (str) – 必需。服务所属的 Google Cloud 项目 ID。
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
service_id (str) –
必需。元数据存储服务的 ID,用作元数据存储服务名称的最后一部分。此值必须包含 2 到 63 个字符(含),以字母开头,以字母或数字结尾,并且只能包含字母数字 ASCII 字符或连字符。
这对应于
request
实例上的service_id
字段;如果提供了request
,则不应设置此字段。service (dict | google.cloud.metastore_v1.types.Service) –
必需。要更新的元数据存储服务。服务器仅在
update_mask
中指定了字段时才合并服务中的字段。元数据存储服务的
name
字段用于标识要更新的元数据存储服务。这对应于
request
实例上的service
字段;如果提供了request
,则不应设置此字段。update_mask (google.protobuf.field_mask_pb2.FieldMask) –
必需。用于指定在元数据存储服务资源中通过更新覆盖的字段的字段掩码。
update_mask
中指定的字段相对于资源(而非完整请求)。如果在掩码中,则该字段会被覆盖。这对应于
request
实例上的update_mask
字段;如果提供了request
,则不应设置此字段。request_id (str | None) – 可选。用于标识请求的唯一 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 指定哪些错误(如果有)应该重试。
timeout (float | None) – 此请求的超时时间。
metadata (collections.abc.Sequence[tuple[str, str]]) – 应随请求作为元数据发送的字符串。
- list_hive_partitions(project_id, service_id, region, table, partition_names=None)[源代码]¶
列出 Hive 分区。
- 参数:
project_id (str) – 可选。dbt Cloud 项目的 ID。
service_id (str) – 必需。Dataproc Metastore 服务 ID。
region (str) – 必需。服务所属的 Google Cloud 区域 ID。
table (str) – 必需。分区表的名称。
partition_names (list[str] | None) – 可选。要等待的表分区列表。分区名称应类似于“ds=1”,或在多个分区的情况下类似于“a=1/b=2”。请注意,您不能使用类似于 HivePartitionSensor 中的逻辑或比较运算符。如果未指定,则传感器将等待至少一个分区,无论其名称如何。