airflow.providers.google.cloud.hooks.automl

本模块包含一个 Google AutoML Hook。

CloudAutoMLHook

Google Cloud AutoML Hook。

模块内容

class airflow.providers.google.cloud.hooks.automl.CloudAutoMLHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.common.hooks.base_google.GoogleBaseHook, airflow.providers.google.common.hooks.operation_helpers.OperationHelper

Google Cloud AutoML Hook。

Hook 中所有使用 project_id 的方法都必须使用关键字参数而不是位置参数调用。

static extract_object_id(obj)[source]

返回对象的唯一 ID。

get_conn()[source]

检索与 AutoML 的连接。

返回:

Google Cloud AutoML 客户端对象。

返回类型:

google.cloud.automl_v1beta1.AutoMlClient

property prediction_client: google.cloud.automl_v1beta1.PredictionServiceClient[source]

创建 PredictionServiceClient。

返回:

Google Cloud AutoML PredictionServiceClient 客户端对象。

返回类型:

google.cloud.automl_v1beta1.PredictionServiceClient

create_model(model, location, project_id=PROVIDE_PROJECT_ID, timeout=None, metadata=(), retry=DEFAULT)[source]

创建模型 ID,并在完成时在 response 字段中返回一个模型。

创建模型时,会为其创建多个模型评估:一个全局评估,以及每个标注规范一个评估。

参数:
  • model (dict | google.cloud.automl_v1beta1.Model) – 要创建的模型 ID。如果提供了字典,则其形式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.Model 相同

  • project_id (str) – 将创建模型的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types._OperationFuture 实例

返回类型:

google.api_core.operation.Operation

batch_predict(model_id, input_config, output_config, location, project_id=PROVIDE_PROJECT_ID, params=None, retry=DEFAULT, timeout=None, metadata=())[source]

执行批量预测并返回一个长时间运行的操作对象。

与在线 Predict 不同,批量预测结果不会立即在响应中提供。取而代之的是,返回一个长时间运行的操作对象。

参数:
  • model_id (str) – 请求提供批量预测的模型 ID 名称。

  • input_config (dict | google.cloud.automl_v1beta1.BatchPredictInputConfig) – 必需。批量预测的输入配置。如果提供了字典,则其形式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.BatchPredictInputConfig 相同

  • output_config (dict | google.cloud.automl_v1beta1.BatchPredictOutputConfig) – 必需。指定输出预测应写入位置的配置。如果提供了字典,则其形式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.BatchPredictOutputConfig 相同

  • params (dict[str, str] | None) – 用于预测的附加域特定参数,任何字符串长度不得超过 25000 个字符。

  • project_id (str) – 模型所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types._OperationFuture 实例

返回类型:

google.api_core.operation.Operation

predict(model_id, payload, location, project_id=PROVIDE_PROJECT_ID, params=None, retry=DEFAULT, timeout=None, metadata=())[source]

执行在线预测并在响应中返回预测结果。

参数:
  • model_id (str) – 请求提供预测的模型 ID 名称。

  • payload (dict | google.cloud.automl_v1beta1.ExamplePayload) – 必需。用于执行预测的负载。该负载必须与模型 ID 经过训练以解决的问题类型匹配。如果提供了字典,则其形式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.ExamplePayload 相同

  • params (dict[str, str] | None) – 附加域特定参数,任何字符串长度不得超过 25000 个字符。

  • project_id (str) – 模型所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types.PredictResponse 实例

返回类型:

google.cloud.automl_v1beta1.PredictResponse

create_dataset(dataset, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[source]

创建数据集。

参数:
  • dataset (dict | google.cloud.automl_v1beta1.Dataset) – 要创建的数据集。如果提供了字典,则其形式必须与 protobuf 消息 Dataset 相同。

  • project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types.Dataset 实例。

返回类型:

google.cloud.automl_v1beta1.Dataset

import_data(dataset_id, location, input_config, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[source]

将数据导入数据集。对于表,此方法只能在空数据集上调用。

参数:
  • dataset_id (str) – AutoML 数据集的名称。

  • input_config (dict | google.cloud.automl_v1beta1.InputConfig) – 期望的输入位置及其域特定语义(如果有)。如果提供了字典,则其形式必须与 protobuf 消息 InputConfig 相同。

  • project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types._OperationFuture 实例

返回类型:

google.api_core.operation.Operation

list_column_specs(dataset_id, table_spec_id, location, project_id=PROVIDE_PROJECT_ID, field_mask=None, filter_=None, page_size=None, retry=DEFAULT, timeout=None, metadata=())[source]

列出表规范中的列规范。

参数:
  • dataset_id (str) – AutoML 数据集的名称。

  • table_spec_id (str) – 用于路径构建器的表规范 ID。

  • field_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 指定要读取哪些字段的掩码。如果提供了字典,则其形式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.FieldMask 相同

  • filter – 过滤表达式,参见 go/filtering。

  • page_size (int | None) – 底层 API 响应中包含的最大资源数量。如果按资源进行分页流式传输,则此参数不影响返回值。如果按页进行分页流式传输,则此参数确定一页中的最大资源数量。

  • project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types.ColumnSpec 实例。

返回类型:

google.cloud.automl_v1beta1.services.auto_ml.pagers.ListColumnSpecsPager

get_model(model_id, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[source]

获取 AutoML 模型。

参数:
  • model_id (str) – 模型名称。

  • project_id (str) – 模型所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types.Model 实例。

返回类型:

google.cloud.automl_v1beta1.Model

delete_model(model_id, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[source]

删除 AutoML 模型。

参数:
  • model_id (str) – 模型名称。

  • project_id (str) – 模型所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types._OperationFuture 实例。

返回类型:

google.api_core.operation.Operation

update_dataset(dataset, update_mask=None, retry=DEFAULT, timeout=None, metadata=())[source]

更新数据集。

参数:
  • dataset (dict | google.cloud.automl_v1beta1.Dataset) – 替换服务器上资源的那个数据集。如果提供了字典,则其形式必须与 protobuf 消息 Dataset 相同。

  • update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 应用于资源的更新掩码。如果提供了字典,则其形式必须与 protobuf 消息 FieldMask 相同。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types.Dataset 实例。

返回类型:

google.cloud.automl_v1beta1.Dataset

deploy_model(model_id, location, project_id=PROVIDE_PROJECT_ID, image_detection_metadata=None, retry=DEFAULT, timeout=None, metadata=())[source]

部署模型。

如果模型已部署,使用相同的参数再次部署没有效果。使用不同的参数(例如更改节点数量)部署将重置部署状态,而不会暂停模型 ID 的可用性。

仅适用于文本分类、图像对象检测和表;所有其他域都自动管理部署。

参数:
  • model_id (str) – 请求提供预测的模型 ID 名称。

  • image_detection_metadata (google.cloud.automl_v1beta1.ImageObjectDetectionModelDeploymentMetadata | dict | None) – 图像对象检测特定的模型部署元数据。如果提供了字典,则其形式必须与 protobuf 消息 ImageObjectDetectionModelDeploymentMetadata 相同

  • project_id (str) – 将创建模型的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types._OperationFuture 实例。

返回类型:

google.api_core.operation.Operation

list_table_specs(dataset_id, location, project_id=PROVIDE_PROJECT_ID, filter_=None, page_size=None, retry=DEFAULT, timeout=None, metadata=())[source]

列出数据集 ID 中的表规范。

参数:
  • dataset_id (str) – 数据集名称。

  • filter – 过滤表达式,参见 go/filtering。

  • page_size (int | None) – 底层 API 响应中包含的最大资源数量。如果按资源进行分页流式传输,则此参数不影响返回值。如果按页进行分页流式传输,则此参数确定一页中的最大资源数量。

  • project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

一个 google.gax.PageIterator 实例。默认情况下,这是一个 google.cloud.automl_v1beta1.types.TableSpec 实例的可迭代对象。此对象还可以通过 options 参数配置为迭代响应的页面。

返回类型:

google.cloud.automl_v1beta1.services.auto_ml.pagers.ListTableSpecsPager

list_datasets(location, project_id, retry=DEFAULT, timeout=None, metadata=())[source]

列出项目中的数据集。

参数:
  • project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

一个 google.gax.PageIterator 实例。默认情况下,这是一个 google.cloud.automl_v1beta1.types.Dataset 实例的可迭代对象。此对象还可以通过 options 参数配置为迭代响应的页面。

返回类型:

google.cloud.automl_v1beta1.services.auto_ml.pagers.ListDatasetsPager

delete_dataset(dataset_id, location, project_id, retry=DEFAULT, timeout=None, metadata=())[source]

删除数据集及其所有内容。

参数:
  • dataset_id (str) – 要删除的数据集 ID。

  • project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types._OperationFuture 实例

返回类型:

google.api_core.operation.Operation

get_dataset(dataset_id, location, project_id, retry=DEFAULT, timeout=None, metadata=())[source]

检索给定数据集 ID 的数据集。

参数:
  • dataset_id (str) – 要检索的数据集 ID。

  • location (str) – 项目的位置。

  • project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。

返回:

google.cloud.automl_v1beta1.types.dataset.Dataset 实例。

返回类型:

google.cloud.automl_v1beta1.Dataset

此条目有帮助吗?