airflow.providers.google.cloud.hooks.automl

该模块包含一个 Google AutoML hook。

模块内容

CloudAutoMLHook

Google Cloud AutoML hook。

class airflow.providers.google.cloud.hooks.automl.CloudAutoMLHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]

基类: airflow.providers.google.common.hooks.base_google.GoogleBaseHook

Google Cloud AutoML hook。

hook 中使用 project_id 的所有方法都必须使用关键字参数而不是位置参数调用。

static extract_object_id(obj)[源代码]

返回对象的唯一 ID。

get_conn()[源代码]

检索与 AutoML 的连接。

返回

Google Cloud AutoML 客户端对象。

返回类型

google.cloud.automl_v1beta1.AutoMlClient

wait_for_operation(operation, timeout=None)[源代码]

等待长时间运行的操作完成。

prediction_client()[源代码]

创建 PredictionServiceClient。

返回

Google Cloud AutoML PredictionServiceClient 客户端对象。

返回类型

google.cloud.automl_v1beta1.PredictionServiceClient

create_model(model, location, project_id=PROVIDE_PROJECT_ID, timeout=None, metadata=(), retry=DEFAULT)[源代码]

创建一个 model_id,并在完成时在 response 字段中返回 Model。

当你创建一个模型时,会为其创建几个模型评估:一个全局评估和一个针对每个注释规范的评估。

参数
  • model (dict | google.cloud.automl_v1beta1.Model) – 要创建的 model_id。 如果提供了 dict,则它必须与 protobuf 消息 google.cloud.automl_v1beta1.types.Model 的格式相同

  • project_id (str) – 如果为 None,则使用默认的 project_id, Google Cloud 项目的 ID,将在其中创建模型。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types._OperationFuture 实例

返回类型

google.api_core.operation.Operation

batch_predict(model_id, input_config, output_config, location, project_id=PROVIDE_PROJECT_ID, params=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

执行批量预测,并返回一个长时间运行的操作对象。

与在线 Predict 不同,批量预测结果不会立即在响应中可用。相反,返回一个长时间运行的操作对象。

参数
  • model_id (str) – 请求用于服务批量预测的模型 ID 的名称。

  • input_config (dict | google.cloud.automl_v1beta1.BatchPredictInputConfig) – 必需。批量预测的输入配置。如果提供了 dict,则它必须与 protobuf 消息 google.cloud.automl_v1beta1.types.BatchPredictInputConfig 的格式相同

  • output_config (dict | google.cloud.automl_v1beta1.BatchPredictOutputConfig) – 必需。指定应在何处写入输出预测的配置。如果提供了 dict,则它必须与 protobuf 消息 google.cloud.automl_v1beta1.types.BatchPredictOutputConfig 的格式相同

  • params (dict[str, str] | None) – 预测的其他特定领域参数,任何字符串的长度都必须不超过 25000 个字符。

  • project_id (str) – 如果为 None,则使用默认的 project_id,Google Cloud 项目的 ID,模型位于该项目中。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types._OperationFuture 实例

返回类型

google.api_core.operation.Operation

predict(model_id, payload, location, project_id=PROVIDE_PROJECT_ID, params=None, retry=DEFAULT, timeout=None, metadata=())[源]

执行在线预测并返回响应中的预测结果。

参数
  • model_id (str) – 请求用于提供预测服务的 model_id 名称。

  • payload (dict | google.cloud.automl_v1beta1.ExamplePayload) – 必需。执行预测的有效负载。有效负载必须与 model_id 训练用于解决的问题类型匹配。如果提供字典,则其格式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.ExamplePayload 相同

  • params (dict[str, str] | None) – 附加的特定于域的参数,任何字符串的长度必须不超过 25000 个字符。

  • project_id (str) – 如果为 None,则使用默认的 project_id,Google Cloud 项目的 ID,模型位于该项目中。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types.PredictResponse 实例

返回类型

google.cloud.automl_v1beta1.PredictResponse

create_dataset(dataset, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[源]

创建一个数据集。

参数
  • dataset (dict | google.cloud.automl_v1beta1.Dataset) – 要创建的数据集。如果提供字典,则其格式必须与 protobuf 消息 Dataset 相同。

  • project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types.Dataset 实例。

返回类型

google.cloud.automl_v1beta1.Dataset

import_data(dataset_id, location, input_config, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[源]

将数据导入数据集。对于表格,此方法只能在空数据集上调用。

参数
  • dataset_id (str) – AutoML 数据集的名称。

  • input_config (dict | google.cloud.automl_v1beta1.InputConfig) – 所需的输入位置及其特定于域的语义(如果有)。如果提供字典,则其格式必须与 protobuf 消息 InputConfig 相同。

  • project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types._OperationFuture 实例

返回类型

google.api_core.operation.Operation

list_column_specs(dataset_id, table_spec_id, location, project_id=PROVIDE_PROJECT_ID, field_mask=None, filter_=None, page_size=None, retry=DEFAULT, timeout=None, metadata=())[源]

列出表规范中的列规范。

参数
  • dataset_id (str) – AutoML 数据集的名称。

  • table_spec_id (str) – 用于路径构建器的 table_spec_id。

  • field_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 指定要读取的字段的掩码。如果提供字典,则其格式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.FieldMask 相同

  • filter – 筛选表达式,请参阅 go/filtering。

  • page_size (int | None) – 基础 API 响应中包含的最大资源数。如果每个资源执行页面流式处理,则此参数不会影响返回值。如果每个页面执行页面流式处理,则此参数确定一个页面中资源的最大数量。

  • project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types.ColumnSpec 实例。

返回类型

google.cloud.automl_v1beta1.services.auto_ml.pagers.ListColumnSpecsPager

get_model(model_id, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[源]

获取 AutoML 模型。

参数
  • model_id (str) – 模型的名称。

  • project_id (str) – 如果为 None,则使用默认的 project_id,Google Cloud 项目的 ID,模型位于该项目中。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types.Model 实例。

返回类型

google.cloud.automl_v1beta1.Model

delete_model(model_id, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[源]

删除 AutoML 模型。

参数
  • model_id (str) – 模型的名称。

  • project_id (str) – 如果为 None,则使用默认的 project_id,Google Cloud 项目的 ID,模型位于该项目中。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types._OperationFuture 实例。

返回类型

google.api_core.operation.Operation

update_dataset(dataset, update_mask=None, retry=DEFAULT, timeout=None, metadata=())[源]

更新数据集。

参数
  • dataset (dict | google.cloud.automl_v1beta1.Dataset) – 替换服务器上资源的数据集。如果提供字典,则其格式必须与 protobuf 消息 Dataset 相同。

  • update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 更新掩码应用于资源。如果提供字典,则其格式必须与 protobuf 消息 FieldMask 相同。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types.Dataset 实例。

返回类型

google.cloud.automl_v1beta1.Dataset

deploy_model(model_id, location, project_id=PROVIDE_PROJECT_ID, image_detection_metadata=None, retry=DEFAULT, timeout=None, metadata=())[源]

部署模型。

如果模型已部署,使用相同参数进行部署不会产生任何影响。使用不同参数进行部署(例如更改 node_number)将重置部署状态,但不会暂停 model_id 的可用性。

仅适用于文本分类、图像物体检测和表格;所有其他领域都会自动管理部署。

参数
  • model_id (str) – 请求用于提供预测服务的模型名称。

  • image_detection_metadata (google.cloud.automl_v1beta1.ImageObjectDetectionModelDeploymentMetadata | dict | None) – 图像物体检测特定的模型部署元数据。如果提供了 dict,则其格式必须与 protobuf 消息 ImageObjectDetectionModelDeploymentMetadata 相同。

  • project_id (str) – 如果为 None,则使用默认的 project_id, Google Cloud 项目的 ID,将在其中创建模型。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types._OperationFuture 实例。

返回类型

google.api_core.operation.Operation

list_table_specs(dataset_id, location, project_id=PROVIDE_PROJECT_ID, filter_=None, page_size=None, retry=DEFAULT, timeout=None, metadata=())[源代码]

列出 dataset_id 中的表格规格。

参数
  • dataset_id (str) – 数据集的名称。

  • filter – 筛选表达式,请参阅 go/filtering。

  • page_size (int | None) – 基础 API 响应中包含的最大资源数。如果每个资源执行页面流式处理,则此参数不会影响返回值。如果每个页面执行页面流式处理,则此参数确定一个页面中资源的最大数量。

  • project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

一个 google.gax.PageIterator 实例。默认情况下,这是一个 google.cloud.automl_v1beta1.types.TableSpec 实例的可迭代对象。此对象还可以配置为通过 options 参数迭代响应的页面。

返回类型

google.cloud.automl_v1beta1.services.auto_ml.pagers.ListTableSpecsPager

list_datasets(location, project_id, retry=DEFAULT, timeout=None, metadata=())[源代码]

列出项目中的数据集。

参数
  • project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

一个 google.gax.PageIterator 实例。默认情况下,这是一个 google.cloud.automl_v1beta1.types.Dataset 实例的可迭代对象。此对象还可以配置为通过 options 参数迭代响应的页面。

返回类型

google.cloud.automl_v1beta1.services.auto_ml.pagers.ListDatasetsPager

delete_dataset(dataset_id, location, project_id, retry=DEFAULT, timeout=None, metadata=())[源代码]

删除数据集及其所有内容。

参数
  • dataset_id (str) – 要删除的数据集的 ID。

  • project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。

  • location (str) – 项目的位置。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types._OperationFuture 实例

返回类型

google.api_core.operation.Operation

get_dataset(dataset_id, location, project_id, retry=DEFAULT, timeout=None, metadata=())[源代码]

检索给定 dataset_id 的数据集。

参数
  • dataset_id (str) – 要检索的数据集的 ID。

  • location (str) – 项目的位置。

  • project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

返回

google.cloud.automl_v1beta1.types.dataset.Dataset 实例。

返回类型

google.cloud.automl_v1beta1.Dataset

此条目是否有帮助?