airflow.providers.google.cloud.hooks.automl¶
本模块包含一个 Google AutoML Hook。
类¶
Google Cloud AutoML Hook。 |
模块内容¶
- class airflow.providers.google.cloud.hooks.automl.CloudAutoMLHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.common.hooks.base_google.GoogleBaseHook
,airflow.providers.google.common.hooks.operation_helpers.OperationHelper
Google Cloud AutoML Hook。
Hook 中所有使用 project_id 的方法都必须使用关键字参数而不是位置参数调用。
- get_conn()[source]¶
检索与 AutoML 的连接。
- 返回:
Google Cloud AutoML 客户端对象。
- 返回类型:
google.cloud.automl_v1beta1.AutoMlClient
- property prediction_client: google.cloud.automl_v1beta1.PredictionServiceClient[source]¶
创建 PredictionServiceClient。
- 返回:
Google Cloud AutoML PredictionServiceClient 客户端对象。
- 返回类型:
google.cloud.automl_v1beta1.PredictionServiceClient
- create_model(model, location, project_id=PROVIDE_PROJECT_ID, timeout=None, metadata=(), retry=DEFAULT)[source]¶
创建模型 ID,并在完成时在 response 字段中返回一个模型。
创建模型时,会为其创建多个模型评估:一个全局评估,以及每个标注规范一个评估。
- 参数:
model (dict | google.cloud.automl_v1beta1.Model) – 要创建的模型 ID。如果提供了字典,则其形式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.Model 相同
project_id (str) – 将创建模型的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types._OperationFuture 实例
- 返回类型:
- batch_predict(model_id, input_config, output_config, location, project_id=PROVIDE_PROJECT_ID, params=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
执行批量预测并返回一个长时间运行的操作对象。
与在线 Predict 不同,批量预测结果不会立即在响应中提供。取而代之的是,返回一个长时间运行的操作对象。
- 参数:
model_id (str) – 请求提供批量预测的模型 ID 名称。
input_config (dict | google.cloud.automl_v1beta1.BatchPredictInputConfig) – 必需。批量预测的输入配置。如果提供了字典,则其形式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.BatchPredictInputConfig 相同
output_config (dict | google.cloud.automl_v1beta1.BatchPredictOutputConfig) – 必需。指定输出预测应写入位置的配置。如果提供了字典,则其形式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.BatchPredictOutputConfig 相同
params (dict[str, str] | None) – 用于预测的附加域特定参数,任何字符串长度不得超过 25000 个字符。
project_id (str) – 模型所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types._OperationFuture 实例
- 返回类型:
- predict(model_id, payload, location, project_id=PROVIDE_PROJECT_ID, params=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
执行在线预测并在响应中返回预测结果。
- 参数:
model_id (str) – 请求提供预测的模型 ID 名称。
payload (dict | google.cloud.automl_v1beta1.ExamplePayload) – 必需。用于执行预测的负载。该负载必须与模型 ID 经过训练以解决的问题类型匹配。如果提供了字典,则其形式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.ExamplePayload 相同
params (dict[str, str] | None) – 附加域特定参数,任何字符串长度不得超过 25000 个字符。
project_id (str) – 模型所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types.PredictResponse 实例
- 返回类型:
google.cloud.automl_v1beta1.PredictResponse
- create_dataset(dataset, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[source]¶
创建数据集。
- 参数:
dataset (dict | google.cloud.automl_v1beta1.Dataset) – 要创建的数据集。如果提供了字典,则其形式必须与 protobuf 消息 Dataset 相同。
project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types.Dataset 实例。
- 返回类型:
google.cloud.automl_v1beta1.Dataset
- import_data(dataset_id, location, input_config, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[source]¶
将数据导入数据集。对于表,此方法只能在空数据集上调用。
- 参数:
dataset_id (str) – AutoML 数据集的名称。
input_config (dict | google.cloud.automl_v1beta1.InputConfig) – 期望的输入位置及其域特定语义(如果有)。如果提供了字典,则其形式必须与 protobuf 消息 InputConfig 相同。
project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types._OperationFuture 实例
- 返回类型:
- list_column_specs(dataset_id, table_spec_id, location, project_id=PROVIDE_PROJECT_ID, field_mask=None, filter_=None, page_size=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
列出表规范中的列规范。
- 参数:
dataset_id (str) – AutoML 数据集的名称。
table_spec_id (str) – 用于路径构建器的表规范 ID。
field_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 指定要读取哪些字段的掩码。如果提供了字典,则其形式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.FieldMask 相同
filter – 过滤表达式,参见 go/filtering。
page_size (int | None) – 底层 API 响应中包含的最大资源数量。如果按资源进行分页流式传输,则此参数不影响返回值。如果按页进行分页流式传输,则此参数确定一页中的最大资源数量。
project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types.ColumnSpec 实例。
- 返回类型:
google.cloud.automl_v1beta1.services.auto_ml.pagers.ListColumnSpecsPager
- get_model(model_id, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[source]¶
获取 AutoML 模型。
- 参数:
model_id (str) – 模型名称。
project_id (str) – 模型所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types.Model 实例。
- 返回类型:
google.cloud.automl_v1beta1.Model
- delete_model(model_id, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[source]¶
删除 AutoML 模型。
- 参数:
model_id (str) – 模型名称。
project_id (str) – 模型所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types._OperationFuture 实例。
- 返回类型:
- update_dataset(dataset, update_mask=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
更新数据集。
- 参数:
dataset (dict | google.cloud.automl_v1beta1.Dataset) – 替换服务器上资源的那个数据集。如果提供了字典,则其形式必须与 protobuf 消息 Dataset 相同。
update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 应用于资源的更新掩码。如果提供了字典,则其形式必须与 protobuf 消息 FieldMask 相同。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types.Dataset 实例。
- 返回类型:
google.cloud.automl_v1beta1.Dataset
- deploy_model(model_id, location, project_id=PROVIDE_PROJECT_ID, image_detection_metadata=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
部署模型。
如果模型已部署,使用相同的参数再次部署没有效果。使用不同的参数(例如更改节点数量)部署将重置部署状态,而不会暂停模型 ID 的可用性。
仅适用于文本分类、图像对象检测和表;所有其他域都自动管理部署。
- 参数:
model_id (str) – 请求提供预测的模型 ID 名称。
image_detection_metadata (google.cloud.automl_v1beta1.ImageObjectDetectionModelDeploymentMetadata | dict | None) – 图像对象检测特定的模型部署元数据。如果提供了字典,则其形式必须与 protobuf 消息 ImageObjectDetectionModelDeploymentMetadata 相同
project_id (str) – 将创建模型的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types._OperationFuture 实例。
- 返回类型:
- list_table_specs(dataset_id, location, project_id=PROVIDE_PROJECT_ID, filter_=None, page_size=None, retry=DEFAULT, timeout=None, metadata=())[source]¶
列出数据集 ID 中的表规范。
- 参数:
dataset_id (str) – 数据集名称。
filter – 过滤表达式,参见 go/filtering。
page_size (int | None) – 底层 API 响应中包含的最大资源数量。如果按资源进行分页流式传输,则此参数不影响返回值。如果按页进行分页流式传输,则此参数确定一页中的最大资源数量。
project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
一个 google.gax.PageIterator 实例。默认情况下,这是一个 google.cloud.automl_v1beta1.types.TableSpec 实例的可迭代对象。此对象还可以通过 options 参数配置为迭代响应的页面。
- 返回类型:
google.cloud.automl_v1beta1.services.auto_ml.pagers.ListTableSpecsPager
- list_datasets(location, project_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
列出项目中的数据集。
- 参数:
project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
一个 google.gax.PageIterator 实例。默认情况下,这是一个 google.cloud.automl_v1beta1.types.Dataset 实例的可迭代对象。此对象还可以通过 options 参数配置为迭代响应的页面。
- 返回类型:
google.cloud.automl_v1beta1.services.auto_ml.pagers.ListDatasetsPager
- delete_dataset(dataset_id, location, project_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
删除数据集及其所有内容。
- 参数:
dataset_id (str) – 要删除的数据集 ID。
project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types._OperationFuture 实例
- 返回类型:
- get_dataset(dataset_id, location, project_id, retry=DEFAULT, timeout=None, metadata=())[source]¶
检索给定数据集 ID 的数据集。
- 参数:
dataset_id (str) – 要检索的数据集 ID。
location (str) – 项目的位置。
project_id (str) – 数据集所在的 Google Cloud 项目的 ID;如果为 None,则使用默认的项目 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定为 None,则不会重试请求。
timeout (float | None) – 等待请求完成的超时时间(秒)。请注意,如果指定了 retry,则此超时时间适用于每次单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的附加元数据。
- 返回:
google.cloud.automl_v1beta1.types.dataset.Dataset 实例。
- 返回类型:
google.cloud.automl_v1beta1.Dataset