airflow.providers.google.cloud.hooks.automl
¶
该模块包含一个 Google AutoML hook。
模块内容¶
类¶
Google Cloud AutoML hook。 |
- class airflow.providers.google.cloud.hooks.automl.CloudAutoMLHook(gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]¶
基类:
airflow.providers.google.common.hooks.base_google.GoogleBaseHook
Google Cloud AutoML hook。
hook 中使用 project_id 的所有方法都必须使用关键字参数而不是位置参数调用。
- get_conn()[源代码]¶
检索与 AutoML 的连接。
- 返回
Google Cloud AutoML 客户端对象。
- 返回类型
google.cloud.automl_v1beta1.AutoMlClient
- prediction_client()[源代码]¶
创建 PredictionServiceClient。
- 返回
Google Cloud AutoML PredictionServiceClient 客户端对象。
- 返回类型
google.cloud.automl_v1beta1.PredictionServiceClient
- create_model(model, location, project_id=PROVIDE_PROJECT_ID, timeout=None, metadata=(), retry=DEFAULT)[源代码]¶
创建一个 model_id,并在完成时在 response 字段中返回 Model。
当你创建一个模型时,会为其创建几个模型评估:一个全局评估和一个针对每个注释规范的评估。
- 参数
model (dict | google.cloud.automl_v1beta1.Model) – 要创建的 model_id。 如果提供了 dict,则它必须与 protobuf 消息 google.cloud.automl_v1beta1.types.Model 的格式相同
project_id (str) – 如果为 None,则使用默认的 project_id, Google Cloud 项目的 ID,将在其中创建模型。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types._OperationFuture 实例
- 返回类型
- batch_predict(model_id, input_config, output_config, location, project_id=PROVIDE_PROJECT_ID, params=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
执行批量预测,并返回一个长时间运行的操作对象。
与在线 Predict 不同,批量预测结果不会立即在响应中可用。相反,返回一个长时间运行的操作对象。
- 参数
model_id (str) – 请求用于服务批量预测的模型 ID 的名称。
input_config (dict | google.cloud.automl_v1beta1.BatchPredictInputConfig) – 必需。批量预测的输入配置。如果提供了 dict,则它必须与 protobuf 消息 google.cloud.automl_v1beta1.types.BatchPredictInputConfig 的格式相同
output_config (dict | google.cloud.automl_v1beta1.BatchPredictOutputConfig) – 必需。指定应在何处写入输出预测的配置。如果提供了 dict,则它必须与 protobuf 消息 google.cloud.automl_v1beta1.types.BatchPredictOutputConfig 的格式相同
params (dict[str, str] | None) – 预测的其他特定领域参数,任何字符串的长度都必须不超过 25000 个字符。
project_id (str) – 如果为 None,则使用默认的 project_id,Google Cloud 项目的 ID,模型位于该项目中。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types._OperationFuture 实例
- 返回类型
- predict(model_id, payload, location, project_id=PROVIDE_PROJECT_ID, params=None, retry=DEFAULT, timeout=None, metadata=())[源]¶
执行在线预测并返回响应中的预测结果。
- 参数
model_id (str) – 请求用于提供预测服务的 model_id 名称。
payload (dict | google.cloud.automl_v1beta1.ExamplePayload) – 必需。执行预测的有效负载。有效负载必须与 model_id 训练用于解决的问题类型匹配。如果提供字典,则其格式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.ExamplePayload 相同
params (dict[str, str] | None) – 附加的特定于域的参数,任何字符串的长度必须不超过 25000 个字符。
project_id (str) – 如果为 None,则使用默认的 project_id,Google Cloud 项目的 ID,模型位于该项目中。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types.PredictResponse 实例
- 返回类型
google.cloud.automl_v1beta1.PredictResponse
- create_dataset(dataset, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[源]¶
创建一个数据集。
- 参数
dataset (dict | google.cloud.automl_v1beta1.Dataset) – 要创建的数据集。如果提供字典,则其格式必须与 protobuf 消息 Dataset 相同。
project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types.Dataset 实例。
- 返回类型
google.cloud.automl_v1beta1.Dataset
- import_data(dataset_id, location, input_config, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[源]¶
将数据导入数据集。对于表格,此方法只能在空数据集上调用。
- 参数
dataset_id (str) – AutoML 数据集的名称。
input_config (dict | google.cloud.automl_v1beta1.InputConfig) – 所需的输入位置及其特定于域的语义(如果有)。如果提供字典,则其格式必须与 protobuf 消息 InputConfig 相同。
project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types._OperationFuture 实例
- 返回类型
- list_column_specs(dataset_id, table_spec_id, location, project_id=PROVIDE_PROJECT_ID, field_mask=None, filter_=None, page_size=None, retry=DEFAULT, timeout=None, metadata=())[源]¶
列出表规范中的列规范。
- 参数
dataset_id (str) – AutoML 数据集的名称。
table_spec_id (str) – 用于路径构建器的 table_spec_id。
field_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 指定要读取的字段的掩码。如果提供字典,则其格式必须与 protobuf 消息 google.cloud.automl_v1beta1.types.FieldMask 相同
filter – 筛选表达式,请参阅 go/filtering。
page_size (int | None) – 基础 API 响应中包含的最大资源数。如果每个资源执行页面流式处理,则此参数不会影响返回值。如果每个页面执行页面流式处理,则此参数确定一个页面中资源的最大数量。
project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types.ColumnSpec 实例。
- 返回类型
google.cloud.automl_v1beta1.services.auto_ml.pagers.ListColumnSpecsPager
- get_model(model_id, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[源]¶
获取 AutoML 模型。
- 参数
model_id (str) – 模型的名称。
project_id (str) – 如果为 None,则使用默认的 project_id,Google Cloud 项目的 ID,模型位于该项目中。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types.Model 实例。
- 返回类型
google.cloud.automl_v1beta1.Model
- delete_model(model_id, location, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=())[源]¶
删除 AutoML 模型。
- 参数
model_id (str) – 模型的名称。
project_id (str) – 如果为 None,则使用默认的 project_id,Google Cloud 项目的 ID,模型位于该项目中。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types._OperationFuture 实例。
- 返回类型
- update_dataset(dataset, update_mask=None, retry=DEFAULT, timeout=None, metadata=())[源]¶
更新数据集。
- 参数
dataset (dict | google.cloud.automl_v1beta1.Dataset) – 替换服务器上资源的数据集。如果提供字典,则其格式必须与 protobuf 消息 Dataset 相同。
update_mask (dict | google.protobuf.field_mask_pb2.FieldMask | None) – 更新掩码应用于资源。如果提供字典,则其格式必须与 protobuf 消息 FieldMask 相同。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types.Dataset 实例。
- 返回类型
google.cloud.automl_v1beta1.Dataset
- deploy_model(model_id, location, project_id=PROVIDE_PROJECT_ID, image_detection_metadata=None, retry=DEFAULT, timeout=None, metadata=())[源]¶
部署模型。
如果模型已部署,使用相同参数进行部署不会产生任何影响。使用不同参数进行部署(例如更改 node_number)将重置部署状态,但不会暂停 model_id 的可用性。
仅适用于文本分类、图像物体检测和表格;所有其他领域都会自动管理部署。
- 参数
model_id (str) – 请求用于提供预测服务的模型名称。
image_detection_metadata (google.cloud.automl_v1beta1.ImageObjectDetectionModelDeploymentMetadata | dict | None) – 图像物体检测特定的模型部署元数据。如果提供了 dict,则其格式必须与 protobuf 消息 ImageObjectDetectionModelDeploymentMetadata 相同。
project_id (str) – 如果为 None,则使用默认的 project_id, Google Cloud 项目的 ID,将在其中创建模型。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types._OperationFuture 实例。
- 返回类型
- list_table_specs(dataset_id, location, project_id=PROVIDE_PROJECT_ID, filter_=None, page_size=None, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
列出 dataset_id 中的表格规格。
- 参数
dataset_id (str) – 数据集的名称。
filter – 筛选表达式,请参阅 go/filtering。
page_size (int | None) – 基础 API 响应中包含的最大资源数。如果每个资源执行页面流式处理,则此参数不会影响返回值。如果每个页面执行页面流式处理,则此参数确定一个页面中资源的最大数量。
project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
一个 google.gax.PageIterator 实例。默认情况下,这是一个 google.cloud.automl_v1beta1.types.TableSpec 实例的可迭代对象。此对象还可以配置为通过 options 参数迭代响应的页面。
- 返回类型
google.cloud.automl_v1beta1.services.auto_ml.pagers.ListTableSpecsPager
- list_datasets(location, project_id, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
列出项目中的数据集。
- 参数
project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
一个 google.gax.PageIterator 实例。默认情况下,这是一个 google.cloud.automl_v1beta1.types.Dataset 实例的可迭代对象。此对象还可以配置为通过 options 参数迭代响应的页面。
- 返回类型
google.cloud.automl_v1beta1.services.auto_ml.pagers.ListDatasetsPager
- delete_dataset(dataset_id, location, project_id, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
删除数据集及其所有内容。
- 参数
dataset_id (str) – 要删除的数据集的 ID。
project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。
location (str) – 项目的位置。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types._OperationFuture 实例
- 返回类型
- get_dataset(dataset_id, location, project_id, retry=DEFAULT, timeout=None, metadata=())[源代码]¶
检索给定 dataset_id 的数据集。
- 参数
dataset_id (str) – 要检索的数据集的 ID。
location (str) – 项目的位置。
project_id (str) – 如果为 None,则使用默认 project_id,否则为数据集所在的 Google Cloud 项目的 ID。
retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。
timeout (float | None) – 等待请求完成的时间(以秒为单位)。请注意,如果指定了 retry,则超时适用于每个单独的尝试。
metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。
- 返回
google.cloud.automl_v1beta1.types.dataset.Dataset 实例。
- 返回类型
google.cloud.automl_v1beta1.Dataset