airflow.providers.google.cloud.hooks.dataprep¶

此模块包含 Google Dataprep hook。

类¶

`JobGroupStatuses`	作业组运行状态类型。
`GoogleDataprepHook`	用于连接 Dataprep API 的 hook。

模块内容¶

class airflow.providers.google.cloud.hooks.dataprep.JobGroupStatuses[source]¶

Bases: str, enum.Enum

作业组运行状态类型。

CREATED = 'Created'[source]¶

UNDEFINED = 'undefined'[source]¶

IN_PROGRESS = 'InProgress'[source]¶

COMPLETE = 'Complete'[source]¶

FAILED = 'Failed'[source]¶

CANCELED = 'Canceled'[source]¶

class airflow.providers.google.cloud.hooks.dataprep.GoogleDataprepHook(dataprep_conn_id=default_conn_name, api_version='v4', **kwargs)[source]¶

Bases: airflow.hooks.base.BaseHook

用于连接 Dataprep API 的 hook。

要连接 Dataprep 与 Airflow，您需要 Dataprep token。

https://clouddataprep.com/documentation/api#section/Authentication

它应该以 JSON 格式添加到 Airflow 的 Connection 中。

conn_name_attr = 'dataprep_conn_id'[source]¶

default_conn_name = 'google_cloud_dataprep_default'[source]¶

conn_type = 'dataprep'[source]¶

hook_name = 'Google Dataprep'[source]¶

dataprep_conn_id = 'google_cloud_dataprep_default'[source]¶

api_version = 'v4'[source]¶

get_jobs_for_job_group(job_id)[source]¶

获取 Cloud Dataprep 作业中的批处理作业信息。

参数:: job_id (int) – 将要获取的作业 ID

get_job_group(job_group_id, embed, include_deleted)[source]¶

获取指定的作业组。

作业组是从流中特定节点执行的作业。

参数:

job_group_id (int) – 将要获取的作业 ID
embed (str) – 要作为响应一部分拉取的对象的逗号分隔列表
include_deleted (bool) – 如果设置为“true”，将包含已删除的对象

run_job_group(body_request)[source]¶

创建一个 jobGroup，它以认证用户身份启动指定的作业。

这与在应用程序中单击“运行作业”按钮执行的操作相同。

要获取 recipe_id，请参阅 Dataprep API 文档 https://clouddataprep.com/documentation/api#operation/runJobGroup。

参数:: body_request (dict) – 您想要运行的 recipe 的标识符。

create_flow(*, body_request)[source]¶

创建流。

参数:: body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息，请参阅 https://clouddataprep.com/documentation/api#operation/createFlow

copy_flow(*, flow_id, name='', description='', copy_datasources=False)[source]¶

创建提供的流 ID 的副本，以及所有包含的 recipe。

参数:

flow_id (int) – 要复制的流的 ID
name (str) – 流副本的名称
description (str) – 流副本的描述
copy_datasources (bool) – 布尔值，用于定义是否应该创建数据输入的副本。

delete_flow(*, flow_id)[source]¶

删除具有提供的 ID 的流。

参数:: flow_id (int) – 要复制的流的 ID

run_flow(*, flow_id, body_request)[source]¶

运行具有提供的 ID 的流。

参数:

flow_id (int) – 要复制的流的 ID
body_request (dict) – 要发送的 POST 请求的正文。

get_job_group_status(*, job_group_id)[source]¶

检查 Dataprep 任务的状态是否已完成。

参数:: job_group_id (int) – 要检查的作业组 ID

create_imported_dataset(*, body_request)[source]¶

创建导入的数据集。

参数:: body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息，请参阅 https://clouddataprep.com/documentation/api#operation/createImportedDataset

create_wrangled_dataset(*, body_request)[source]¶

创建整理后的数据集。

参数:: body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息，请参阅 https://clouddataprep.com/documentation/api#operation/createWrangledDataset

create_output_object(*, body_request)[source]¶

创建输出。

参数:: body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息，请参阅 https://clouddataprep.com/documentation/api#operation/createOutputObject

create_write_settings(*, body_request)[source]¶

创建写入设置。

参数:: body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息，请参阅 https://clouddataprep.com/documentation/api#tag/createWriteSetting

delete_imported_dataset(*, dataset_id)[source]¶

删除导入的数据集。

参数:: dataset_id (int) – 要删除的导入数据集的 ID。