airflow.providers.google.cloud.hooks.dataprep

此模块包含 Google Dataprep hook。

JobGroupStatuses

作业组运行状态类型。

GoogleDataprepHook

用于连接 Dataprep API 的 hook。

模块内容

class airflow.providers.google.cloud.hooks.dataprep.JobGroupStatuses[source]

Bases: str, enum.Enum

作业组运行状态类型。

CREATED = 'Created'[source]
UNDEFINED = 'undefined'[source]
IN_PROGRESS = 'InProgress'[source]
COMPLETE = 'Complete'[source]
FAILED = 'Failed'[source]
CANCELED = 'Canceled'[source]
class airflow.providers.google.cloud.hooks.dataprep.GoogleDataprepHook(dataprep_conn_id=default_conn_name, api_version='v4', **kwargs)[source]

Bases: airflow.hooks.base.BaseHook

用于连接 Dataprep API 的 hook。

要连接 Dataprep 与 Airflow,您需要 Dataprep token。

https://clouddataprep.com/documentation/api#section/Authentication

它应该以 JSON 格式添加到 Airflow 的 Connection 中。

conn_name_attr = 'dataprep_conn_id'[source]
default_conn_name = 'google_cloud_dataprep_default'[source]
conn_type = 'dataprep'[source]
hook_name = 'Google Dataprep'[source]
dataprep_conn_id = 'google_cloud_dataprep_default'[source]
api_version = 'v4'[source]
get_jobs_for_job_group(job_id)[source]

获取 Cloud Dataprep 作业中的批处理作业信息。

参数:

job_id (int) – 将要获取的作业 ID

get_job_group(job_group_id, embed, include_deleted)[source]

获取指定的作业组。

作业组是从流中特定节点执行的作业。

参数:
  • job_group_id (int) – 将要获取的作业 ID

  • embed (str) – 要作为响应一部分拉取的对象的逗号分隔列表

  • include_deleted (bool) – 如果设置为“true”,将包含已删除的对象

run_job_group(body_request)[source]

创建一个 jobGroup,它以认证用户身份启动指定的作业。

这与在应用程序中单击“运行作业”按钮执行的操作相同。

要获取 recipe_id,请参阅 Dataprep API 文档 https://clouddataprep.com/documentation/api#operation/runJobGroup

参数:

body_request (dict) – 您想要运行的 recipe 的标识符。

create_flow(*, body_request)[source]

创建流。

参数:

body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息,请参阅 https://clouddataprep.com/documentation/api#operation/createFlow

copy_flow(*, flow_id, name='', description='', copy_datasources=False)[source]

创建提供的流 ID 的副本,以及所有包含的 recipe。

参数:
  • flow_id (int) – 要复制的流的 ID

  • name (str) – 流副本的名称

  • description (str) – 流副本的描述

  • copy_datasources (bool) – 布尔值,用于定义是否应该创建数据输入的副本。

delete_flow(*, flow_id)[source]

删除具有提供的 ID 的流。

参数:

flow_id (int) – 要复制的流的 ID

run_flow(*, flow_id, body_request)[source]

运行具有提供的 ID 的流。

参数:
  • flow_id (int) – 要复制的流的 ID

  • body_request (dict) – 要发送的 POST 请求的正文。

get_job_group_status(*, job_group_id)[source]

检查 Dataprep 任务的状态是否已完成。

参数:

job_group_id (int) – 要检查的作业组 ID

create_imported_dataset(*, body_request)[source]

创建导入的数据集。

参数:

body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息,请参阅 https://clouddataprep.com/documentation/api#operation/createImportedDataset

create_wrangled_dataset(*, body_request)[source]

创建整理后的数据集。

参数:

body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息,请参阅 https://clouddataprep.com/documentation/api#operation/createWrangledDataset

create_output_object(*, body_request)[source]

创建输出。

参数:

body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息,请参阅 https://clouddataprep.com/documentation/api#operation/createOutputObject

create_write_settings(*, body_request)[source]

创建写入设置。

参数:

body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息,请参阅 https://clouddataprep.com/documentation/api#tag/createWriteSetting

delete_imported_dataset(*, dataset_id)[source]

删除导入的数据集。

参数:

dataset_id (int) – 要删除的导入数据集的 ID。

此条目有帮助吗?