airflow.providers.google.cloud.hooks.dataprep¶
此模块包含 Google Dataprep hook。
类¶
作业组运行状态类型。 |
|
用于连接 Dataprep API 的 hook。 |
模块内容¶
- class airflow.providers.google.cloud.hooks.dataprep.GoogleDataprepHook(dataprep_conn_id=default_conn_name, api_version='v4', **kwargs)[source]¶
Bases:
airflow.hooks.base.BaseHook
用于连接 Dataprep API 的 hook。
要连接 Dataprep 与 Airflow,您需要 Dataprep token。
https://clouddataprep.com/documentation/api#section/Authentication
它应该以 JSON 格式添加到 Airflow 的 Connection 中。
- get_jobs_for_job_group(job_id)[source]¶
获取 Cloud Dataprep 作业中的批处理作业信息。
- 参数:
job_id (int) – 将要获取的作业 ID
- run_job_group(body_request)[source]¶
创建一个
jobGroup
,它以认证用户身份启动指定的作业。这与在应用程序中单击“运行作业”按钮执行的操作相同。
要获取 recipe_id,请参阅 Dataprep API 文档 https://clouddataprep.com/documentation/api#operation/runJobGroup。
- 参数:
body_request (dict) – 您想要运行的 recipe 的标识符。
- create_flow(*, body_request)[source]¶
创建流。
- 参数:
body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息,请参阅 https://clouddataprep.com/documentation/api#operation/createFlow
- copy_flow(*, flow_id, name='', description='', copy_datasources=False)[source]¶
创建提供的流 ID 的副本,以及所有包含的 recipe。
- get_job_group_status(*, job_group_id)[source]¶
检查 Dataprep 任务的状态是否已完成。
- 参数:
job_group_id (int) – 要检查的作业组 ID
- create_imported_dataset(*, body_request)[source]¶
创建导入的数据集。
- 参数:
body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息,请参阅 https://clouddataprep.com/documentation/api#operation/createImportedDataset
- create_wrangled_dataset(*, body_request)[source]¶
创建整理后的数据集。
- 参数:
body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息,请参阅 https://clouddataprep.com/documentation/api#operation/createWrangledDataset
- create_output_object(*, body_request)[source]¶
创建输出。
- 参数:
body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息,请参阅 https://clouddataprep.com/documentation/api#operation/createOutputObject
- create_write_settings(*, body_request)[source]¶
创建写入设置。
- 参数:
body_request (dict) – 要发送的 POST 请求的正文。有关更多详细信息,请参阅 https://clouddataprep.com/documentation/api#tag/createWriteSetting