airflow.providers.google.cloud.hooks.dataprep
¶
此模块包含 Google Dataprep 钩子。
模块内容¶
类¶
作业组运行状态的类型。 |
|
用于连接 Dataprep API 的钩子。 |
- class airflow.providers.google.cloud.hooks.dataprep.GoogleDataprepHook(dataprep_conn_id=default_conn_name, api_version='v4', **kwargs)[source]¶
基类:
airflow.hooks.base.BaseHook
用于连接 Dataprep API 的钩子。
要使用 Airflow 连接 Dataprep,您需要 Dataprep 令牌。
https://clouddataprep.com/documentation/api#section/Authentication
它应该以 JSON 格式添加到 Airflow 中的连接中。
- get_jobs_for_job_group(job_id)[source]¶
获取有关 Cloud Dataprep 作业中的批处理作业的信息。
- 参数
job_id (int) – 将要获取的作业的 ID
- run_job_group(body_request)[source]¶
创建一个
jobGroup
,它以经过身份验证的用户身份启动指定的作业。这执行与在应用程序中单击“运行作业”按钮相同的操作。
要获取 recipe_id,请遵循 Dataprep API 文档 https://clouddataprep.com/documentation/api#operation/runJobGroup。
- 参数
body_request (dict) – 您想要运行的配方的标识符。
- create_flow(*, body_request)[源代码]¶
创建流程。
- 参数
body_request (dict) – 要发送的 POST 请求的主体。有关更多详细信息,请查看 https://clouddataprep.com/documentation/api#operation/createFlow
- copy_flow(*, flow_id, name='', description='', copy_datasources=False)[源代码]¶
创建提供的流程 ID 的副本,以及所有包含的配方。
- get_job_group_status(*, job_group_id)[源代码]¶
检查 Dataprep 任务是否已完成。
- 参数
job_group_id (int) – 要检查的作业组的 ID
- create_imported_dataset(*, body_request)[源代码]¶
创建导入的数据集。
- 参数
body_request (dict) – 要发送的 POST 请求的主体。有关更多详细信息,请查看 https://clouddataprep.com/documentation/api#operation/createImportedDataset
- create_wrangled_dataset(*, body_request)[源代码]¶
创建整理的数据集。
- 参数
body_request (dict) – 要发送的 POST 请求的主体。有关更多详细信息,请查看 https://clouddataprep.com/documentation/api#operation/createWrangledDataset
- create_output_object(*, body_request)[源代码]¶
创建输出。
- 参数
body_request (dict) – 要发送的 POST 请求的主体。有关更多详细信息,请查看 https://clouddataprep.com/documentation/api#operation/createOutputObject
- create_write_settings(*, body_request)[源代码]¶
创建写入设置。
- 参数
body_request (dict) – 要发送的 POST 请求的主体。有关更多详细信息,请查看 https://clouddataprep.com/documentation/api#tag/createWriteSetting