airflow.providers.google.cloud.operators.dataprep

此模块包含一个 Google Dataprep 算子。

DataprepGetJobsForJobGroupOperator

获取 Cloud Dataprep 作业中的批处理作业信息。

DataprepGetJobGroupOperator

获取指定的作业组。

DataprepRunJobGroupOperator

创建一个 jobGroup,它以认证用户的身份启动指定的作业。

DataprepCopyFlowOperator

创建所提供流 ID 的副本,以及所有包含的数据处理脚本。

DataprepDeleteFlowOperator

删除具有指定 ID 的流。

DataprepRunFlowOperator

运行具有指定 ID 的流。

模块内容

class airflow.providers.google.cloud.operators.dataprep.DataprepGetJobsForJobGroupOperator(*, dataprep_conn_id='dataprep_default', job_group_id, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取 Cloud Dataprep 作业中的批处理作业信息。

API 文档: https://clouddataprep.com/documentation/api#section/Overview

另请参阅

有关如何使用此算子的更多信息,请参阅指南:获取作业组的作业

:param job_group_id 将要请求的作业组的 ID

template_fields: collections.abc.Sequence[str] = ('job_group_id',)[source]
dataprep_conn_id = 'dataprep_default'[source]
job_group_id[source]
execute(context)[source]

创建算子时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataprep.DataprepGetJobGroupOperator(*, dataprep_conn_id='dataprep_default', project_id=PROVIDE_PROJECT_ID, job_group_id, embed, include_deleted, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取指定的作业组。

作业组是在流中从特定节点执行的作业。

API 文档: https://clouddataprep.com/documentation/api#section/Overview

另请参阅

有关如何使用此算子的更多信息,请参阅指南:获取作业组

参数:
  • job_group_id (int | str) – 将要请求的作业组的 ID

  • embed (str) – 作为响应一部分要获取的逗号分隔对象列表

  • include_deleted (bool) – 如果设置为“true”,将包含已删除的对象

template_fields: collections.abc.Sequence[str] = ('job_group_id', 'embed', 'project_id')[source]
dataprep_conn_id: str = 'dataprep_default'[source]
project_id = None[source]
job_group_id[source]
embed[source]
include_deleted[source]
execute(context)[source]

创建算子时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataprep.DataprepRunJobGroupOperator(*, project_id=PROVIDE_PROJECT_ID, dataprep_conn_id='dataprep_default', body_request, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建一个 jobGroup,它以认证用户的身份启动指定的作业。

这执行的操作与在应用程序中点击“运行作业”按钮相同。

要获取 recipe_id,请参阅 Dataprep API 文档:https://clouddataprep.com/documentation/api#operation/runJobGroup

另请参阅

有关如何使用此算子的更多信息,请参阅指南:运行作业组

参数:
  • dataprep_conn_id (str) – Dataprep 连接 ID

  • body_request (dict) – 作为 body_request 传递给 GoogleDataprepHook 的 run_job_group 方法,它标识要运行的数据处理脚本。

template_fields: collections.abc.Sequence[str] = ('body_request',)[source]
project_id = None[source]
dataprep_conn_id = 'dataprep_default'[source]
body_request[source]
execute(context)[source]

创建算子时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataprep.DataprepCopyFlowOperator(*, project_id=PROVIDE_PROJECT_ID, dataprep_conn_id='dataprep_default', flow_id, name='', description='', copy_datasources=False, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建所提供流 ID 的副本,以及所有包含的数据处理脚本。

参数:
  • dataprep_conn_id (str) – Dataprep 连接 ID

  • flow_id (int | str) – 要复制的流的 ID

  • name (str) – 流副本的名称

  • description (str) – 流副本的描述

  • copy_datasources (bool) – 用于定义是否应复制数据输入的布尔值。

template_fields: collections.abc.Sequence[str] = ('flow_id', 'name', 'project_id', 'description')[source]
project_id = None[source]
dataprep_conn_id = 'dataprep_default'[source]
flow_id[source]
name = ''[source]
description = ''[source]
copy_datasources = False[source]
execute(context)[source]

创建算子时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataprep.DataprepDeleteFlowOperator(*, dataprep_conn_id='dataprep_default', flow_id, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除具有指定 ID 的流。

参数:
  • dataprep_conn_id (str) – Dataprep 连接 ID

  • flow_id (int | str) – 要复制的流的 ID

template_fields: collections.abc.Sequence[str] = ('flow_id',)[source]
dataprep_conn_id = 'dataprep_default'[source]
flow_id[source]
execute(context)[source]

创建算子时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataprep.DataprepRunFlowOperator(*, project_id=PROVIDE_PROJECT_ID, flow_id, body_request, dataprep_conn_id='dataprep_default', **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

运行具有指定 ID 的流。

参数:
  • dataprep_conn_id (str) – Dataprep 连接 ID

  • flow_id (int | str) – 要复制的流的 ID

  • body_request (dict) – 将要发送的 POST 请求体。

template_fields: collections.abc.Sequence[str] = ('flow_id', 'project_id')[source]
project_id = None[source]
flow_id[source]
body_request[source]
dataprep_conn_id = 'dataprep_default'[source]
execute(context)[source]

创建算子时派生。

Context 是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

此条目有帮助吗?