airflow.providers.google.cloud.operators.datafusion¶

此模块包含 Google DataFusion 操作符。

类¶

`CloudDataFusionRestartInstanceOperator`	重启单个 Data Fusion 实例。
`CloudDataFusionDeleteInstanceOperator`	删除单个 Data Fusion 实例。
`CloudDataFusionCreateInstanceOperator`	在指定的项目和位置创建新的 Data Fusion 实例。
`CloudDataFusionUpdateInstanceOperator`	更新单个 Data Fusion 实例。
`CloudDataFusionGetInstanceOperator`	获取单个 Data Fusion 实例的详细信息。
`CloudDataFusionCreatePipelineOperator`	创建 Cloud Data Fusion 流水线。
`CloudDataFusionDeletePipelineOperator`	删除 Cloud Data Fusion 流水线。
`CloudDataFusionListPipelinesOperator`	列出 Cloud Data Fusion 流水线。
`CloudDataFusionStartPipelineOperator`	启动 Cloud Data Fusion 流水线。适用于批处理和流式流水线。
`CloudDataFusionStopPipelineOperator`	停止 Cloud Data Fusion 流水线。适用于批处理和流式流水线。

模块内容¶

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionRestartInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

重启单个 Data Fusion 实例。

操作结束时，实例会完全重启。

另请参阅

有关如何使用此操作符的更多信息，请参阅指南: Restart DataFusion Instance

参数:

instance_name (str) – 要重启的实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
project_id (str) – 实例所属的 Google Cloud 项目 ID。
api_version (str) – 将请求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号，使用短期凭据进行模拟；或获取列表中最后一个帐号的 access_token 所需的帐号链列表，该帐号将在请求中被模拟。如果设置为字符串，该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列，列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色，列表中的第一个帐号将此角色授予发起请求的帐号（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息，请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionDeleteInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除单个 Data Fusion 实例。

另请参阅

有关如何使用此操作符的更多信息，请参阅指南: Delete DataFusion Instance

参数:

instance_name (str) – 要重启的实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
project_id (str) – 实例所属的 Google Cloud 项目 ID。
api_version (str) – 将请求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号，使用短期凭据进行模拟；或获取列表中最后一个帐号的 access_token 所需的帐号链列表，该帐号将在请求中被模拟。如果设置为字符串，该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列，列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色，列表中的第一个帐号将此角色授予发起请求的帐号（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息，请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionCreateInstanceOperator(*, instance_name, instance, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在指定的项目和位置创建新的 Data Fusion 实例。

另请参阅

有关如何使用此操作符的更多信息，请参阅指南: Create DataFusion Instance

参数:

instance_name (str) – 要创建的实例名称。
instance (dict[str, Any]) – Instance 的一个实例。 https://cloud.google.com/data-fusion/docs/reference/rest/v1beta1/projects.locations.instances#Instance
location (str) – 要处理请求的 Cloud Data Fusion 位置。
project_id (str) – 实例所属的 Google Cloud 项目 ID。
api_version (str) – 将请求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号，使用短期凭据进行模拟；或获取列表中最后一个帐号的 access_token 所需的帐号链列表，该帐号将在请求中被模拟。如果设置为字符串，该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列，列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色，列表中的第一个帐号将此角色授予发起请求的帐号（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'instance', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

instance_name[source]¶

instance[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息，请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionUpdateInstanceOperator(*, instance_name, instance, update_mask, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

更新单个 Data Fusion 实例。

另请参阅

有关如何使用此操作符的更多信息，请参阅指南: Update DataFusion Instance

参数:

instance_name (str) – 要创建的实例名称。
instance (dict[str, Any]) – Instance 的一个实例。 https://cloud.google.com/data-fusion/docs/reference/rest/v1beta1/projects.locations.instances#Instance
update_mask (str) – 字段掩码用于指定更新将覆盖实例资源中的哪些字段。在 updateMask 中指定的字段是相对于资源的，而不是完整的请求。如果字段在掩码中，它将被覆盖。如果用户未提供掩码，所有支持的字段（当前包括标签和选项）都将被覆盖。字段的完全限定名称的逗号分隔列表。示例：“user.displayName,photo”。 https://developers.google.com/protocol-buffers/docs/reference/google.protobuf?_ga=2.205612571.-968688242.1573564810#google.protobuf.FieldMask
location (str) – 要处理请求的 Cloud Data Fusion 位置。
project_id (str) – 实例所属的 Google Cloud 项目 ID。
api_version (str) – 将请求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号，使用短期凭据进行模拟；或获取列表中最后一个帐号的 access_token 所需的帐号链列表，该帐号将在请求中被模拟。如果设置为字符串，该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列，列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色，列表中的第一个帐号将此角色授予发起请求的帐号（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'instance', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

update_mask[source]¶

instance_name[source]¶

instance[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息，请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionGetInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取单个 Data Fusion 实例的详细信息。

另请参阅

有关如何使用此操作符的更多信息，请参阅指南: Get DataFusion Instance

参数:

instance_name (str) – 实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
project_id (str) – 实例所属的 Google Cloud 项目 ID。
api_version (str) – 将请求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号，使用短期凭据进行模拟；或获取列表中最后一个帐号的 access_token 所需的帐号链列表，该帐号将在请求中被模拟。如果设置为字符串，该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列，列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色，列表中的第一个帐号将此角色授予发起请求的帐号（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息，请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionCreatePipelineOperator(*, pipeline_name, pipeline, instance_name, location, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建 Cloud Data Fusion 流水线。

另请参阅

有关如何使用此运算符的更多信息，请参阅指南：创建 DataFusion 流水线

参数:

pipeline_name (str) – 您的流水线名称。
pipeline (dict[str, Any]) – 流水线定义。更多信息请查看：https://docs.cdap.io/cdap/current/en/developer-manual/pipelines/developing-pipelines.html#pipeline-configuration-file-format
instance_name (str) – 实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
namespace (str) – 如果您的流水线属于基础版实例，命名空间 ID 始终为 default。如果您的流水线属于企业版实例，您可以创建一个命名空间。
api_version (str) – 将请求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号，使用短期凭据进行模拟；或获取列表中最后一个帐号的 access_token 所需的帐号链列表，该帐号将在请求中被模拟。如果设置为字符串，该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列，列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色，列表中的第一个帐号将此角色授予发起请求的帐号（模板化）。

operator_extra_links[source]¶

template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'impersonation_chain')[source]¶

pipeline_name[source]¶

pipeline[source]¶

namespace = 'default'[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息，请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionDeletePipelineOperator(*, pipeline_name, instance_name, location, version_id=None, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除 Cloud Data Fusion 流水线。

另请参阅

有关如何使用此运算符的更多信息，请参阅指南：删除 DataFusion 流水线

参数:

pipeline_name (str) – 您的流水线名称。
version_id (str | None) – 要删除的流水线版本
instance_name (str) – 实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
namespace (str) – 如果您的流水线属于基础版实例，命名空间 ID 始终为 default。如果您的流水线属于企业版实例，您可以创建一个命名空间。
api_version (str) – 将请求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号，使用短期凭据进行模拟；或获取列表中最后一个帐号的 access_token 所需的帐号链列表，该帐号将在请求中被模拟。如果设置为字符串，该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列，列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色，列表中的第一个帐号将此角色授予发起请求的帐号（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'version_id', 'pipeline_name', 'impersonation_chain')[source]¶

pipeline_name[source]¶

version_id = None[source]¶

namespace = 'default'[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息，请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionListPipelinesOperator(*, instance_name, location, artifact_name=None, artifact_version=None, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

列出 Cloud Data Fusion 流水线。

另请参阅

有关如何使用此运算符的更多信息，请参阅指南：列出 DataFusion 流水线

参数:

instance_name (str) – 实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
artifact_version (str | None) – 用于过滤实例的 Artifact 版本
artifact_name (str | None) – 用于过滤实例的 Artifact 名称
namespace (str) – 如果您的流水线属于基础版实例，命名空间 ID 始终为 default。如果您的流水线属于企业版实例，您可以创建一个命名空间。
api_version (str) – 将请求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号，使用短期凭据进行模拟；或获取列表中最后一个帐号的 access_token 所需的帐号链列表，该帐号将在请求中被模拟。如果设置为字符串，该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列，列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色，列表中的第一个帐号将此角色授予发起请求的帐号（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'artifact_name', 'artifact_version', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

artifact_version = None[source]¶

artifact_name = None[source]¶

namespace = 'default'[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息，请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionStartPipelineOperator(*, pipeline_name, instance_name, location, pipeline_type=DataFusionPipelineType.BATCH, runtime_args=None, success_states=None, namespace='default', pipeline_timeout=5 * 60, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=3.0, **kwargs)[source]¶

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

启动 Cloud Data Fusion 流水线。适用于批处理和流式流水线。

另请参阅

有关如何使用此运算符的更多信息，请参阅指南：启动 DataFusion 流水线

参数:

pipeline_name (str) – 您的流水线名称。
pipeline_type (airflow.providers.google.cloud.utils.datafusion.DataFusionPipelineType) – 可选的流水线类型（默认为 BATCH）。
instance_name (str) – 实例名称。
success_states (list[str] | None) – 如果提供，运算符将等待流水线进入提供的状态之一。
pipeline_timeout (int) – 运算符应等待流水线处于 success_states 之一状态的时长（秒）。仅当提供 success_states 时有效。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
runtime_args (dict[str, Any] | None) – 可选的运行时参数，用于传递给流水线
namespace (str) – 如果您的流水线属于基础版实例，命名空间 ID 始终为 default。如果您的流水线属于企业版实例，您可以创建一个命名空间。
api_version (str) – 将请求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号，使用短期凭据进行模拟；或获取列表中最后一个帐号的 access_token 所需的帐号链列表，该帐号将在请求中被模拟。如果设置为字符串，该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列，列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色，列表中的第一个帐号将此角色授予发起请求的帐号（模板化）。
asynchronous – 在向 Data Fusion API 提交流水线 ID 后立即返回的标志。这对于提交长时间运行的流水线并使用 CloudDataFusionPipelineStateSensor 异步等待它们非常有用
deferrable (bool) – 在可延迟模式下运行运算符。与 asynchronous 参数无关。asynchronous 参数提供了使用 sleep() 方法等待流水线达到终止状态的可能性，而可延迟模式则使用异步调用检查状态。不能同时使用 asynchronous 和 deferrable 参数。
poll_interval – 检查状态的轮询周期（秒）。仅在可延迟模式下使用。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'runtime_args', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

pipeline_name[source]¶

pipeline_type[source]¶

runtime_args = None[source]¶

namespace = 'default'[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

asynchronous = False[source]¶

pipeline_timeout = 300[source]¶

deferrable = True[source]¶

poll_interval = 3.0[source]¶

execute(context)[source]¶

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息，请参阅 get_template_context。

execute_complete(context, event)[source]¶

当触发器触发时作为回调函数执行 - 立即返回。

依赖触发器抛出异常，否则假定执行成功。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionStopPipelineOperator(*, pipeline_name, instance_name, location, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

停止 Cloud Data Fusion 流水线。适用于批处理和流式流水线。

另请参阅

有关如何使用此 Operator 的更多信息，请参阅指南： Stop a DataFusion pipeline

参数:

pipeline_name (str) – 您的流水线名称。
instance_name (str) – 实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
namespace (str) – 如果您的流水线属于基础版实例，命名空间 ID 始终为 default。如果您的流水线属于企业版实例，您可以创建一个命名空间。
api_version (str) – 将请求的 api 版本，例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号，使用短期凭据进行模拟；或获取列表中最后一个帐号的 access_token 所需的帐号链列表，该帐号将在请求中被模拟。如果设置为字符串，该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列，列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色，列表中的第一个帐号将此角色授予发起请求的帐号（模板化）。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'impersonation_chain')[source]¶

operator_extra_links[source]¶

pipeline_name[source]¶

namespace = 'default'[source]¶

instance_name[source]¶

location[source]¶

project_id = None[source]¶

api_version = 'v1beta1'[source]¶

gcp_conn_id = 'google_cloud_default'[source]¶

impersonation_chain = None[source]¶

execute(context)[source]¶

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息，请参阅 get_template_context。