airflow.providers.google.cloud.operators.datafusion

此模块包含 Google DataFusion 操作符。

CloudDataFusionRestartInstanceOperator

重启单个 Data Fusion 实例。

CloudDataFusionDeleteInstanceOperator

删除单个 Data Fusion 实例。

CloudDataFusionCreateInstanceOperator

在指定的项目和位置创建新的 Data Fusion 实例。

CloudDataFusionUpdateInstanceOperator

更新单个 Data Fusion 实例。

CloudDataFusionGetInstanceOperator

获取单个 Data Fusion 实例的详细信息。

CloudDataFusionCreatePipelineOperator

创建 Cloud Data Fusion 流水线。

CloudDataFusionDeletePipelineOperator

删除 Cloud Data Fusion 流水线。

CloudDataFusionListPipelinesOperator

列出 Cloud Data Fusion 流水线。

CloudDataFusionStartPipelineOperator

启动 Cloud Data Fusion 流水线。适用于批处理和流式流水线。

CloudDataFusionStopPipelineOperator

停止 Cloud Data Fusion 流水线。适用于批处理和流式流水线。

模块内容

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionRestartInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

重启单个 Data Fusion 实例。

操作结束时,实例会完全重启。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: Restart DataFusion Instance

参数:
  • instance_name (str) – 要重启的实例名称。

  • location (str) – 要处理请求的 Cloud Data Fusion 位置。

  • project_id (str) – 实例所属的 Google Cloud 项目 ID。

  • api_version (str) – 将请求的 api 版本,例如 ‘v3’。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]
instance_name[source]
location[source]
project_id = None[source]
api_version = 'v1beta1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionDeleteInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除单个 Data Fusion 实例。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: Delete DataFusion Instance

参数:
  • instance_name (str) – 要重启的实例名称。

  • location (str) – 要处理请求的 Cloud Data Fusion 位置。

  • project_id (str) – 实例所属的 Google Cloud 项目 ID。

  • api_version (str) – 将请求的 api 版本,例如 ‘v3’。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]
instance_name[source]
location[source]
project_id = None[source]
api_version = 'v1beta1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionCreateInstanceOperator(*, instance_name, instance, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在指定的项目和位置创建新的 Data Fusion 实例。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: Create DataFusion Instance

参数:
  • instance_name (str) – 要创建的实例名称。

  • instance (dict[str, Any]) – Instance 的一个实例。 https://cloud.google.com/data-fusion/docs/reference/rest/v1beta1/projects.locations.instances#Instance

  • location (str) – 要处理请求的 Cloud Data Fusion 位置。

  • project_id (str) – 实例所属的 Google Cloud 项目 ID。

  • api_version (str) – 将请求的 api 版本,例如 ‘v3’。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'instance', 'impersonation_chain')[source]
instance_name[source]
instance[source]
location[source]
project_id = None[source]
api_version = 'v1beta1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionUpdateInstanceOperator(*, instance_name, instance, update_mask, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

更新单个 Data Fusion 实例。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: Update DataFusion Instance

参数:
  • instance_name (str) – 要创建的实例名称。

  • instance (dict[str, Any]) – Instance 的一个实例。 https://cloud.google.com/data-fusion/docs/reference/rest/v1beta1/projects.locations.instances#Instance

  • update_mask (str) – 字段掩码用于指定更新将覆盖实例资源中的哪些字段。在 updateMask 中指定的字段是相对于资源的,而不是完整的请求。如果字段在掩码中,它将被覆盖。如果用户未提供掩码,所有支持的字段(当前包括标签和选项)都将被覆盖。字段的完全限定名称的逗号分隔列表。示例:“user.displayName,photo”。 https://developers.google.com/protocol-buffers/docs/reference/google.protobuf?_ga=2.205612571.-968688242.1573564810#google.protobuf.FieldMask

  • location (str) – 要处理请求的 Cloud Data Fusion 位置。

  • project_id (str) – 实例所属的 Google Cloud 项目 ID。

  • api_version (str) – 将请求的 api 版本,例如 ‘v3’。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'instance', 'impersonation_chain')[source]
update_mask[source]
instance_name[source]
instance[source]
location[source]
project_id = None[source]
api_version = 'v1beta1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionGetInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取单个 Data Fusion 实例的详细信息。

另请参阅

有关如何使用此操作符的更多信息,请参阅指南: Get DataFusion Instance

参数:
  • instance_name (str) – 实例名称。

  • location (str) – 要处理请求的 Cloud Data Fusion 位置。

  • project_id (str) – 实例所属的 Google Cloud 项目 ID。

  • api_version (str) – 将请求的 api 版本,例如 ‘v3’。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]
instance_name[source]
location[source]
project_id = None[source]
api_version = 'v1beta1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionCreatePipelineOperator(*, pipeline_name, pipeline, instance_name, location, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建 Cloud Data Fusion 流水线。

另请参阅

有关如何使用此运算符的更多信息,请参阅指南:创建 DataFusion 流水线

参数:
  • pipeline_name (str) – 您的流水线名称。

  • pipeline (dict[str, Any]) – 流水线定义。更多信息请查看:https://docs.cdap.io/cdap/current/en/developer-manual/pipelines/developing-pipelines.html#pipeline-configuration-file-format

  • instance_name (str) – 实例名称。

  • location (str) – 要处理请求的 Cloud Data Fusion 位置。

  • namespace (str) – 如果您的流水线属于基础版实例,命名空间 ID 始终为 default。如果您的流水线属于企业版实例,您可以创建一个命名空间。

  • api_version (str) – 将请求的 api 版本,例如 ‘v3’。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'impersonation_chain')[source]
pipeline_name[source]
pipeline[source]
namespace = 'default'[source]
instance_name[source]
location[source]
project_id = None[source]
api_version = 'v1beta1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionDeletePipelineOperator(*, pipeline_name, instance_name, location, version_id=None, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除 Cloud Data Fusion 流水线。

另请参阅

有关如何使用此运算符的更多信息,请参阅指南:删除 DataFusion 流水线

参数:
  • pipeline_name (str) – 您的流水线名称。

  • version_id (str | None) – 要删除的流水线版本

  • instance_name (str) – 实例名称。

  • location (str) – 要处理请求的 Cloud Data Fusion 位置。

  • namespace (str) – 如果您的流水线属于基础版实例,命名空间 ID 始终为 default。如果您的流水线属于企业版实例,您可以创建一个命名空间。

  • api_version (str) – 将请求的 api 版本,例如 ‘v3’。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'version_id', 'pipeline_name', 'impersonation_chain')[source]
pipeline_name[source]
version_id = None[source]
namespace = 'default'[source]
instance_name[source]
location[source]
project_id = None[source]
api_version = 'v1beta1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionListPipelinesOperator(*, instance_name, location, artifact_name=None, artifact_version=None, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

列出 Cloud Data Fusion 流水线。

另请参阅

有关如何使用此运算符的更多信息,请参阅指南:列出 DataFusion 流水线

参数:
  • instance_name (str) – 实例名称。

  • location (str) – 要处理请求的 Cloud Data Fusion 位置。

  • artifact_version (str | None) – 用于过滤实例的 Artifact 版本

  • artifact_name (str | None) – 用于过滤实例的 Artifact 名称

  • namespace (str) – 如果您的流水线属于基础版实例,命名空间 ID 始终为 default。如果您的流水线属于企业版实例,您可以创建一个命名空间。

  • api_version (str) – 将请求的 api 版本,例如 ‘v3’。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'artifact_name', 'artifact_version', 'impersonation_chain')[source]
artifact_version = None[source]
artifact_name = None[source]
namespace = 'default'[source]
instance_name[source]
location[source]
project_id = None[source]
api_version = 'v1beta1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionStartPipelineOperator(*, pipeline_name, instance_name, location, pipeline_type=DataFusionPipelineType.BATCH, runtime_args=None, success_states=None, namespace='default', pipeline_timeout=5 * 60, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=3.0, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

启动 Cloud Data Fusion 流水线。适用于批处理和流式流水线。

另请参阅

有关如何使用此运算符的更多信息,请参阅指南:启动 DataFusion 流水线

参数:
  • pipeline_name (str) – 您的流水线名称。

  • pipeline_type (airflow.providers.google.cloud.utils.datafusion.DataFusionPipelineType) – 可选的流水线类型(默认为 BATCH)。

  • instance_name (str) – 实例名称。

  • success_states (list[str] | None) – 如果提供,运算符将等待流水线进入提供的状态之一。

  • pipeline_timeout (int) – 运算符应等待流水线处于 success_states 之一状态的时长(秒)。仅当提供 success_states 时有效。

  • location (str) – 要处理请求的 Cloud Data Fusion 位置。

  • runtime_args (dict[str, Any] | None) – 可选的运行时参数,用于传递给流水线

  • namespace (str) – 如果您的流水线属于基础版实例,命名空间 ID 始终为 default。如果您的流水线属于企业版实例,您可以创建一个命名空间。

  • api_version (str) – 将请求的 api 版本,例如 ‘v3’。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。

  • asynchronous – 在向 Data Fusion API 提交流水线 ID 后立即返回的标志。这对于提交长时间运行的流水线并使用 CloudDataFusionPipelineStateSensor 异步等待它们非常有用

  • deferrable (bool) – 在可延迟模式下运行运算符。与 asynchronous 参数无关。asynchronous 参数提供了使用 sleep() 方法等待流水线达到终止状态的可能性,而可延迟模式则使用异步调用检查状态。不能同时使用 asynchronous 和 deferrable 参数。

  • poll_interval – 检查状态的轮询周期(秒)。仅在可延迟模式下使用。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'runtime_args', 'impersonation_chain')[source]
pipeline_name[source]
pipeline_type[source]
runtime_args = None[source]
namespace = 'default'[source]
instance_name[source]
location[source]
project_id = None[source]
api_version = 'v1beta1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
asynchronous = False[source]
pipeline_timeout = 300[source]
deferrable = True[source]
poll_interval = 3.0[source]
execute(context)[source]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

execute_complete(context, event)[source]

当触发器触发时作为回调函数执行 - 立即返回。

依赖触发器抛出异常,否则假定执行成功。

class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionStopPipelineOperator(*, pipeline_name, instance_name, location, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

停止 Cloud Data Fusion 流水线。适用于批处理和流式流水线。

另请参阅

有关如何使用此 Operator 的更多信息,请参阅指南: Stop a DataFusion pipeline

参数:
  • pipeline_name (str) – 您的流水线名称。

  • instance_name (str) – 实例名称。

  • location (str) – 要处理请求的 Cloud Data Fusion 位置。

  • namespace (str) – 如果您的流水线属于基础版实例,命名空间 ID 始终为 default。如果您的流水线属于企业版实例,您可以创建一个命名空间。

  • api_version (str) – 将请求的 api 版本,例如 ‘v3’。

  • gcp_conn_id (str) – 获取连接信息时使用的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。

template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'impersonation_chain')[source]
pipeline_name[source]
namespace = 'default'[source]
instance_name[source]
location[source]
project_id = None[source]
api_version = 'v1beta1'[source]
gcp_conn_id = 'google_cloud_default'[source]
impersonation_chain = None[source]
execute(context)[source]

在创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文信息,请参阅 get_template_context。

本条目是否有帮助?