airflow.providers.google.cloud.operators.datafusion¶
此模块包含 Google DataFusion 操作符。
类¶
重启单个 Data Fusion 实例。 |
|
删除单个 Data Fusion 实例。 |
|
在指定的项目和位置创建新的 Data Fusion 实例。 |
|
更新单个 Data Fusion 实例。 |
|
获取单个 Data Fusion 实例的详细信息。 |
|
创建 Cloud Data Fusion 流水线。 |
|
删除 Cloud Data Fusion 流水线。 |
|
列出 Cloud Data Fusion 流水线。 |
|
启动 Cloud Data Fusion 流水线。适用于批处理和流式流水线。 |
|
停止 Cloud Data Fusion 流水线。适用于批处理和流式流水线。 |
模块内容¶
- class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionRestartInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
重启单个 Data Fusion 实例。
操作结束时,实例会完全重启。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南: Restart DataFusion Instance
- 参数:
instance_name (str) – 要重启的实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
project_id (str) – 实例所属的 Google Cloud 项目 ID。
api_version (str) – 将请求的 api 版本,例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionDeleteInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除单个 Data Fusion 实例。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南: Delete DataFusion Instance
- 参数:
instance_name (str) – 要重启的实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
project_id (str) – 实例所属的 Google Cloud 项目 ID。
api_version (str) – 将请求的 api 版本,例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionCreateInstanceOperator(*, instance_name, instance, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
在指定的项目和位置创建新的 Data Fusion 实例。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南: Create DataFusion Instance
- 参数:
instance_name (str) – 要创建的实例名称。
instance (dict[str, Any]) – Instance 的一个实例。 https://cloud.google.com/data-fusion/docs/reference/rest/v1beta1/projects.locations.instances#Instance
location (str) – 要处理请求的 Cloud Data Fusion 位置。
project_id (str) – 实例所属的 Google Cloud 项目 ID。
api_version (str) – 将请求的 api 版本,例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('instance_name', 'instance', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionUpdateInstanceOperator(*, instance_name, instance, update_mask, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
更新单个 Data Fusion 实例。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南: Update DataFusion Instance
- 参数:
instance_name (str) – 要创建的实例名称。
instance (dict[str, Any]) – Instance 的一个实例。 https://cloud.google.com/data-fusion/docs/reference/rest/v1beta1/projects.locations.instances#Instance
update_mask (str) – 字段掩码用于指定更新将覆盖实例资源中的哪些字段。在 updateMask 中指定的字段是相对于资源的,而不是完整的请求。如果字段在掩码中,它将被覆盖。如果用户未提供掩码,所有支持的字段(当前包括标签和选项)都将被覆盖。字段的完全限定名称的逗号分隔列表。示例:“user.displayName,photo”。 https://developers.google.com/protocol-buffers/docs/reference/google.protobuf?_ga=2.205612571.-968688242.1573564810#google.protobuf.FieldMask
location (str) – 要处理请求的 Cloud Data Fusion 位置。
project_id (str) – 实例所属的 Google Cloud 项目 ID。
api_version (str) – 将请求的 api 版本,例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('instance_name', 'instance', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionGetInstanceOperator(*, instance_name, location, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
获取单个 Data Fusion 实例的详细信息。
另请参阅
有关如何使用此操作符的更多信息,请参阅指南: Get DataFusion Instance
- 参数:
instance_name (str) – 实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
project_id (str) – 实例所属的 Google Cloud 项目 ID。
api_version (str) – 将请求的 api 版本,例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('instance_name', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionCreatePipelineOperator(*, pipeline_name, pipeline, instance_name, location, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
创建 Cloud Data Fusion 流水线。
另请参阅
有关如何使用此运算符的更多信息,请参阅指南:创建 DataFusion 流水线
- 参数:
pipeline_name (str) – 您的流水线名称。
pipeline (dict[str, Any]) – 流水线定义。更多信息请查看:https://docs.cdap.io/cdap/current/en/developer-manual/pipelines/developing-pipelines.html#pipeline-configuration-file-format
instance_name (str) – 实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
namespace (str) – 如果您的流水线属于基础版实例,命名空间 ID 始终为 default。如果您的流水线属于企业版实例,您可以创建一个命名空间。
api_version (str) – 将请求的 api 版本,例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionDeletePipelineOperator(*, pipeline_name, instance_name, location, version_id=None, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
删除 Cloud Data Fusion 流水线。
另请参阅
有关如何使用此运算符的更多信息,请参阅指南:删除 DataFusion 流水线
- 参数:
pipeline_name (str) – 您的流水线名称。
version_id (str | None) – 要删除的流水线版本
instance_name (str) – 实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
namespace (str) – 如果您的流水线属于基础版实例,命名空间 ID 始终为 default。如果您的流水线属于企业版实例,您可以创建一个命名空间。
api_version (str) – 将请求的 api 版本,例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('instance_name', 'version_id', 'pipeline_name', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionListPipelinesOperator(*, instance_name, location, artifact_name=None, artifact_version=None, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
列出 Cloud Data Fusion 流水线。
另请参阅
有关如何使用此运算符的更多信息,请参阅指南:列出 DataFusion 流水线
- 参数:
instance_name (str) – 实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
artifact_version (str | None) – 用于过滤实例的 Artifact 版本
artifact_name (str | None) – 用于过滤实例的 Artifact 名称
namespace (str) – 如果您的流水线属于基础版实例,命名空间 ID 始终为 default。如果您的流水线属于企业版实例,您可以创建一个命名空间。
api_version (str) – 将请求的 api 版本,例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('instance_name', 'artifact_name', 'artifact_version', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionStartPipelineOperator(*, pipeline_name, instance_name, location, pipeline_type=DataFusionPipelineType.BATCH, runtime_args=None, success_states=None, namespace='default', pipeline_timeout=5 * 60, project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), poll_interval=3.0, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
启动 Cloud Data Fusion 流水线。适用于批处理和流式流水线。
另请参阅
有关如何使用此运算符的更多信息,请参阅指南:启动 DataFusion 流水线
- 参数:
pipeline_name (str) – 您的流水线名称。
pipeline_type (airflow.providers.google.cloud.utils.datafusion.DataFusionPipelineType) – 可选的流水线类型(默认为 BATCH)。
instance_name (str) – 实例名称。
success_states (list[str] | None) – 如果提供,运算符将等待流水线进入提供的状态之一。
pipeline_timeout (int) – 运算符应等待流水线处于
success_states
之一状态的时长(秒)。仅当提供success_states
时有效。location (str) – 要处理请求的 Cloud Data Fusion 位置。
namespace (str) – 如果您的流水线属于基础版实例,命名空间 ID 始终为 default。如果您的流水线属于企业版实例,您可以创建一个命名空间。
api_version (str) – 将请求的 api 版本,例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。
asynchronous – 在向 Data Fusion API 提交流水线 ID 后立即返回的标志。这对于提交长时间运行的流水线并使用 CloudDataFusionPipelineStateSensor 异步等待它们非常有用
deferrable (bool) – 在可延迟模式下运行运算符。与 asynchronous 参数无关。asynchronous 参数提供了使用 sleep() 方法等待流水线达到终止状态的可能性,而可延迟模式则使用异步调用检查状态。不能同时使用 asynchronous 和 deferrable 参数。
poll_interval – 检查状态的轮询周期(秒)。仅在可延迟模式下使用。
- template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'runtime_args', 'impersonation_chain')[source]¶
- class airflow.providers.google.cloud.operators.datafusion.CloudDataFusionStopPipelineOperator(*, pipeline_name, instance_name, location, namespace='default', project_id=PROVIDE_PROJECT_ID, api_version='v1beta1', gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]¶
基类:
airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator
停止 Cloud Data Fusion 流水线。适用于批处理和流式流水线。
另请参阅
有关如何使用此 Operator 的更多信息,请参阅指南: Stop a DataFusion pipeline
- 参数:
pipeline_name (str) – 您的流水线名称。
instance_name (str) – 实例名称。
location (str) – 要处理请求的 Cloud Data Fusion 位置。
namespace (str) – 如果您的流水线属于基础版实例,命名空间 ID 始终为 default。如果您的流水线属于企业版实例,您可以创建一个命名空间。
api_version (str) – 将请求的 api 版本,例如 ‘v3’。
gcp_conn_id (str) – 获取连接信息时使用的连接 ID。
impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐号,使用短期凭据进行模拟;或获取列表中最后一个帐号的 access_token 所需的帐号链列表,该帐号将在请求中被模拟。如果设置为字符串,该帐号必须向发起请求的帐号授予 Service Account Token Creator IAM 角色。如果设置为序列,列表中的身份必须向紧接的前一个身份授予 Service Account Token Creator IAM 角色,列表中的第一个帐号将此角色授予发起请求的帐号(模板化)。
- template_fields: collections.abc.Sequence[str] = ('instance_name', 'pipeline_name', 'impersonation_chain')[source]¶