airflow.providers.google.cloud.operators.dataproc

此模块包含 Google Dataproc 操作符。

模块内容

PreemptibilityType

包含适用于集群每个辅助工作节点的 Preemptibility 可能的类型值。

InstanceSelection

定义机器类型和机器类型所属的等级。

InstanceFlexibilityPolicy

实例灵活性策略,允许混合使用 VM 形状和配置模型。

ClusterGenerator

创建一个新的 Dataproc 集群。

DataprocCreateClusterOperator

在 Google Cloud Dataproc 上创建一个新的集群。

DataprocScaleClusterOperator

在 Google Cloud Dataproc 上扩展或缩小集群。

DataprocDeleteClusterOperator

删除项目中的一个集群。

DataprocStartClusterOperator

启动项目中的一个集群。

DataprocStopClusterOperator

停止项目中的一个集群。

DataprocJobBaseOperator

在 DataProc 上启动作业的操作符的基类。

DataprocCreateWorkflowTemplateOperator

创建新的工作流模板。

DataprocInstantiateWorkflowTemplateOperator

在 Google Cloud Dataproc 上实例化一个 WorkflowTemplate。

DataprocInstantiateInlineWorkflowTemplateOperator

在 Google Cloud Dataproc 上以内联方式实例化一个 WorkflowTemplate。

DataprocSubmitJobOperator

向集群提交一个作业。

DataprocUpdateClusterOperator

更新项目中的一个集群。

DataprocDiagnoseClusterOperator

诊断项目中的一个集群。

DataprocCreateBatchOperator

创建一个批处理工作负载。

DataprocDeleteBatchOperator

删除批处理工作负载资源。

DataprocGetBatchOperator

获取批处理工作负载资源的表示。

DataprocListBatchesOperator

列出批处理工作负载。

DataprocCancelOperationOperator

取消批处理工作负载资源。

class airflow.providers.google.cloud.operators.dataproc.PreemptibilityType[源代码]

基类:enum.Enum

包含适用于集群每个辅助工作节点的 Preemptibility 可能的类型值。

PREEMPTIBLE = 'PREEMPTIBLE'[源代码]
SPOT = 'SPOT'[源代码]
PREEMPTIBILITY_UNSPECIFIED = 'PREEMPTIBILITY_UNSPECIFIED'[源代码]
NON_PREEMPTIBLE = 'NON_PREEMPTIBLE'[源代码]
class airflow.providers.google.cloud.operators.dataproc.InstanceSelection[源代码]

定义机器类型和机器类型所属的等级。

google.cloud.dataproc.v1#google.cloud.dataproc.v1.InstanceFlexibilityPolicy.InstanceSelection 的表示。

参数
  • machine_types – 完整的机器类型名称,例如“n1-standard-16”。

  • rank – 此实例选择的优先级。数字越小表示优先级越高。Dataproc 将首先尝试根据具有优先级等级的机器类型创建 VM,并根据可用性回退到下一个等级。具有相同优先级的机器类型和实例选择具有相同的优先级。

machine_types: list[str][源代码]
rank: int = 0[源代码]
class airflow.providers.google.cloud.operators.dataproc.InstanceFlexibilityPolicy[源代码]

实例灵活性策略,允许混合使用 VM 形状和配置模型。

google.cloud.dataproc.v1#google.cloud.dataproc.v1.InstanceFlexibilityPolicy 的表示。

参数

instance_selection_list – 当创建新的 VM 时,该组将使用的实例选择选项列表。

instance_selection_list: list[InstanceSelection][源代码]
class airflow.providers.google.cloud.operators.dataproc.ClusterGenerator(project_id, num_workers=None, min_num_workers=None, zone=None, network_uri=None, subnetwork_uri=None, internal_ip_only=None, tags=None, storage_bucket=None, init_actions_uris=None, init_action_timeout='10m', metadata=None, custom_image=None, custom_image_project_id=None, custom_image_family=None, image_version=None, autoscaling_policy=None, properties=None, optional_components=None, num_masters=1, master_machine_type='n1-standard-4', master_disk_type='pd-standard', master_disk_size=1024, master_accelerator_type=None, master_accelerator_count=None, worker_machine_type='n1-standard-4', worker_disk_type='pd-standard', worker_disk_size=1024, worker_accelerator_type=None, worker_accelerator_count=None, num_preemptible_workers=0, preemptibility=PreemptibilityType.PREEMPTIBLE.value, service_account=None, service_account_scopes=None, idle_delete_ttl=None, auto_delete_time=None, auto_delete_ttl=None, customer_managed_key=None, enable_component_gateway=False, driver_pool_size=0, driver_pool_id=None, secondary_worker_instance_flexibility_policy=None, secondary_worker_accelerator_type=None, secondary_worker_accelerator_count=None, **kwargs)[source]

创建一个新的 Dataproc 集群。

参数
  • cluster_name – 要创建的 DataProc 集群的名称。(已模板化)

  • project_id (str) – 要在其中创建集群的 Google Cloud 项目的 ID。(已模板化)

  • num_workers (int | None) – 要启动的 Worker 节点数量。如果设置为零,则将在单节点模式下启动集群

  • min_num_workers (int | None) – 要创建的最小主 Worker 实例数量。 如果从 num_workers 中创建的虚拟机数量多于 min_num_workers,则会删除失败的虚拟机,将集群调整为可用的虚拟机并设置为 RUNNING。如果创建的虚拟机少于 min_num_workers,则集群将置于 ERROR 状态。不会删除失败的虚拟机。

  • storage_bucket (str | None) – 要使用的存储桶,设置为 None 将允许 dataproc 为您生成一个自定义存储桶

  • init_actions_uris (list[str] | None) – 包含 dataproc 初始化脚本的 GCS URI 列表

  • init_action_timeout (str) – init_actions_uris 中可执行脚本完成所需的时间

  • metadata (dict | None) – 要添加到所有实例的键值对 Google Compute Engine 元数据条目的字典

  • image_version (str | None) – Dataproc 集群内部的软件版本

  • custom_image (str | None) – 自定义 Dataproc 映像,有关详细信息,请参阅 https://cloud.google.com/dataproc/docs/guides/dataproc-images

  • custom_image_project_id (str | None) – 自定义 Dataproc 映像的项目 ID,有关详细信息,请参阅 https://cloud.google.com/dataproc/docs/guides/dataproc-images

  • custom_image_family (str | None) – 自定义 Dataproc 映像的系列,可以使用 --family 标志提供系列名称,有关详细信息,请参阅 https://cloud.google.com/dataproc/docs/guides/dataproc-images

  • autoscaling_policy (str | None) – 集群使用的自动扩缩策略。只有包含 projectid 和位置(区域)的资源名称有效。示例:projects/[projectId]/locations/[dataproc_region]/autoscalingPolicies/[policy_id]

  • properties (dict | None) – 要在配置文件(例如 spark-defaults.conf)上设置的属性字典,请参阅 https://cloud.google.com/dataproc/docs/reference/rest/v1/projects.regions.clusters#SoftwareConfig

  • optional_components (list[str] | None) – 可选集群组件的列表,有关详细信息,请参阅 https://cloud.google.com/dataproc/docs/reference/rest/v1/ClusterConfig#Component

  • num_masters (int) – 要启动的主节点数量

  • master_machine_type (str) – 用于主节点的计算引擎机器类型。

  • master_disk_type (str) – 主节点的启动磁盘类型(默认为 pd-standard)。有效值:pd-ssd (固态硬盘) 或 pd-standard (机械硬盘)。

  • master_disk_size (int) – 主节点的磁盘大小。

  • master_accelerator_type (str | None) – 要附加到主节点的加速器卡(GPU)类型,请参见 https://cloud.google.com/dataproc/docs/reference/rest/v1/InstanceGroupConfig#acceleratorconfig

  • master_accelerator_count (int | None) – 要附加到主节点的加速器卡(GPU)数量。

  • worker_machine_type (str) – 用于工作节点的计算引擎机器类型。

  • worker_disk_type (str) – 工作节点的启动磁盘类型(默认为 pd-standard)。有效值:pd-ssd (固态硬盘) 或 pd-standard (机械硬盘)。

  • worker_disk_size (int) – 工作节点的磁盘大小。

  • worker_accelerator_type (str | None) – 要附加到工作节点的加速器卡(GPU)类型,请参见 https://cloud.google.com/dataproc/docs/reference/rest/v1/InstanceGroupConfig#acceleratorconfig

  • worker_accelerator_count (int | None) – 要附加到工作节点的加速器卡(GPU)数量。

  • num_preemptible_workers (int) – 集群中作为辅助工作节点的虚拟机实例数量,默认情况下启用抢占功能。请注意,在一个集群中不能混合使用非抢占式和抢占式辅助工作节点。

  • preemptibility (str) – 适用于每个辅助工作节点的抢占类型,请参见 https://cloud.google.com/dataproc/docs/reference/rpc/ google.cloud.dataproc.v1#google.cloud.dataproc.v1.InstanceGroupConfig.Preemptibility

  • zone (str | None) – 集群所在的区域。设置为 None 以进行自动选择区域。(已模板化)

  • network_uri (str | None) – 用于机器通信的网络 URI,不能与 subnetwork_uri 一起指定。

  • subnetwork_uri (str | None) – 用于机器通信的子网 URI,不能与 network_uri 一起指定。

  • internal_ip_only (bool | None) – 如果为 true,则集群中的所有实例将仅具有内部 IP 地址。此选项只能为启用子网的网络启用。

  • tags (list[str] | None) – 要添加到所有实例的 GCE 标签。

  • region – 创建 Dataproc 集群的指定区域。

  • gcp_conn_id – 用于连接到 Google Cloud 的连接 ID。

  • service_account (str | None) – Dataproc 实例的服务帐户。

  • service_account_scopes (list[str] | None) – 要包含的服务帐户作用域的 URI。

  • idle_delete_ttl (int | None) – 集群在保持空闲状态时将保持活动状态的最长时间。超过此阈值将导致集群自动删除。以秒为单位的持续时间。

  • auto_delete_time (datetime.datetime | None) – 集群将自动删除的时间。

  • auto_delete_ttl (int | None) – 集群的生命周期,集群将在该持续时间结束时自动删除。以秒为单位的持续时间。(如果设置了 auto_delete_time,则此参数将被忽略)

  • customer_managed_key (str | None) – 用于磁盘加密的客户管理密钥 projects/[PROJECT_STORING_KEYS]/locations/[LOCATION]/keyRings/[KEY_RING_NAME]/cryptoKeys/[KEY_NAME] # noqa

  • enable_component_gateway (bool | None) – 提供对集群上默认和选定的可选组件的 Web 界面的访问。

  • driver_pool_size (int) – 节点组中的驱动程序节点数量。

  • driver_pool_id (str | None) – 驱动程序池的 ID。在集群中必须唯一。使用此 ID 来标识将来的操作(例如调整节点组大小)中的驱动程序组。

  • secondary_worker_instance_flexibility_policy (InstanceFlexibilityPolicy | None) – 实例灵活性策略,允许混合使用 VM 形状和配置模型。

  • secondary_worker_accelerator_type (str | None) – 要附加到辅助工作节点的加速器卡(GPU)类型,请参见 https://cloud.google.com/dataproc/docs/reference/rest/v1/InstanceGroupConfig#acceleratorconfig

  • secondary_worker_accelerator_count (int | None) – 要附加到辅助工作节点的加速器卡(GPU)数量。

make()[source]

充当辅助方法,以便于迁移。

返回

表示 Dataproc 集群的字典。

class airflow.providers.google.cloud.operators.dataproc.DataprocCreateClusterOperator(*, cluster_name, region, project_id=PROVIDE_PROJECT_ID, cluster_config=None, virtual_cluster_config=None, labels=None, request_id=None, delete_on_error=True, use_if_exists=True, num_retries_if_resource_is_not_ready=0, retry=DEFAULT, timeout=1 * 60 * 60, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在 Google Cloud Dataproc 上创建一个新的集群。

该操作符将等待直到创建成功或创建过程中发生错误。

如果集群已存在且 use_if_exists 为 True,则操作符将:- 如果集群状态为 ERROR,则在指定情况下删除它并引发错误;- 如果集群状态为 CREATING,则等待它,然后检查 ERROR 状态;- 如果集群状态为 DELETING,则等待它,然后创建新集群。

有关不同参数的详细说明,请参考https://cloud.google.com/dataproc/docs/reference/rest/v1/projects.regions.clusters

链接中详细说明的大部分配置参数都可作为此操作符的参数使用。

另请参阅

有关如何使用此操作符的更多信息,请查看指南: 创建集群

参数
  • project_id (str) – 要在其中创建集群的 Google 云项目的 ID。(模板化)

  • cluster_name (str) – 要创建的集群的名称

  • labels (dict | None) – 将分配给创建的集群的标签。请注意,在 cluster_config 参数的 ClusterConfig 对象中添加标签不会导致将标签添加到集群。集群的标签只能通过将值传递给 DataprocCreateCluster 操作符的参数来设置。

  • cluster_config (dict | google.cloud.dataproc_v1.Cluster | None) – 必需。要创建的集群配置。如果提供 dict,则其格式必须与 protobuf 消息 ClusterConfig 的格式相同

  • virtual_cluster_config (dict | None) – 可选。虚拟集群配置,用于创建不直接控制底层计算资源的 Dataproc 集群,例如,创建 Dataproc-on-GKE 集群 <https://cloud.google.com/dataproc/docs/concepts/jobs/dataproc-gke#create-a-dataproc-on-gke-cluster>

  • region (str) – 创建 dataproc 集群的指定区域。

  • delete_on_error (bool) – 如果为 true,则如果创建的集群状态为 ERROR,则将删除该集群。默认值为 true。

  • use_if_exists (bool) – 如果为 true,则使用现有集群

  • num_retries_if_resource_is_not_ready (int) – 可选。当出现资源未就绪错误时,集群创建请求的重试次数。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。如果服务器收到两个具有相同 ID 的 DeleteClusterRequest 请求,则第二个请求将被忽略,并返回在后端创建和存储的第一个 google.longrunning.Operation

  • retry (google.api_core.retry_async.AsyncRetry | google.api_core.gapic_v1.method._MethodDefault | google.api_core.retry.Retry) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

  • deferrable (bool) – 在可延迟模式下运行操作符。

  • polling_interval_seconds (int) – 在调用之间等待以检查运行状态的时间(以秒为单位)。

template_fields: collections.abc.Sequence[str] = ('project_id', 'region', 'cluster_config', 'virtual_cluster_config', 'cluster_name', 'labels',...[source]
template_fields_renderers[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event)[source]

充当触发器触发时的回调 - 立即返回。

依赖触发器引发异常,否则假设执行成功。

class airflow.providers.google.cloud.operators.dataproc.DataprocScaleClusterOperator(*, cluster_name, project_id=PROVIDE_PROJECT_ID, region='global', num_workers=2, num_preemptible_workers=0, graceful_decommission_timeout=None, gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在 Google Cloud Dataproc 上扩展或缩小集群。

该操作符将等待直到集群重新缩放完成。

使用示例

t1 = DataprocClusterScaleOperator(
    task_id="dataproc_scale",
    project_id="my-project",
    cluster_name="cluster-1",
    num_workers=10,
    num_preemptible_workers=10,
    graceful_decommission_timeout="1h",
)

另请参阅

有关缩放集群的更多详细信息,请参阅此参考资料:https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/scaling-clusters

参数
  • cluster_name (str) – 要缩放的集群的名称。(可使用模板)

  • project_id (str) – 运行该集群的 Google Cloud 项目的 ID。(可使用模板)

  • region (str) – Dataproc 集群的区域。(可使用模板)

  • num_workers (int) – 新的工作节点数量

  • num_preemptible_workers (int) – 新的抢占式工作节点数量

  • graceful_decommission_timeout (str | None) – YARN 优雅退役的超时时间。最大值为 1 天

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

template_fields: collections.abc.Sequence[str] = ('cluster_name', 'project_id', 'region', 'impersonation_chain')[source]
execute(context)[source]

在 Google Cloud Dataproc 上扩展或缩小集群。

class airflow.providers.google.cloud.operators.dataproc.DataprocDeleteClusterOperator(*, region, cluster_name, project_id=PROVIDE_PROJECT_ID, cluster_uuid=None, request_id=None, retry=DEFAULT, timeout=1 * 60 * 60, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除项目中的一个集群。

参数
  • region (str) – 必需。用于处理请求的 Cloud Dataproc 区域。(可使用模板)

  • cluster_name (str) – 必需。集群名称。(可使用模板)

  • project_id (str) – 可选。集群所属的 Google Cloud 项目的 ID。(可使用模板)

  • cluster_uuid (str | None) – 可选。指定 cluster_uuid 表示如果具有指定 UUID 的集群不存在,则 RPC 应失败。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。如果服务器收到两个具有相同 ID 的 DeleteClusterRequest 请求,则第二个请求将被忽略,并返回在后端创建和存储的第一个 google.longrunning.Operation

  • retry (google.api_core.retry_async.AsyncRetry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

  • deferrable (bool) – 在可延迟模式下运行操作符。

  • polling_interval_seconds (int) – 检查集群状态的调用之间等待的时间(秒)。

template_fields: collections.abc.Sequence[str] = ('project_id', 'region', 'cluster_name', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]

充当触发器触发时的回调 - 立即返回。

依赖触发器引发异常,否则假设执行成功。

class airflow.providers.google.cloud.operators.dataproc.DataprocStartClusterOperator(*, cluster_name, region, project_id=PROVIDE_PROJECT_ID, cluster_uuid=None, request_id=None, retry=DEFAULT, timeout=1 * 60 * 60, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类:_DataprocStartStopClusterBaseOperator

启动项目中的一个集群。

execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataproc.DataprocStopClusterOperator(*, cluster_name, region, project_id=PROVIDE_PROJECT_ID, cluster_uuid=None, request_id=None, retry=DEFAULT, timeout=1 * 60 * 60, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]

基类:_DataprocStartStopClusterBaseOperator

停止项目中的一个集群。

execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataproc.DataprocJobBaseOperator(*, region, job_name='{{task.task_id}}_{{ds_nodash}}', cluster_name='cluster-1', project_id=PROVIDE_PROJECT_ID, dataproc_properties=None, dataproc_jars=None, gcp_conn_id='google_cloud_default', labels=None, job_error_states=None, impersonation_chain=None, asynchronous=False, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, **kwargs)[源代码]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在 DataProc 上启动作业的操作符的基类。

参数
  • region (str) – 创建 dataproc 集群的指定区域。

  • job_name (str) – DataProc 集群中使用的作业名称。此名称默认为 task_id 附加执行数据,但可以模板化。该名称将始终附加一个随机数,以避免名称冲突。

  • cluster_name (str) – DataProc 集群的名称。

  • project_id (str) – 集群所属的 Google Cloud 项目的 ID,如果未指定,则将从提供的 GCP 连接中推断项目。

  • dataproc_properties (dict | None) – Hive 属性的映射。非常适合放入默认参数中(模板化)

  • dataproc_jars (list[str] | None) – 要添加到 Hive 服务器和 Hadoop MapReduce (MR) 任务的 CLASSPATH 中的 jar 文件的 HCFS URI。可以包含 Hive SerDes 和 UDF。(模板化)

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • labels (dict | None) – 要与此作业关联的标签。标签键必须包含 1 到 63 个字符,并且必须符合 RFC 1035。标签值可以为空,但如果存在,则必须包含 1 到 63 个字符,并且必须符合 RFC 1035。最多可以与一个作业关联 32 个标签。

  • job_error_states (set[str] | None) – 应视为错误状态的作业状态。此集合中的任何状态都会导致引发错误并导致任务失败。例如,如果 CANCELLED 状态也应视为任务失败,则传入 {'ERROR', 'CANCELLED'}。当前可能的值只有 'ERROR''CANCELLED',但将来可能会更改。默认为 {'ERROR'}

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

  • asynchronous (bool) – 将作业提交到 Dataproc API 后返回的标志。这对于提交长时间运行的作业并使用 DataprocJobSensor 异步等待它们非常有用

  • deferrable (bool) – 在可延迟模式下运行运算符

  • polling_interval_seconds (int) – 轮询作业完成之间的时间(以秒为单位)。该值仅在可延迟模式下运行时才考虑。必须大于 0。

变量

dataproc_job_id (str) – 提交给 Dataproc API 的实际“jobId”。这对于识别或链接到 Google Cloud Console Dataproc UI 中的作业非常有用,因为提交给 Dataproc API 的实际“jobId”会附加一个 8 个字符的随机字符串。

job_type = ''[源代码]
create_job_template()[源代码]

使用默认值初始化 self.job_template

execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[源代码]

充当触发器触发时的回调 - 立即返回。

依赖触发器引发异常,否则假设执行成功。

on_kill()[源代码]

当运算符被终止时充当回调;取消任何正在运行的作业。

class airflow.providers.google.cloud.operators.dataproc.DataprocCreateWorkflowTemplateOperator(*, template, region, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建新的工作流模板。

参数
  • project_id (str) – 可选。集群所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。处理请求的 Cloud Dataproc 区域。

  • template (dict) – 要创建的 Dataproc 工作流模板。如果提供的是字典,则其格式必须与 protobuf 消息 WorkflowTemplate 相同。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

template_fields: collections.abc.Sequence[str] = ('region', 'template')[source]
template_fields_renderers[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataproc.DataprocInstantiateWorkflowTemplateOperator(*, template_id, region, project_id=PROVIDE_PROJECT_ID, version=None, request_id=None, parameters=None, retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, cancel_on_kill=True, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在 Google Cloud Dataproc 上实例化一个 WorkflowTemplate。

该操作符将等待直到 WorkflowTemplate 完成执行。

参数
  • template_id (str) – 模板的 ID。(已模板化)

  • project_id (str) – 模板在其上运行的 Google Cloud 项目的 ID

  • region (str) – 创建 dataproc 集群的指定区域。

  • parameters (dict[str, str] | None) – Dataproc 模板的参数的键值对格式映射:map (键: 字符串, 值: 字符串) 例如:{ “date_from”: “2019-08-01”, “date_to”: “2019-08-02”}。值不得超过 100 个字符。请参考:https://cloud.google.com/dataproc/docs/concepts/workflows/workflow-parameters

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。如果服务器收到两个具有相同 ID 的 SubmitJobRequest 请求,则将忽略第二个请求,并返回在后端创建和存储的第一个 Job。建议始终将此值设置为 UUID。

  • retry (google.api_core.retry_async.AsyncRetry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

  • deferrable (bool) – 在可延迟模式下运行操作符。

  • polling_interval_seconds (int) – 在调用之间等待以检查运行状态的时间(以秒为单位)。

  • cancel_on_kill (bool) – 一个标志,指示当调用 on_kill 时是否取消工作流

template_fields: collections.abc.Sequence[str] = ('template_id', 'impersonation_chain', 'request_id', 'parameters')[source]
template_fields_renderers[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]

当触发器触发时,充当回调函数。

此函数立即返回。它依赖于触发器抛出异常,否则它假设执行成功。

on_kill()[source]

重写此方法以在任务实例被终止时清理子进程。

在运算符中使用 threading、subprocess 或 multiprocessing 模块的任何操作都需要清理,否则会留下幽灵进程。

class airflow.providers.google.cloud.operators.dataproc.DataprocInstantiateInlineWorkflowTemplateOperator(*, template, region, project_id=PROVIDE_PROJECT_ID, request_id=None, retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, cancel_on_kill=True, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

在 Google Cloud Dataproc 上以内联方式实例化一个 WorkflowTemplate。

该操作符将等待直到 WorkflowTemplate 完成执行。

另请参阅

有关如何使用此运算符的更多信息,请查看指南:创建集群

有关实例化内联的更多详细信息,请查看参考资料:https://cloud.google.com/dataproc/docs/reference/rest/v1/projects.regions.workflowTemplates/instantiateInline

参数
  • template (dict) – 模板内容。(已模板化)

  • project_id (str) – 模板在其上运行的 Google Cloud 项目的 ID

  • region (str) – 创建 dataproc 集群的指定区域。

  • parameters – Dataproc 模板的键值格式的参数映射:map(键:字符串,值:字符串)示例:{“date_from”: “2019-08-01”, “date_to”: “2019-08-02”}。值不得超过 100 个字符。请参考:https://cloud.google.com/dataproc/docs/concepts/workflows/workflow-parameters

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。如果服务器收到两个具有相同 ID 的 SubmitJobRequest 请求,则将忽略第二个请求,并返回在后端创建和存储的第一个 Job。建议始终将此值设置为 UUID。

  • retry (google.api_core.retry_async.AsyncRetry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

  • deferrable (bool) – 在可延迟模式下运行操作符。

  • polling_interval_seconds (int) – 在调用之间等待以检查运行状态的时间(以秒为单位)。

  • cancel_on_kill (bool) – 一个标志,指示当调用 on_kill 时是否取消工作流

template_fields: collections.abc.Sequence[str] = ('template', 'impersonation_chain')[source]
template_fields_renderers[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]

当触发器触发时,充当回调函数。

此函数立即返回。它依赖于触发器抛出异常,否则它假设执行成功。

on_kill()[source]

重写此方法以在任务实例被终止时清理子进程。

在运算符中使用 threading、subprocess 或 multiprocessing 模块的任何操作都需要清理,否则会留下幽灵进程。

class airflow.providers.google.cloud.operators.dataproc.DataprocSubmitJobOperator(*, job, region, project_id=PROVIDE_PROJECT_ID, request_id=None, retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, asynchronous=False, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, cancel_on_kill=True, wait_timeout=None, openlineage_inject_parent_job_info=conf.getboolean('openlineage', 'spark_inject_parent_job_info', fallback=False), **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

向集群提交一个作业。

参数
  • project_id (str) – 可选。作业所属的 Google Cloud 项目的 ID。

  • region (str) – 必需。处理请求的 Cloud Dataproc 区域。

  • job (dict) – 必需。作业资源。如果提供了字典,则其格式必须与 protobuf 消息 Job 相同。有关支持的作业类型及其配置的完整列表,请参阅此处 https://cloud.google.com/dataproc/docs/reference/rest/v1/projects.regions.jobs

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。如果服务器收到两个具有相同 ID 的 SubmitJobRequest 请求,则将忽略第二个请求,并返回在后端创建和存储的第一个 Job。建议始终将此值设置为 UUID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) –

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

  • asynchronous (bool) – 在将作业提交到 Dataproc API 后是否返回的标志。这对于提交长时间运行的作业并使用 DataprocJobSensor 异步等待它们非常有用

  • deferrable (bool) – 在可延迟模式下运行运算符

  • polling_interval_seconds (int) – 轮询作业完成之间的时间(以秒为单位)。该值仅在可延迟模式下运行时才考虑。必须大于 0。

  • cancel_on_kill (bool) – 标志,指示在调用 on_kill 时是否取消 hook 的作业

  • wait_timeout (int | None) – 等待作业准备就绪的秒数。仅当 asynchronous 为 False 时使用

template_fields: collections.abc.Sequence[str] = ('project_id', 'region', 'job', 'impersonation_chain', 'request_id')[源代码]
template_fields_renderers[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[源代码]

当触发器触发时,充当回调函数。

此函数立即返回。它依赖于触发器抛出异常,否则它假设执行成功。

on_kill()[源代码]

重写此方法以在任务实例被终止时清理子进程。

在运算符中使用 threading、subprocess 或 multiprocessing 模块的任何操作都需要清理,否则会留下幽灵进程。

class airflow.providers.google.cloud.operators.dataproc.DataprocUpdateClusterOperator(*, cluster_name, cluster, update_mask, graceful_decommission_timeout, region, request_id=None, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, **kwargs)[源代码]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

更新项目中的一个集群。

参数
  • region (str) – 必需。处理请求的 Cloud Dataproc 区域。

  • project_id (str) – 可选。集群所属的 Google Cloud 项目的 ID。

  • cluster_name (str) – 必需。集群名称。

  • cluster (dict | google.cloud.dataproc_v1.Cluster) –

    必需。对集群的更改。

    如果提供了字典,则其格式必须与 protobuf 消息 Cluster 相同

  • update_mask (dict | google.protobuf.field_mask_pb2.FieldMask) – 必需。指定要更新的字段相对于 Cluster 的路径。例如,要将集群中的工作节点数更改为 5,则 update_mask 参数应指定为 config.worker_config.num_instances,并且 PATCH 请求正文应指定新值。如果提供了字典,则其格式必须与 protobuf 消息 FieldMask 相同

  • graceful_decommission_timeout (dict | google.protobuf.duration_pb2.Duration) – 可选。YARN 正常停用的超时时间。正常停用允许从集群中删除节点,而不会中断正在进行中的作业。超时时间指定在强制删除节点(并可能中断作业)之前等待正在进行中的作业完成的时间。默认超时时间为 0(强制停用),允许的最大超时时间为 1 天。

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。如果服务器收到两个具有相同 ID 的 UpdateClusterRequest 请求,则第二个请求将被忽略,并且返回在后端创建和存储的第一个 google.long-running.Operation

  • retry (google.api_core.retry_async.AsyncRetry | google.api_core.gapic_v1.method._MethodDefault | google.api_core.retry.Retry) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

  • deferrable (bool) – 在可延迟模式下运行操作符。

  • polling_interval_seconds (int) – 在调用之间等待以检查运行状态的时间(以秒为单位)。

template_fields: collections.abc.Sequence[str] = ('cluster_name', 'cluster', 'region', 'request_id', 'project_id', 'impersonation_chain')[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event)[source]

充当触发器触发时的回调 - 立即返回。

依赖触发器引发异常,否则假设执行成功。

class airflow.providers.google.cloud.operators.dataproc.DataprocDiagnoseClusterOperator(*, region, cluster_name, project_id=PROVIDE_PROJECT_ID, tarball_gcs_dir=None, diagnosis_interval=None, jobs=None, yarn_application_ids=None, retry=DEFAULT, timeout=1 * 60 * 60, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=10, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

诊断项目中的一个集群。

操作完成后,响应包含诊断输出报告的 Cloud Storage URI,其中包含收集的诊断摘要。

参数
  • region (str) – 必需。用于处理请求的 Cloud Dataproc 区域。(可使用模板)

  • project_id (str) – 可选。集群所属的 Google Cloud 项目的 ID。(可使用模板)

  • cluster_name (str) – 必需。集群名称。(可使用模板)

  • tarball_gcs_dir (str | None) – 诊断 tarball 的输出 Cloud Storage 目录。如果未指定,将使用群集暂存存储桶中的特定于任务的目录。

  • diagnosis_interval (dict | google.type.interval_pb2.Interval | None) – 应在群集上执行诊断的时间间隔。

  • jobs (collections.abc.MutableSequence[str] | None) – 指定要在其上执行诊断的作业列表。格式:projects/{project}/regions/{region}/jobs/{job}

  • yarn_application_ids (collections.abc.MutableSequence[str] | None) – 指定要在其上执行诊断的 yarn 应用程序列表。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • retry (google.api_core.retry_async.AsyncRetry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独尝试。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

  • deferrable (bool) – 在可延迟模式下运行操作符。

  • polling_interval_seconds (int) – 检查集群状态的调用之间等待的时间(秒)。

template_fields: collections.abc.Sequence[str] = ('project_id', 'region', 'cluster_name', 'impersonation_chain', 'tarball_gcs_dir',...[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

execute_complete(context, event=None)[source]

当触发器触发时,充当回调函数。

此函数立即返回。它依赖于触发器抛出异常,否则它假设执行成功。

class airflow.providers.google.cloud.operators.dataproc.DataprocCreateBatchOperator(*, region, project_id=PROVIDE_PROJECT_ID, batch, batch_id=None, request_id=None, num_retries_if_resource_is_not_ready=0, retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, result_retry=DEFAULT, asynchronous=False, deferrable=conf.getboolean('operators', 'default_deferrable', fallback=False), polling_interval_seconds=5, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

创建一个批处理工作负载。

参数
  • project_id (str) – 可选。群集所属的 Google Cloud 项目的 ID。(已模板化)

  • region (str) – 必需。用于处理请求的 Cloud Dataproc 区域。(已模板化)

  • batch (dict | google.cloud.dataproc_v1.Batch) – 必需。要创建的批次。(已模板化)

  • batch_id (str | None) – 必需。用于批次的 ID,它将成为批次资源名称的最终组成部分。此值必须为 4-63 个字符。有效字符为 /[a-z][0-9]-/。(已模板化)

  • request_id (str | None) – 可选。用于标识请求的唯一 ID。如果服务器收到两个具有相同 ID 的 CreateBatchRequest 请求,则会忽略第二个请求,并返回在后端创建和存储的第一个 google.longrunning.Operation

  • num_retries_if_resource_is_not_ready (int) – 可选。当出现资源未就绪错误时,集群创建请求的重试次数。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • result_retry (google.api_core.retry_async.AsyncRetry | google.api_core.gapic_v1.method._MethodDefault | google.api_core.retry.Retry) – 用于重试请求的结果重试对象。用于通过指定执行的确切秒数来减少 DAG 中链式任务执行之间的延迟。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

  • asynchronous (bool) – 标志在创建批处理后返回到 Dataproc API。这对于创建长时间运行的批处理并使用 DataprocBatchSensor 异步等待它们非常有用

  • deferrable (bool) – 在可延迟模式下运行操作符。

  • polling_interval_seconds (int) – 在调用之间等待以检查运行状态的时间(以秒为单位)。

template_fields: collections.abc.Sequence[str] = ('project_id', 'batch', 'batch_id', 'region', 'impersonation_chain')[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

hook()[源代码]
execute_complete(context, event=None)[源代码]

当触发器触发时,充当回调函数。

此函数立即返回。它依赖于触发器抛出异常,否则它假设执行成功。

on_kill()[源代码]

重写此方法以在任务实例被终止时清理子进程。

在运算符中使用 threading、subprocess 或 multiprocessing 模块的任何操作都需要清理,否则会留下幽灵进程。

handle_batch_status(context, state, batch_id, state_message=None)[源代码]
retry_batch_creation(previous_batch_id)[源代码]
class airflow.providers.google.cloud.operators.dataproc.DataprocDeleteBatchOperator(*, batch_id, region, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

删除批处理工作负载资源。

参数
  • batch_id (str) – 必需。用于批处理的 ID,它将成为批处理资源名称的最后一个组成部分。此值必须为 4-63 个字符。有效字符为 /[a-z][0-9]-/。

  • region (str) – 必需。处理请求的 Cloud Dataproc 区域。

  • project_id (str) – 可选。集群所属的 Google Cloud 项目的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

template_fields: collections.abc.Sequence[str] = ('batch_id', 'region', 'project_id', 'impersonation_chain')[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataproc.DataprocGetBatchOperator(*, batch_id, region, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[源代码]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

获取批处理工作负载资源的表示。

参数
  • batch_id (str) – 必需。用于批处理的 ID,它将成为批处理资源名称的最后一个组成部分。此值必须为 4-63 个字符。有效字符为 /[a-z][0-9]-/。

  • region (str) – 必需。处理请求的 Cloud Dataproc 区域。

  • project_id (str) – 可选。集群所属的 Google Cloud 项目的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

template_fields: collections.abc.Sequence[str] = ('batch_id', 'region', 'project_id', 'impersonation_chain')[源代码]
execute(context)[源代码]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataproc.DataprocListBatchesOperator(*, region, project_id=PROVIDE_PROJECT_ID, page_size=None, page_token=None, retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, filter=None, order_by=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

列出批处理工作负载。

参数
  • region (str) – 必需。处理请求的 Cloud Dataproc 区域。

  • project_id (str) – 可选。集群所属的 Google Cloud 项目的 ID。

  • page_size (int | None) – 可选。每次响应中返回的最大批处理数。服务可能会返回小于此值的结果。默认页面大小为 20;最大页面大小为 1000。

  • page_token (str | None) – 可选。从之前的 ListBatches 调用收到的页面令牌。提供此令牌以检索后续页面。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 可选,用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 可选,等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 可选,提供给方法的其他元数据。

  • gcp_conn_id (str) – 可选,用于连接 Google Cloud Platform 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

  • filter (str | None) – 按照 ListBatchesRequest 中指定的过滤条件进行结果过滤

  • order_by (str | None) – 按照 ListBatchesRequest 中指定的方式对结果排序

template_fields: collections.abc.Sequence[str] = ('region', 'project_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.google.cloud.operators.dataproc.DataprocCancelOperationOperator(*, operation_name, region, project_id=PROVIDE_PROJECT_ID, retry=DEFAULT, timeout=None, metadata=(), gcp_conn_id='google_cloud_default', impersonation_chain=None, **kwargs)[source]

基类: airflow.providers.google.cloud.operators.cloud_base.GoogleCloudBaseOperator

取消批处理工作负载资源。

参数
  • operation_name (str) – 必需。要取消的操作资源的名称。

  • region (str) – 必需。处理请求的 Cloud Dataproc 区域。

  • project_id (str) – 可选。集群所属的 Google Cloud 项目的 ID。

  • retry (google.api_core.retry.Retry | google.api_core.gapic_v1.method._MethodDefault) – 用于重试请求的重试对象。如果指定 None,则不会重试请求。

  • timeout (float | None) – 等待请求完成的时间量(以秒为单位)。请注意,如果指定了 retry,则超时适用于每次单独的尝试。

  • metadata (collections.abc.Sequence[tuple[str, str]]) – 提供给方法的其他元数据。

  • gcp_conn_id (str) – 用于连接到 Google Cloud 的连接 ID。

  • impersonation_chain (str | collections.abc.Sequence[str] | None) – 可选的服务帐户,用于使用短期凭据进行模拟,或者获取列表中最后一个帐户的 access_token 所需的帐户链式列表,该 access_token 将在请求中被模拟。如果设置为字符串,则该帐户必须向原始帐户授予“服务帐户令牌创建者”IAM 角色。如果设置为序列,则列表中的标识必须向紧邻的前一个标识授予“服务帐户令牌创建者”IAM 角色,列表中的第一个帐户向原始帐户授予此角色(模板化)。

template_fields: collections.abc.Sequence[str] = ('operation_name', 'region', 'project_id', 'impersonation_chain')[source]
execute(context)[source]

在创建操作符时派生。

上下文与渲染 jinja 模板时使用的字典相同。

有关更多上下文,请参阅 get_template_context。

此条目是否有帮助?