airflow.providers.yandex.operators.dataproc

InitializationAction

在 DataProc 集群启动时运行的初始化操作的数据。

DataprocCreateClusterOperator

创建 Yandex.Cloud Data Proc 集群。

DataprocBaseOperator

用于处理指定 DataProc 集群的 Operator 基类。

DataprocDeleteClusterOperator

删除 Yandex.Cloud Data Proc 集群。

DataprocCreateHiveJobOperator

在 Data Proc 集群中运行 Hive 作业。

DataprocCreateMapReduceJobOperator

在 Data Proc 集群中运行 Mapreduce 作业。

DataprocCreateSparkJobOperator

在 Data Proc 集群中运行 Spark 作业。

DataprocCreatePysparkJobOperator

在 Data Proc 集群中运行 Pyspark 作业。

模块内容

class airflow.providers.yandex.operators.dataproc.InitializationAction[source]

在 DataProc 集群启动时运行的初始化操作的数据。

uri: str[source]
args: collections.abc.Iterable[str][source]
timeout: int[source]
class airflow.providers.yandex.operators.dataproc.DataprocCreateClusterOperator(*, folder_id=None, cluster_name=None, cluster_description='', cluster_image_version=None, ssh_public_keys=None, subnet_id=None, services=('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK'), s3_bucket=None, zone='ru-central1-b', service_account_id=None, masternode_resource_preset=None, masternode_disk_size=None, masternode_disk_type=None, datanode_resource_preset=None, datanode_disk_size=None, datanode_disk_type=None, datanode_count=1, computenode_resource_preset=None, computenode_disk_size=None, computenode_disk_type=None, computenode_count=0, computenode_max_hosts_count=None, computenode_measurement_duration=None, computenode_warmup_duration=None, computenode_stabilization_duration=None, computenode_preemptible=False, computenode_cpu_utilization_target=None, computenode_decommission_timeout=None, connection_id=None, properties=None, enable_ui_proxy=False, host_group_ids=None, security_group_ids=None, log_group_id=None, initialization_actions=None, labels=None, **kwargs)[source]

基类: airflow.models.BaseOperator

创建 Yandex.Cloud Data Proc 集群。

参数:
  • folder_id (str | None) – 应创建集群的文件夹 ID。

  • cluster_name (str | None) – 集群名称。在文件夹内必须是唯一的。

  • cluster_description (str | None) – 集群描述。

  • cluster_image_version (str | None) – 集群镜像版本。使用默认值。

  • ssh_public_keys (str | collections.abc.Iterable[str] | None) – 将部署到创建的计算实例的 SSH 公钥列表。

  • subnet_id (str | None) – 子网 ID。所有 Data Proc 集群节点将使用一个子网。

  • services (collections.abc.Iterable[str]) – 将安装到集群的服务列表。可选的服务:HDFS, YARN, MAPREDUCE, HIVE, TEZ, ZOOKEEPER, HBASE, SQOOP, FLUME, SPARK, SPARK, ZEPPELIN, OOZIE

  • s3_bucket (str | None) – 用于存储集群日志的 Yandex.Cloud S3 存储桶。如果未指定存储桶,作业将无法工作。

  • zone (str) – 创建集群的可用区。当前可用区有 ru-central1-a、ru-central1-b 和 ru-central1-c。

  • service_account_id (str | None) – 集群的服务账户 ID。服务账户可以在文件夹内创建。

  • masternode_resource_preset (str | None) – 集群主节点的资源预设(CPU+RAM 配置)。

  • masternode_disk_size (int | None) – 主节点存储大小(以 GiB 为单位)。

  • masternode_disk_type (str | None) – 主节点存储类型。可选类型:network-ssd、network-hdd。

  • datanode_resource_preset (str | None) – 集群数据节点的资源预设(CPU+RAM 配置)。

  • datanode_disk_size (int | None) – 数据节点存储大小(以 GiB 为单位)。

  • datanode_disk_type (str | None) – 数据节点存储类型。可选类型:network-ssd、network-hdd。

  • computenode_resource_preset (str | None) – 集群计算节点的资源预设(CPU+RAM 配置)。

  • computenode_disk_size (int | None) – 计算节点存储大小(以 GiB 为单位)。

  • computenode_disk_type (str | None) – 计算节点存储类型。可选类型:network-ssd、network-hdd。

  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

  • computenode_max_count – 计算节点自动扩缩子集群的最大节点数。

  • computenode_warmup_duration (int | None) – 实例的热身时间(以秒为单位)。在此期间,流量会发送到实例,但不收集实例指标。以秒为单位。

  • computenode_stabilization_duration (int | None) – 在实例组减少组中实例数量之前,最短的监控时间(以秒为单位)。在此期间,即使新的指标值表明应该减少实例,组大小也不会减少。以秒为单位。

  • computenode_preemptible (bool) – 可抢占式实例至少每 24 小时停止一次,并且在 Compute 需要其资源时可以随时停止。

  • computenode_cpu_utilization_target (int | None) – 定义基于实例组平均 CPU 利用率的自动扩缩规则。以百分比表示,范围 10-100。默认情况下未设置,将使用默认的自动扩缩策略。

  • computenode_decommission_timeout (int | None) – 在缩容期间优雅地退役节点的超时时间。以秒为单位。

  • properties (dict[str, str] | None) – 传递给主节点软件的属性。文档:https://cloud.yandex.com/docs/data-proc/concepts/settings-list

  • enable_ui_proxy (bool) – 启用 UI 代理功能,用于转发 Hadoop 组件的 Web 界面。文档:https://cloud.yandex.com/docs/data-proc/concepts/ui-proxy

  • host_group_ids (collections.abc.Iterable[str] | None) – 用于放置集群虚拟机的专用主机组。文档:https://cloud.yandex.com/docs/compute/concepts/dedicated-host

  • security_group_ids (collections.abc.Iterable[str] | None) – 用户安全组。文档:https://cloud.yandex.com/docs/data-proc/concepts/network#security-groups

  • log_group_id (str | None) – 写入日志的日志组 ID。默认情况下,日志将发送到默认日志组。要禁用云日志发送,请设置集群属性 dataproc:disable_cloud_logging = true。文档:https://cloud.yandex.com/docs/data-proc/concepts/logs

  • initialization_actions (collections.abc.Iterable[InitializationAction] | None) – 集群启动时要运行的一组初始化操作。文档:https://cloud.yandex.com/docs/data-proc/concepts/init-action

  • labels (dict[str, str] | None) – 集群标签,格式为 key:value 对。每个资源不超过 64 个。文档:https://cloud.yandex.com/docs/resource-manager/concepts/labels

folder_id = None[source]
yandex_conn_id = None[source]
cluster_name = None[source]
cluster_description = ''[source]
cluster_image_version = None[source]
ssh_public_keys = None[source]
subnet_id = None[source]
services = ('HDFS', 'YARN', 'MAPREDUCE', 'HIVE', 'SPARK')[source]
s3_bucket = None[source]
zone = 'ru-central1-b'[source]
service_account_id = None[source]
masternode_resource_preset = None[source]
masternode_disk_size = None[source]
masternode_disk_type = None[source]
datanode_resource_preset = None[source]
datanode_disk_size = None[source]
datanode_disk_type = None[source]
datanode_count = 1[source]
computenode_resource_preset = None[source]
computenode_disk_size = None[source]
computenode_disk_type = None[source]
computenode_count = 0[source]
computenode_max_hosts_count = None[source]
computenode_measurement_duration = None[source]
computenode_warmup_duration = None[source]
computenode_stabilization_duration = None[source]
computenode_preemptible = False[source]
computenode_cpu_utilization_target = None[source]
computenode_decommission_timeout = None[source]
properties = None[source]
enable_ui_proxy = False[source]
host_group_ids = None[source]
security_group_ids = None[source]
log_group_id = None[source]
initialization_actions = None[来源]
labels = None[来源]
hook: airflow.providers.yandex.hooks.dataproc.DataprocHook | None = None[来源]
execute(context)[来源]

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

属性 cluster_id[来源]
airflow.providers.yandex.operators.dataproc.DataprocBaseOperator(*, yandex_conn_id=None, cluster_id=None, **kwargs)[来源]

基类: airflow.models.BaseOperator

用于处理指定 DataProc 集群的 Operator 基类。

参数:
  • connection_id – Yandex.Cloud Airflow 连接的 ID。

  • cluster_id (str | None) – 要删除的集群 ID。(模板化)

template_fields: collections.abc.Sequence[str] = ('cluster_id',)[来源]
cluster_id = None[来源]
yandex_conn_id = None[来源]
抽象 execute(context)[来源]

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

airflow.providers.yandex.operators.dataproc.DataprocDeleteClusterOperator(*, connection_id=None, cluster_id=None, **kwargs)[来源]

基类: DataprocBaseOperator

删除 Yandex.Cloud Data Proc 集群。

参数:
  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

  • cluster_id (str | None) – 要删除的集群 ID。(模板化)

execute(context)[来源]

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

airflow.providers.yandex.operators.dataproc.DataprocCreateHiveJobOperator(*, query=None, query_file_uri=None, script_variables=None, continue_on_failure=False, properties=None, name='Hive job', cluster_id=None, connection_id=None, **kwargs)[来源]

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Hive 作业。

参数:
  • query (str | None) – Hive 查询。

  • query_file_uri (str | None) – 包含 Hive 查询的脚本的 URI。可以放在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 属性名称到值的映射,用于配置 Hive。

  • script_variables (dict[str, str] | None) – 查询变量名称到值的映射。

  • continue_on_failure (bool) – 如果查询失败是否继续执行查询。

  • name (str) – 作业名称。用于标记。

  • cluster_id (str | None) – 运行作业的集群 ID。如果指定,将尝试从 Dataproc Hook 对象获取 ID。(模板化)

  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

query = None[来源]
query_file_uri = None[来源]
script_variables = None[来源]
continue_on_failure = False[来源]
properties = None[来源]
name = 'Hive 作业'[来源]
execute(context)[来源]

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

airflow.providers.yandex.operators.dataproc.DataprocCreateMapReduceJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Mapreduce job', cluster_id=None, connection_id=None, **kwargs)[来源]

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Mapreduce 作业。

参数:
  • main_jar_file_uri (str | None) – 包含作业的 jar 文件的 URI。可以放在 HDFS 或 S3 中。可以替代 main_class 指定。

  • main_class (str | None) – 作业主类的名称。可以替代 main_jar_file_uri 指定。

  • file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 作业属性。

  • args (collections.abc.Iterable[str] | None) – 传递给作业的参数。

  • name (str) – 作业名称。用于标记。

  • cluster_id (str | None) – 运行作业的集群 ID。如果指定,将尝试从 Dataproc Hook 对象获取 ID。(模板化)

  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

main_class = None[来源]
main_jar_file_uri = None[来源]
jar_file_uris = None[来源]
archive_uris = None[来源]
file_uris = None[来源]
args = None[来源]
properties = None[来源]
name = 'MapReduce 作业'[来源]
execute(context)[来源]

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

airflow.providers.yandex.operators.dataproc.DataprocCreateSparkJobOperator(*, main_class=None, main_jar_file_uri=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Spark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[来源]

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Spark 作业。

参数:
  • main_jar_file_uri (str | None) – 包含作业的 jar 文件的 URI。可以放在 HDFS 或 S3 中。

  • main_class (str | None) – 作业主类的名称。

  • file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 作业属性。

  • args (collections.abc.Iterable[str] | None) – 传递给作业的参数。

  • name (str) – 作业名称。用于标记。

  • cluster_id (str | None) – 运行作业的集群 ID。如果指定,将尝试从 Dataproc Hook 对象获取 ID。(模板化)

  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

  • packages (collections.abc.Iterable[str] | None) – 要包含在 driver 和 executor 类路径中的 jar 的 Maven 坐标列表。

  • repositories (collections.abc.Iterable[str] | None) – 搜索通过 –packages 给定的 Maven 坐标的其他远程仓库列表。

  • exclude_packages (collections.abc.Iterable[str] | None) – 在解析通过 –packages 提供的依赖时要排除的 groupId:artifactId 列表,以避免依赖冲突。

main_class = None[来源]
main_jar_file_uri = None[来源]
jar_file_uris = None[来源]
archive_uris = None[来源]
file_uris = None[来源]
args = None[来源]
properties = None[来源]
name = 'Spark 作业'[来源]
packages = None[来源]
repositories = None[来源]
exclude_packages = None[来源]
execute(context)[来源]

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

class airflow.providers.yandex.operators.dataproc.DataprocCreatePysparkJobOperator(*, main_python_file_uri=None, python_file_uris=None, jar_file_uris=None, archive_uris=None, file_uris=None, args=None, properties=None, name='Pyspark job', cluster_id=None, connection_id=None, packages=None, repositories=None, exclude_packages=None, **kwargs)[source]

基类: DataprocBaseOperator

在 Data Proc 集群中运行 Pyspark 作业。

参数:
  • main_python_file_uri (str | None) – 作业的 Python 文件 URI。可以放置在 HDFS 或 S3 中。

  • python_file_uris (collections.abc.Iterable[str] | None) – 在作业中使用的 Python 文件 URI。可以放置在 HDFS 或 S3 中。

  • file_uris (collections.abc.Iterable[str] | None) – 作业中使用的文件的 URI。可以放在 HDFS 或 S3 中。

  • archive_uris (collections.abc.Iterable[str] | None) – 作业中使用的归档文件的 URI。可以放在 HDFS 或 S3 中。

  • jar_file_uris (collections.abc.Iterable[str] | None) – 作业中使用的 JAR 文件的 URI。可以放在 HDFS 或 S3 中。

  • properties (dict[str, str] | None) – 作业属性。

  • args (collections.abc.Iterable[str] | None) – 传递给作业的参数。

  • name (str) – 作业名称。用于标记。

  • cluster_id (str | None) – 运行作业的集群 ID。如果指定,将尝试从 Dataproc Hook 对象获取 ID。(模板化)

  • connection_id (str | None) – Yandex.Cloud Airflow 连接的 ID。

  • packages (collections.abc.Iterable[str] | None) – 要包含在 driver 和 executor 类路径中的 jar 的 Maven 坐标列表。

  • repositories (collections.abc.Iterable[str] | None) – 搜索通过 –packages 给定的 Maven 坐标的其他远程仓库列表。

  • exclude_packages (collections.abc.Iterable[str] | None) – 在解析通过 –packages 提供的依赖时要排除的 groupId:artifactId 列表,以避免依赖冲突。

main_python_file_uri = None[source]
python_file_uris = None[source]
jar_file_uris = None[source]
archive_uris = None[source]
file_uris = None[source]
args = None[source]
properties = None[source]
name = 'Pyspark job'[source]
packages = None[source]
repositories = None[source]
exclude_packages = None[source]
execute(context)[source]

创建操作符时派生。

上下文是用于渲染 Jinja 模板的相同字典。

参考 get_template_context 以获取更多上下文信息。

此条目有帮助吗?