airflow.providers.apache.spark.operators.spark_submit
¶
模块内容¶
类¶
包装 spark-submit 二进制文件以启动 spark-submit 作业;需要在 PATH 中存在“spark-submit”二进制文件。 |
- class airflow.providers.apache.spark.operators.spark_submit.SparkSubmitOperator(*, application='', conf=None, conn_id='spark_default', files=None, py_files=None, archives=None, driver_class_path=None, jars=None, java_class=None, packages=None, exclude_packages=None, repositories=None, total_executor_cores=None, executor_cores=None, executor_memory=None, driver_memory=None, keytab=None, principal=None, proxy_user=None, name='arrow-spark', num_executors=None, status_poll_interval=1, application_args=None, env_vars=None, verbose=False, spark_binary=None, properties_file=None, yarn_queue=None, deploy_mode=None, use_krb5ccache=False, **kwargs)[源代码]¶
基类:
airflow.models.BaseOperator
包装 spark-submit 二进制文件以启动 spark-submit 作业;需要在 PATH 中存在“spark-submit”二进制文件。
另请参阅
有关如何使用此操作符的更多信息,请查看以下指南: SparkSubmitOperator
- 参数
application (str) – 作为作业提交的应用程序,可以是 jar 文件或 py 文件。(已模版化)
conn_id (str) – 在 Airflow 管理中配置的 spark 连接 ID。当提供无效的 connection_id 时,它将默认为 yarn。
files (str | None) – 上传其他文件到运行作业的执行器,用逗号分隔。文件将放置在每个执行器的工作目录中。例如,序列化对象。(已模版化)
py_files (str | None) – 作业使用的其他 python 文件,可以是 .zip、.egg 或 .py。(已模版化)
jars (str | None) – 提交其他 jar 文件以上传并将其放置在执行器类路径中。(已模版化)
driver_class_path (str | None) – 其他特定于驱动程序的类路径设置。(已模版化)
java_class (str | None) – Java 应用程序的主类
packages (str | None) – 以逗号分隔的 jar 包的 Maven 坐标列表,以包含在驱动程序和执行器的类路径中。(已模版化)
exclude_packages (str | None) – 以逗号分隔的 jar 包的 Maven 坐标列表,用于在解析“packages”中提供的依赖项时排除。(已模版化)
repositories (str | None) – 以逗号分隔的附加远程仓库列表,用于搜索“packages”中给出的 Maven 坐标
total_executor_cores (int | None) – (仅限独立和 Mesos) 所有执行器的总核心数(默认值:worker 上所有可用的核心数)
executor_cores (int | None) – (仅限独立和 YARN) 每个执行器的核心数(默认值:2)
executor_memory (str | None) – 每个执行器的内存(例如 1000M、2G)(默认值:1G)
driver_memory (str | None) – 分配给驱动程序的内存(例如 1000M、2G)(默认值:1G)
keytab (str | None) – 包含 keytab 的文件的完整路径(已模版化)(将覆盖连接的额外 JSON 中定义的任何 keytab)
principal (str | None) – 用于 keytab 的 kerberos principal 的名称(已模版化)(将覆盖连接的额外 JSON 中定义的任何 principal)
proxy_user (str | None) – 提交应用程序时要模拟的用户 (已模版化)
name (str) – 作业的名称(默认为 airflow-spark)。(已模版化)
num_executors (int | None) – 要启动的执行器数量
status_poll_interval (int) – 在集群模式下轮询驱动程序状态之间等待的秒数(默认值:1)
application_args (list[Any] | None) – 要提交的应用程序的参数 (已模版化)
env_vars (dict[str, Any] | None) – spark-submit 的环境变量。它也支持 yarn 和 k8s 模式。(已模版化)
verbose (bool) – 是否将 verbose 标志传递给 spark-submit 进程以进行调试
spark_binary (str | None) – 用于 spark 提交的命令。某些发行版可能使用 spark2-submit 或 spark3-submit。(将覆盖连接的额外 JSON 中定义的任何 spark_binary)
properties_file (str | None) – 从中加载额外属性的文件的路径。如果未指定,则会查找 conf/spark-defaults.conf。
yarn_queue (str | None) – 应用程序提交到的 YARN 队列的名称。(将覆盖连接的额外 JSON 中定义的任何 yarn 队列)
deploy_mode (str | None) – 是在工作节点(集群)上部署驱动程序还是在本地作为客户端部署。(将覆盖连接的额外 JSON 中定义的任何部署模式)
use_krb5ccache (bool) – 如果为 True,则配置 spark 使用票证缓存而不是依赖 keytab 进行 Kerberos 登录
- template_fields: collections.abc.Sequence[str] = ('application', 'conf', 'files', 'py_files', 'jars', 'driver_class_path', 'packages',...[source]¶