Apache Spark Submit 连接¶
Apache Spark Submit 连接类型通过 spark-submit
命令实现与 Apache Spark 的连接。
默认连接 ID¶
Spark Submit 和 Spark JDBC hooks 和 operators 默认使用 spark_default
。
配置连接¶
- 主机 (必填)
要连接的主机,可以是
local
,yarn
或一个 URL。- 端口 (可选)
如果主机是 URL,请指定端口。
- YARN 队列 (可选,仅适用于 YARN 上的 Spark 应用程序)
提交应用程序的 YARN 队列名称。
- 部署模式 (可选)
是否将驱动程序部署到工作节点 (cluster) 或本地作为外部客户端 (client)。
- Spark 二进制文件 (可选)
用于 Spark Submit 的命令。某些发行版可能使用
spark2-submit
。默认为spark-submit
。只允许使用spark-submit
,spark2-submit
或spark3-submit
作为值。- Kubernetes 命名空间 (可选,仅适用于 Kubernetes 上的 Spark 应用程序)
用于在多个用户之间划分集群资源 (通过资源配额) 的 Kubernetes 命名空间 (
spark.kubernetes.namespace
)。
在环境变量中指定连接时,应使用 URI 语法进行指定。
请注意,URI 的所有组件都应进行 URL 编码。URI 和 mongo 连接字符串是不同的。
例如
export AIRFLOW_CONN_SPARK_DEFAULT='spark://mysparkcluster.com:80?deploy-mode=cluster&spark_binary=command&namespace=kube+namespace'
警告
请确保您信任您的用户,允许他们配置主机设置,因为这可能使连接能够与外部服务器建立通信。务必理解,将连接指向恶意服务器可能导致严重的安全漏洞,包括遭遇远程代码执行 (RCE) 攻击的风险。