Apache Spark Submit 连接

Apache Spark Submit 连接类型通过 spark-submit 命令实现与 Apache Spark 的连接。

默认连接 ID

Spark Submit 和 Spark JDBC hooks 和 operators 默认使用 spark_default

配置连接

主机 (必填)

要连接的主机,可以是 local, yarn 或一个 URL。

端口 (可选)

如果主机是 URL,请指定端口。

YARN 队列 (可选,仅适用于 YARN 上的 Spark 应用程序)

提交应用程序的 YARN 队列名称。

部署模式 (可选)

是否将驱动程序部署到工作节点 (cluster) 或本地作为外部客户端 (client)。

Spark 二进制文件 (可选)

用于 Spark Submit 的命令。某些发行版可能使用 spark2-submit。默认为 spark-submit。只允许使用 spark-submit, spark2-submitspark3-submit 作为值。

Kubernetes 命名空间 (可选,仅适用于 Kubernetes 上的 Spark 应用程序)

用于在多个用户之间划分集群资源 (通过资源配额) 的 Kubernetes 命名空间 (spark.kubernetes.namespace)。

在环境变量中指定连接时,应使用 URI 语法进行指定。

请注意,URI 的所有组件都应进行 URL 编码。URI 和 mongo 连接字符串是不同的。

例如

export AIRFLOW_CONN_SPARK_DEFAULT='spark://mysparkcluster.com:80?deploy-mode=cluster&spark_binary=command&namespace=kube+namespace'

警告

请确保您信任您的用户,允许他们配置主机设置,因为这可能使连接能够与外部服务器建立通信。务必理解,将连接指向恶意服务器可能导致严重的安全漏洞,包括遭遇远程代码执行 (RCE) 攻击的风险。

此条目有帮助吗?