airflow.providers.apache.spark.operators.spark_jdbc¶

类¶

SparkJDBCOperator

扩展 SparkSubmitOperator 以使用 Apache Spark 执行到/从基于 JDBC 的数据库的数据传输。

模块内容¶

class airflow.providers.apache.spark.operators.spark_jdbc.SparkJDBCOperator(*, spark_app_name='airflow-spark-jdbc', spark_conn_id='spark-default', spark_conf=None, spark_py_files=None, spark_files=None, spark_jars=None, cmd_type='spark_to_jdbc', jdbc_table=None, jdbc_conn_id='jdbc-default', jdbc_driver=None, metastore_table=None, jdbc_truncate=False, save_mode=None, save_format=None, batch_size=None, fetch_size=None, num_partitions=None, partition_column=None, lower_bound=None, upper_bound=None, create_table_column_types=None, **kwargs)[source]¶

基类：airflow.providers.apache.spark.operators.spark_submit.SparkSubmitOperator

扩展 SparkSubmitOperator 以使用 Apache Spark 执行到/从基于 JDBC 的数据库的数据传输。

与 SparkSubmitOperator 一样，它假定 “spark-submit” 二进制文件在 PATH 环境变量中可用。

另请参阅

有关如何使用此操作符的更多信息，请参阅指南：SparkJDBCOperator

参数：

spark_app_name (str) – 作业名称 (默认 airflow-spark-jdbc)
spark_conn_id (str) – 在 Airflow 管理界面中配置的 spark 连接 ID
spark_conf (dict[str, Any] | None) – 任何附加的 Spark 配置属性
spark_py_files (str | None) – 使用的额外 Python 文件 (.zip, .egg, 或 .py)
spark_files (str | None) – 要上传到运行作业的容器的额外文件
spark_jars (str | None) – 要上传并添加到驱动程序和执行程序类路径的额外 jar 包
cmd_type (str) – 数据流动的方向。2 个可能的值： spark_to_jdbc：Spark 将数据从 metastore 写入 jdbc jdbc_to_spark：Spark 将数据从 jdbc 写入 metastore
jdbc_table (str | None) – JDBC 表的名称
jdbc_conn_id (str) – 用于连接 JDBC 数据库的连接 ID
jdbc_driver (str | None) – 要用于 JDBC 连接的 JDBC 驱动程序名称。该驱动程序（通常是 jar 文件）应通过 'jars' 参数传递
metastore_table (str | None) – Metastore 表的名称，
jdbc_truncate (bool) – (仅限 spark_to_jdbc) Spark 是否应截断或删除并重新创建 JDBC 表。这仅在 'save_mode' 设置为 Overwrite 时生效。此外，如果模式不同，Spark 无法截断，并将删除并重新创建
save_mode (str | None) – 要使用的 Spark 保存模式 (例如 overwrite, append 等)
save_format (str | None) – (仅限 jdbc_to_spark) 要使用的 Spark 保存格式 (例如 parquet)
batch_size (int | None) – (仅限 spark_to_jdbc) 每次与 JDBC 数据库往返时插入的批处理大小。默认为 1000
fetch_size (int | None) – (仅限 jdbc_to_spark) 每次从 JDBC 数据库往返时获取的批处理大小。默认值取决于 JDBC 驱动程序
num_partitions (int | None) – Spark 可以同时使用的最大分区数，适用于 spark_to_jdbc 和 jdbc_to_spark 操作。这也将限制可以打开的 JDBC 连接数
partition_column (str | None) – (仅限 jdbc_to_spark) 用于按此列对 metastore 表进行分区的数字列。如果指定，您还必须指定：num_partitions, lower_bound, upper_bound
lower_bound (str | None) – (仅限 jdbc_to_spark) 要获取的数字分区列范围的下限。如果指定，您还必须指定：num_partitions, partition_column, upper_bound
upper_bound (str | None) – (仅限 jdbc_to_spark) 要获取的数字分区列范围的上限。如果指定，您还必须指定：num_partitions, partition_column, lower_bound
create_table_column_types (str | None) – (仅限 spark_to_jdbc) 创建表时，用于代替默认数据类型的数据库列数据类型。数据类型信息应按照与 CREATE TABLE columns 语法相同的格式指定 (例如: “name CHAR(64), comments VARCHAR(1024)”)。指定的类型应为有效的 Spark SQL 数据类型。
kwargs (Any) – 传递给 SparkSubmitOperator 的 kwargs。

execute(context)[source]¶

调用 SparkSubmitHook 来运行提供的 Spark 作业。

on_kill()[source]¶

覆盖此方法以在任务实例被终止时清理子进程。

在操作符内使用 threading、subprocess 或 multiprocessing 模块的任何地方都需要进行清理，否则会留下僵尸进程。