airflow.providers.alibaba.cloud.operators.analyticdb_spark¶

类¶

`AnalyticDBSparkBaseOperator`	定义用户如何开发 AnalyticDB Spark 的抽象基类。
`AnalyticDBSparkSQLOperator`	向底层集群提交 Spark SQL 应用程序；封装了 AnalyticDB Spark REST API。
`AnalyticDBSparkBatchOperator`	向底层集群提交 Spark 批处理应用程序；封装了 AnalyticDB Spark REST API。

模块内容¶

class airflow.providers.alibaba.cloud.operators.analyticdb_spark.AnalyticDBSparkBaseOperator(*, adb_spark_conn_id='adb_spark_default', region=None, polling_interval=0, **kwargs)[source]¶

基类： airflow.models.BaseOperator

定义用户如何开发 AnalyticDB Spark 的抽象基类。

app_id: str | None = None[source]¶

polling_interval = 0[source]¶

property hook: airflow.providers.alibaba.cloud.hooks.analyticdb_spark.AnalyticDBSparkHook[source]¶

获取有效的 hook。

execute(context)[source]¶

创建 operator 时进行派生。

上下文是与渲染 jinja 模板时使用的相同的字典。

有关更多上下文，请参阅 get_template_context。

monitor_application()[source]¶

poll_for_termination(app_id)[source]¶

轮询等待 Spark 应用程序终止。

参数：: app_id (str) – 要监控的 Spark 应用程序 ID

on_kill()[source]¶

覆盖此方法以在任务实例被终止时清理子进程。

在 operator 中使用的任何 threading, subprocess 或 multiprocessing 模块都需要清理，否则会留下僵尸进程。

kill()[source]¶

删除指定的应用程序。

class airflow.providers.alibaba.cloud.operators.analyticdb_spark.AnalyticDBSparkSQLOperator(*, sql, conf=None, driver_resource_spec=None, executor_resource_spec=None, num_executors=None, name=None, cluster_id, rg_name, **kwargs)[source]¶

基类： AnalyticDBSparkBaseOperator

向底层集群提交 Spark SQL 应用程序；封装了 AnalyticDB Spark REST API。

参数：

sql (str) – 要执行的 SQL 查询。
conf (dict[Any, Any] | None) – Spark 配置属性。
driver_resource_spec (str | None) – Spark driver 的资源规格。
executor_resource_spec (str | None) – 每个 Spark executor 的资源规格。
num_executors (int | str | None) – 为此应用程序启动的 executor 数量。
name (str | None) – 此应用程序的名称。
cluster_id (str) – AnalyticDB MySQL 3.0 数据湖版的集群 ID。
rg_name (str) – AnalyticDB MySQL 3.0 数据湖版集群中的资源组名称。

template_fields: collections.abc.Sequence[str] = ('spark_params',)[source]¶

template_fields_renderers[source]¶

spark_params[source]¶

execute(context)[source]¶

创建 operator 时进行派生。

上下文是与渲染 jinja 模板时使用的相同的字典。

有关更多上下文，请参阅 get_template_context。

class airflow.providers.alibaba.cloud.operators.analyticdb_spark.AnalyticDBSparkBatchOperator(*, file, class_name=None, args=None, conf=None, jars=None, py_files=None, files=None, driver_resource_spec=None, executor_resource_spec=None, num_executors=None, archives=None, name=None, cluster_id, rg_name, **kwargs)[source]¶

基类： AnalyticDBSparkBaseOperator

向底层集群提交 Spark 批处理应用程序；封装了 AnalyticDB Spark REST API。

参数：

file (str) – 包含要执行应用程序的文件的路径。
class_name (str | None) – 应用程序 Java/Spark 主类的名称。
args (collections.abc.Sequence[str | int | float] | None) – 应用程序命令行参数。
conf (dict[Any, Any] | None) – Spark 配置属性。
jars (collections.abc.Sequence[str] | None) – 此应用程序中使用的 jars。
py_files (collections.abc.Sequence[str] | None) – 此应用程序中使用的 Python 文件。
files (collections.abc.Sequence[str] | None) – 此应用程序中使用的文件。
driver_resource_spec (str | None) – Spark driver 的资源规格。
executor_resource_spec (str | None) – 每个 Spark executor 的资源规格。
num_executors (int | str | None) – 为此应用程序启动的 executor 数量。
archives (collections.abc.Sequence[str] | None) – 此应用程序中使用的归档文件。
name (str | None) – 此应用程序的名称。
cluster_id (str) – AnalyticDB MySQL 3.0 数据湖版的集群 ID。
rg_name (str) – AnalyticDB MySQL 3.0 数据湖版集群中的资源组名称。

template_fields: collections.abc.Sequence[str] = ('spark_params',)[source]¶

template_fields_renderers[source]¶

spark_params[source]¶

execute(context)[source]¶

创建 operator 时进行派生。

上下文是与渲染 jinja 模板时使用的相同的字典。

有关更多上下文，请参阅 get_template_context。