airflow.providers.alibaba.cloud.operators.analyticdb_spark

AnalyticDBSparkBaseOperator

定义用户如何开发 AnalyticDB Spark 的抽象基类。

AnalyticDBSparkSQLOperator

向底层集群提交 Spark SQL 应用程序;封装了 AnalyticDB Spark REST API。

AnalyticDBSparkBatchOperator

向底层集群提交 Spark 批处理应用程序;封装了 AnalyticDB Spark REST API。

模块内容

class airflow.providers.alibaba.cloud.operators.analyticdb_spark.AnalyticDBSparkBaseOperator(*, adb_spark_conn_id='adb_spark_default', region=None, polling_interval=0, **kwargs)[source]

基类: airflow.models.BaseOperator

定义用户如何开发 AnalyticDB Spark 的抽象基类。

app_id: str | None = None[source]
polling_interval = 0[source]
property hook: airflow.providers.alibaba.cloud.hooks.analyticdb_spark.AnalyticDBSparkHook[source]

获取有效的 hook。

execute(context)[source]

创建 operator 时进行派生。

上下文是与渲染 jinja 模板时使用的相同的字典。

有关更多上下文,请参阅 get_template_context。

monitor_application()[source]
poll_for_termination(app_id)[source]

轮询等待 Spark 应用程序终止。

参数:

app_id (str) – 要监控的 Spark 应用程序 ID

on_kill()[source]

覆盖此方法以在任务实例被终止时清理子进程。

在 operator 中使用的任何 threading, subprocess 或 multiprocessing 模块都需要清理,否则会留下僵尸进程。

kill()[source]

删除指定的应用程序。

class airflow.providers.alibaba.cloud.operators.analyticdb_spark.AnalyticDBSparkSQLOperator(*, sql, conf=None, driver_resource_spec=None, executor_resource_spec=None, num_executors=None, name=None, cluster_id, rg_name, **kwargs)[source]

基类: AnalyticDBSparkBaseOperator

向底层集群提交 Spark SQL 应用程序;封装了 AnalyticDB Spark REST API。

参数:
  • sql (str) – 要执行的 SQL 查询。

  • conf (dict[Any, Any] | None) – Spark 配置属性。

  • driver_resource_spec (str | None) – Spark driver 的资源规格。

  • executor_resource_spec (str | None) – 每个 Spark executor 的资源规格。

  • num_executors (int | str | None) – 为此应用程序启动的 executor 数量。

  • name (str | None) – 此应用程序的名称。

  • cluster_id (str) – AnalyticDB MySQL 3.0 数据湖版 的集群 ID。

  • rg_name (str) – AnalyticDB MySQL 3.0 数据湖版集群中的资源组名称。

template_fields: collections.abc.Sequence[str] = ('spark_params',)[source]
template_fields_renderers[source]
spark_params[source]
execute(context)[source]

创建 operator 时进行派生。

上下文是与渲染 jinja 模板时使用的相同的字典。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.alibaba.cloud.operators.analyticdb_spark.AnalyticDBSparkBatchOperator(*, file, class_name=None, args=None, conf=None, jars=None, py_files=None, files=None, driver_resource_spec=None, executor_resource_spec=None, num_executors=None, archives=None, name=None, cluster_id, rg_name, **kwargs)[source]

基类: AnalyticDBSparkBaseOperator

向底层集群提交 Spark 批处理应用程序;封装了 AnalyticDB Spark REST API。

参数:
  • file (str) – 包含要执行应用程序的文件的路径。

  • class_name (str | None) – 应用程序 Java/Spark 主类的名称。

  • args (collections.abc.Sequence[str | int | float] | None) – 应用程序命令行参数。

  • conf (dict[Any, Any] | None) – Spark 配置属性。

  • jars (collections.abc.Sequence[str] | None) – 此应用程序中使用的 jars。

  • py_files (collections.abc.Sequence[str] | None) – 此应用程序中使用的 Python 文件。

  • files (collections.abc.Sequence[str] | None) – 此应用程序中使用的文件。

  • driver_resource_spec (str | None) – Spark driver 的资源规格。

  • executor_resource_spec (str | None) – 每个 Spark executor 的资源规格。

  • num_executors (int | str | None) – 为此应用程序启动的 executor 数量。

  • archives (collections.abc.Sequence[str] | None) – 此应用程序中使用的归档文件。

  • name (str | None) – 此应用程序的名称。

  • cluster_id (str) – AnalyticDB MySQL 3.0 数据湖版 的集群 ID。

  • rg_name (str) – AnalyticDB MySQL 3.0 数据湖版集群中的资源组名称。

template_fields: collections.abc.Sequence[str] = ('spark_params',)[source]
template_fields_renderers[source]
spark_params[source]
execute(context)[source]

创建 operator 时进行派生。

上下文是与渲染 jinja 模板时使用的相同的字典。

有关更多上下文,请参阅 get_template_context。

此条目是否有帮助?