airflow.providers.alibaba.cloud.operators.analyticdb_spark

模块内容

AnalyticDBSparkBaseOperator

定义用户如何开发 AnalyticDB Spark 的抽象基类。

AnalyticDBSparkSQLOperator

将 Spark SQL 应用程序提交到底层集群;包装 AnalyticDB Spark REST API。

AnalyticDBSparkBatchOperator

将 Spark 批处理应用程序提交到底层集群;包装 AnalyticDB Spark REST API。

class airflow.providers.alibaba.cloud.operators.analyticdb_spark.AnalyticDBSparkBaseOperator(*, adb_spark_conn_id='adb_spark_default', region=None, polling_interval=0, **kwargs)[source]

基类: airflow.models.BaseOperator

定义用户如何开发 AnalyticDB Spark 的抽象基类。

hook()[source]

获取有效的 hook。

execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文,请参阅 get_template_context。

monitor_application()[source]
poll_for_termination(app_id)[source]

轮询 Spark 应用程序终止。

参数

app_id (str) – 要监视的 Spark 应用程序的 ID

on_kill()[source]

当任务实例被终止时,覆盖此方法以清理子进程。

在操作符中使用 threading、subprocess 或 multiprocessing 模块都需要清理,否则会留下僵尸进程。

kill()[source]

删除指定的应用程序。

class airflow.providers.alibaba.cloud.operators.analyticdb_spark.AnalyticDBSparkSQLOperator(*, sql, conf=None, driver_resource_spec=None, executor_resource_spec=None, num_executors=None, name=None, cluster_id, rg_name, **kwargs)[source]

基类: AnalyticDBSparkBaseOperator

将 Spark SQL 应用程序提交到底层集群;包装 AnalyticDB Spark REST API。

参数
  • sql (str) – 要执行的 SQL 查询。

  • conf (dict[Any, Any] | None) – Spark 配置属性。

  • driver_resource_spec (str | None) – Spark 驱动程序的资源规范。

  • executor_resource_spec (str | None) – 每个 Spark 执行器的资源规范。

  • num_executors (int | str | None) – 要为此应用程序启动的执行器数量。

  • name (str | None) – 此应用程序的名称。

  • cluster_id (str) – AnalyticDB MySQL 3.0 数据湖仓的集群 ID。

  • rg_name (str) – AnalyticDB MySQL 3.0 数据湖仓集群中的资源组的名称。

template_fields: collections.abc.Sequence[str] = ('spark_params',)[source]
template_fields_renderers[source]
execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文,请参阅 get_template_context。

class airflow.providers.alibaba.cloud.operators.analyticdb_spark.AnalyticDBSparkBatchOperator(*, file, class_name=None, args=None, conf=None, jars=None, py_files=None, files=None, driver_resource_spec=None, executor_resource_spec=None, num_executors=None, archives=None, name=None, cluster_id, rg_name, **kwargs)[source]

基类: AnalyticDBSparkBaseOperator

将 Spark 批处理应用程序提交到底层集群;包装 AnalyticDB Spark REST API。

参数
  • file (str) – 包含要执行的应用程序的文件路径。

  • class_name (str | None) – 应用程序 Java/Spark 主类的名称。

  • args (collections.abc.Sequence[str | int | float] | None) – 应用程序命令行参数。

  • conf (dict[Any, Any] | None) – Spark 配置属性。

  • jars (collections.abc.Sequence[str] | None) – 此应用程序中要使用的 jar 包。

  • py_files (collections.abc.Sequence[str] | None) – 此应用程序中要使用的 python 文件。

  • files (collections.abc.Sequence[str] | None) – 此应用程序中要使用的文件。

  • driver_resource_spec (str | None) – Spark 驱动程序的资源规范。

  • executor_resource_spec (str | None) – 每个 Spark 执行器的资源规范。

  • num_executors (int | str | None) – 要为此应用程序启动的执行器数量。

  • archives (collections.abc.Sequence[str] | None) – 此应用程序中要使用的压缩文件。

  • name (str | None) – 此应用程序的名称。

  • cluster_id (str) – AnalyticDB MySQL 3.0 数据湖仓的集群 ID。

  • rg_name (str) – AnalyticDB MySQL 3.0 数据湖仓集群中的资源组的名称。

template_fields: collections.abc.Sequence[str] = ('spark_params',)[source]
template_fields_renderers[source]
execute(context)[source]

创建操作符时派生。

上下文是与渲染 jinja 模板时使用的相同字典。

有关更多上下文,请参阅 get_template_context。

此条目是否有帮助?