配置参考

此页面包含 apache-airflow-providers-openlineage 提供程序的所有可用 Airflow 配置的列表,这些配置可以在 airflow.cfg 文件中设置,也可以使用环境变量设置。

注意

嵌入在提供程序包中的配置从 Airflow 2.7.0 开始使用。之前,配置是在 Airflow 核心包中描述和配置的 - 因此,如果您使用的是低于 2.7.0 的 Airflow,请查看 Airflow 文档,了解 Airflow 核心中可用的配置选项列表。

注意

有关更多信息,请参见 设置配置选项

[openlineage]

此部分应用 OpenLineage 集成的设置。有关配置及其优先级的更多信息,请访问 https://airflow.org.cn/docs/apache-airflow-providers-openlineage/stable/guides/user.html#transport-setup

config_path

指定 YAML 配置文件的路径。这确保了通过 openlineage.yml 文件传递配置的向后兼容性。

类型

字符串

默认

''

环境变量

AIRFLOW__OPENLINEAGE__CONFIG_PATH

示例

full/path/to/openlineage.yml

custom_run_facets

1.10.0 版本中的新功能。

通过传递以分号分隔的完整导入路径的字符串来注册自定义运行面函数。

类型

字符串

默认

''

环境变量

AIRFLOW__OPENLINEAGE__CUSTOM_RUN_FACETS

示例

full.path.to.custom_facet_function;full.path.to.another_custom_facet_function

dag_state_change_process_pool_size

1.8.0 版本中的新功能。

用于在调度程序进程中以异步方式处理 DAG 状态更改的进程数。

类型

整数

默认

1

环境变量

AIRFLOW__OPENLINEAGE__DAG_STATE_CHANGE_PROCESS_POOL_SIZE

debug_mode

1.11.0 版本中的新功能。

如果为 true,OpenLineage 事件将包含用于调试的信息 - 可能包含较大的字段,例如所有已安装的软件包及其版本。

类型

布尔值

默认

False

环境变量

AIRFLOW__OPENLINEAGE__DEBUG_MODE

disable_source_code

通过将其设置为 true 来禁用在 OpenLineage 事件中包含源代码。默认情况下,除非禁用,否则多个运算符(例如 Python、Bash)将在事件中包含其源代码。

类型

布尔值

默认

False

环境变量

AIRFLOW__OPENLINEAGE__DISABLE_SOURCE_CODE

disabled

通过将其设置为 true,禁用发送事件而不卸载 OpenLineage 提供程序。

类型

布尔值

默认

False

环境变量

AIRFLOW__OPENLINEAGE__DISABLED

disabled_for_operators

1.1.0 版本中的新功能。

通过传递以分号分隔的要禁用运算符的完整导入路径的字符串,排除某些运算符发出 OpenLineage 事件。

类型

字符串

默认

''

环境变量

AIRFLOW__OPENLINEAGE__DISABLED_FOR_OPERATORS

示例

airflow.providers.standard.operators.bash.BashOperator; airflow.providers.standard.operators.python.PythonOperator

execution_timeout

1.9.0 版本中的新功能。

OpenLineage 可以花费的最大时间(以秒为单位)来执行元数据提取。

类型

整数

默认

10

环境变量

AIRFLOW__OPENLINEAGE__EXECUTION_TIMEOUT

extractors

通过传递以分号分隔的完整导入路径的字符串来注册自定义 OpenLineage 提取器。

类型

字符串

默认

环境变量

AIRFLOW__OPENLINEAGE__EXTRACTORS

示例

full.path.to.ExtractorClass;full.path.to.AnotherExtractorClass

include_full_task_info

1.10.0 版本中的新功能。

如果为 true,OpenLineage 事件将包含完整的任务信息 - 可能包含较大的字段。

类型

布尔值

默认

False

环境变量

AIRFLOW__OPENLINEAGE__INCLUDE_FULL_TASK_INFO

namespace

设置血缘数据所属的命名空间,这样,如果您使用多个 OpenLineage 生产者,则来自它们的事件将在逻辑上分离。

类型

字符串

默认

环境变量

AIRFLOW__OPENLINEAGE__NAMESPACE

示例

my_airflow_instance_1

selective_enable

1.7.0 版本中的新功能。

如果启用此设置,除非您使用 enable_lineage 方法显式地为每个 DAGTask 启用它,否则 OpenLineage 集成将不会收集和发出元数据。

类型

布尔值

默认

False

环境变量

AIRFLOW__OPENLINEAGE__SELECTIVE_ENABLE

spark_inject_parent_job_info

1.15.0 版本中的新功能。

对于支持的运算符,自动将 OpenLineage 的父作业(命名空间、作业名称、运行 ID)信息注入 Spark 应用程序属性。

类型

布尔值

默认

False

环境变量

AIRFLOW__OPENLINEAGE__SPARK_INJECT_PARENT_JOB_INFO

transport

将 OpenLineage 客户端传输配置作为 JSON 字符串传递。它应包含传输类型和其他选项(每种传输类型不同)。有关更多详细信息,请参见:https://openlineage.io/docs/client/python/#built-in-transport-types

当前支持的类型有

  • HTTP

  • Kafka

  • 控制台

  • 文件

类型

字符串

默认

''

环境变量

AIRFLOW__OPENLINEAGE__TRANSPORT

示例

{"type": "http", "url": "https://127.0.0.1:5000", "endpoint": "api/v1/lineage"}

此条目是否有帮助?