配置参考

此页面包含 apache-airflow-providers-openlineage 提供程序的所有可用 Airflow 配置列表,您可以在 airflow.cfg 文件中或使用环境变量设置这些配置。

注意

从 Airflow 2.7.0 开始,提供程序包中嵌入的配置开始被使用。以前,配置是在 Airflow 核心包中描述和配置的 - 因此,如果您使用的是低于 2.7.0 的 Airflow,请查看 Airflow 文档以获取 Airflow 核心中可用的配置选项列表。

注意

有关更多信息,请参阅 设置配置选项

部分

[openlineage]

本节应用 OpenLineage 集成的设置。有关配置及其优先级的更多信息,请访问 https://airflow.org.cn/docs/apache-airflow-providers-openlineage/stable/guides/user.html#transport-setup

config_path

指定 YAML 配置文件的路径。这确保了通过 openlineage.yml 文件传递配置的向后兼容性。

类型

字符串

默认值

''

环境变量

AIRFLOW__OPENLINEAGE__CONFIG_PATH

示例

full/path/to/openlineage.yml

dag_state_change_process_pool_size

1.8.0 版中的新功能。

用于在调度程序进程中以异步方式处理 DAG 状态更改的进程数。

类型

整数

默认值

1

环境变量

AIRFLOW__OPENLINEAGE__DAG_STATE_CHANGE_PROCESS_POOL_SIZE

disable_source_code

通过将其设置为 true 来禁用在 OpenLineage 事件中包含源代码。默认情况下,除非禁用,否则多个操作器(例如 Python、Bash)将在事件中包含其源代码。

类型

布尔值

默认值

False

环境变量

AIRFLOW__OPENLINEAGE__DISABLE_SOURCE_CODE

disabled

通过将其设置为 true 来禁用在不卸载 OpenLineage 提供程序的情况下发送事件。

类型

布尔值

默认值

False

环境变量

AIRFLOW__OPENLINEAGE__DISABLED

disabled_for_operators

1.1.0 版中的新功能。

通过传递一个字符串来排除一些操作器发出 OpenLineage 事件,该字符串包含要禁用的操作器的完整导入路径,并用分号分隔。

类型

字符串

默认值

''

环境变量

AIRFLOW__OPENLINEAGE__DISABLED_FOR_OPERATORS

示例

airflow.operators.bash.BashOperator;airflow.operators.python.PythonOperator

execution_timeout

1.9.0 版中的新功能。

OpenLineage 执行元数据提取可以花费的最长时间(以秒为单位)。

类型

整数

默认值

10

环境变量

AIRFLOW__OPENLINEAGE__EXECUTION_TIMEOUT

extractors

通过传递一个字符串来注册自定义 OpenLineage 提取器,该字符串包含完整的导入路径,并用分号分隔。

类型

字符串

默认值

环境变量

AIRFLOW__OPENLINEAGE__EXTRACTORS

示例

full.path.to.ExtractorClass;full.path.to.AnotherExtractorClass

namespace

设置谱系数据所属的命名空间,以便如果您使用多个 OpenLineage 生产者,则来自它们的事件将在逻辑上分开。

类型

字符串

默认值

环境变量

AIRFLOW__OPENLINEAGE__NAMESPACE

示例

my_airflow_instance_1

selective_enable

1.7.0 版中的新功能。

如果启用此设置,OpenLineage 集成将不会收集和发送元数据,除非您使用 enable_lineage 方法为每个 DAG任务 显式启用它。

类型

布尔值

默认值

False

环境变量

AIRFLOW__OPENLINEAGE__SELECTIVE_ENABLE

transport

以 JSON 字符串形式传递 OpenLineage 客户端传输配置。它应该包含传输类型和其他选项(每种传输类型都不同)。有关更多详细信息,请参阅:https://openlineage.io/docs/client/python/#built-in-transport-types

当前支持的类型有

  • HTTP

  • Kafka

  • 控制台

  • 文件

类型

字符串

默认值

''

环境变量

AIRFLOW__OPENLINEAGE__TRANSPORT

示例

{"type": "http", "url": "http://localhost:5000", "endpoint": "api/v1/lineage"}

此条目有帮助吗?