使用 Airflow,您可以在精确需要时快速启动、管理和拆除基础设施。

使用 Airflow 进行基础设施管理
Airflow 可以与任何 API 交互,使其成为管理基础设施(例如在任何云上运行的 Kubernetes 或 Spark 集群)的绝佳工具。从 Airflow 2.7 版本开始,提供了设置/拆除(setup/teardown)功能,这是一种特殊的任务类型,具有智能行为,可在您精确需要时快速启动和拆除基础设施。
基础设施管理通常在其他用例(如 MLOps 或实现数据质量检查)的背景下需要。此视频展示了一个如何将其用于 MLOps 流水线的示例。您可以在此处找到此示例中显示的代码。
为何使用 Airflow 进行基础设施管理
Airflow 是需要管理基础设施的流水线的热门选择,因为它具有以下特点:
- 原生支持 Python:将流水线写成 Python 代码,可轻松将自定义函数转化为任务。您需要管理基础设施的任何逻辑,都可以在 Airflow 中用 Python 实现。
- 可扩展:基础设施管理在许多用例中都需要,包括 MLOps、数据质量检查等。Airflow 的灵活性和广泛的 Provider 使其适用于您可能需要实现的任何用例。
- 可伸缩:在有足够的计算能力的情况下,Airflow 可以伸缩以处理无限数量的任务和工作流。如果您选择 Airflow,您的业务将能够随之增长。
Airflow 用于基础设施管理的功能
Airflow 2.7 版本实现了一个新的关键功能,使其成为管理基础设施更优的选择
- 设置/拆除任务:设置/拆除任务是一种特殊的任务类型,可用于管理运行其他任务所需的基础设施。它们具有特殊的行为,以支持在任务运行前设置资源和配置(例如 Spark 集群或其他计算资源),并在任务完成后(即使任务失败)拆除该基础设施的模式。