生态系统

这些资源和服务并非由 Apache Airflow® 社区和 Apache Airflow 项目(由提交者和 Airflow PMC 维护)维护或认可。请您自行斟酌使用。社区不验证这些工具的许可证或有效性,因此您有责任进行验证。

如果您希望被包含在此页面上,请联系Apache Airflow 开发或用户邮件列表并告知我们,或者直接向该页面打开一个拉取请求。

 

学习资源

Apache Airflow YouTube 频道 - 官方 YouTube 频道

Airflow 峰会 - Apache Airflow 开发人员的会议

Awesome Apache Airflow - 关于 Apache Airflow 的精选资源列表

Astronomer Academy - Astronomer 教育团队提供的完整课程和认证

Apache Airflow 完整实践入门课程,由 Marc Lamberti 在 Udemy 上提供

Apache Airflow:从初学者到高级的完整实践课程,由 Alexandra Abbas 在 Udemy 上提供

使用 Apache Airflow 的数据管道 以及 第二版 Amazon 上的 Apache Airflow 书籍

 

Airflow 即服务

Astro - 由 Astronomer 提供,Astro 是现代数据编排平台,由 Apache Airflow 提供支持。Astro 使数据工程师、数据科学家和数据分析师能够构建、运行和观察作为代码的管道。

Google Cloud Composer - Google Cloud Platform 上的托管 Apache Airflow 服务

Amazon Managed Workflows for Apache Airflow - Amazon Web Services (AWS) 上的托管 Apache Airflow

Azure Data Factory Managed Airflow - Azure 上的托管 Apache Airflow 服务

Yandex Managed Service for Apache Airflow - Yandex Cloud 上的托管 Apache Airflow

使用 Restack 的 Airflow - 在 Restack Cloud 上托管 Apache Airflow,或自带云:AWS EKS、GCP GKE 或 Azure AKS。允许您使用最新版本的 Airflow 以及您自己的 DAG。将您的存储库连接到 Restack GitHub 应用程序以进行内置 CI/CD。

DoubleCloud Managed Service for Apache Airflow - 在 DoubleCloud 平台上托管的 Apache Airflow。

 

其他部署方法

Airflow Heroku 部署 - Airflow Heroku 部署允许您只需点击几下即可创建演示 Airflow 实例。

通过 CNDI 自管理 Airflow - 用于部署 Airflow Kubernetes 集群的工具包,支持 AWS、GCP、Azure、VMWare、裸机甚至多/混合云支持。有关详细信息,请参阅文档

Amazon EKS 上的自管理 Airflow - Amazon EKS 上的自管理 Airflow 提供了一个指南,用于使用 TerraformAmazon EKS 上部署自管理 Apache Airflow,并使用带有 Terraform Data 插件 模块的 EKS 蓝图上的数据,请查看EKS Airflow 蓝图上的数据

Amazon MWAA Terraform 模块 允许您使用官方 Terraform 模块部署 Amazon Managed Workflows for Apache Airflow。有关如何使用 Amazon MWAA 的完整示例,请查看EKS MWAA 蓝图上的数据

 

第三方 Airflow 插件和提供程序

Astronomer 注册表 - 用于发现和分发 Apache Airflow 集成的中心,旨在聚合和管理生态系统中最好的部分。

Airflow 插件 - Airflow 的各种插件存储库的中心集合,包括 mailchimp、trello、sftp、GitHub 等。

Airflow ECR 插件 - 定期刷新 AWS ECR 登录令牌的插件。这在 DockerOperator 需要拉取托管在 ECR 上的镜像时很有帮助。

Airflow OpenMLDB 提供程序 - 包含在 OpenMLDB 上进行特征提取的运算符的 Airflow OpenMLDB 提供程序。

Airflow Apache Mesos 提供程序 - 包含使用 Apache Mesos 进行扩展的调度程序的 Airflow Apache Mesos 提供程序。

Airflow Netezza 提供程序 - Airflow 提供程序使用 nzpy 连接到 Netezza

Airflow Grafana Loki 提供程序 - 提供与 Grafana Loki 集成的 Hook 和 LogHandler。这为从 Grafana Loki 写入和读取任务日志提供了一个 LogHandler。

Airflow SAS 提供程序 - 提供用于创建 Airflow 任务以执行 SAS Studio 流程和作业的 Hook 和运算符。

Airflow Cloudera 提供程序 - 提供用于与 Cloudera 数据平台服务进行交互和运行工作负载的 Hook 和运算符

Airflow Alembic 提供程序 - 提供用于使用 Alembic 运行数据库迁移的 Hook 和运算符

Airflow Pulumi 提供程序 - 提供用于使用 Pulumi 管理基础设施即代码的 Hook 和运算符

Airflow DolphinDB 提供程序 - 提供用于使用 DolphinDB 运行脚本的 Hook 和运算符。

Airflow TM1 提供程序 - 提供 Hook 和运算符,以简化通过 REST API 连接到 IBM Cognos TM1 / Planning Analytics 数据库。

Astronomer Cosmos - 通过几行代码将您的 dbt Core 项目作为 Apache Airflow DAG 和任务组运行。

Airflow OpenTelemetry 提供程序 - 提供 Hook 和 EventListener,它将在 OpenTelemetry 中为您的 DAG 运行生成跟踪、指标和日志。

Airflow Couchbase 提供程序 - 提供 Hook 以无缝地与 Couchbase 数据库交互、执行查询、管理文档等。

Airflow SAP HANA 提供程序 - 提供用于与 SAP HANA 交互的 Hook。允许使用 Airflow SQL 运算符和数据库 Hook 方法,包括与 sqlalchemy 交互的方法。

 

异步提供程序

Astronomer 提供程序 - 由 Astronomer 构建和维护的 Apache Airflow 的异步运算符和传感器集合。

Airflow Kafka 提供程序 - 包含可延迟运算符和传感器的 Apache Airflow Kafka 提供程序。

 

第三方 Airflow Helm 图表

Apache Airflow 从 2021 年初开始发布官方 Apache Airflow 社区图表,但历史上还有其他一些流行的图表

用户社区图表 - 用户社区管理的图表,该图表自 2018 年以来就已存在,之前在官方(现已弃用)Helm 图表存储库中称为 stable/airflow

Bitnami 图表 - Bitnami 管理着许多图表,而 Airflow 图表就是其中之一

Astronomer 图表 - 由 Astronomer 图表管理的图表。这是官方 Airflow 社区图表所基于的原始图表(由 Astronomer 捐赠)

 

与 Airflow 集成的工具

ADA - 一个微服务,用于从 Airflow 数据库实例检索分析指标。

as-scraper - 与 Selenium 的集成,用于在 Airflow 中构建和维护网络爬虫。

afctl - 一个 CLI 工具,包含更快、更顺畅地创建、管理和部署 Airflow 项目所需的一切。

airflint - 对您的所有 Airflow DAG 强制执行最佳实践。

airflow-aws-executors - 直接在 AWS Batch、AWS Fargate 或 AWS ECS 上运行 Airflow 任务;提供较少的基础设施更多。

airflow-code-editor - 一个用于 Apache Airflow 的工具,允许您在浏览器中编辑 DAG。

airflow-diagrams - 从 Airflow DAG 自动生成的图表

airflow-maintenance-dags - Clairvoyant 有一个 Airflow DAG 的存储库,该 DAG 在 Airflow 本身上运行,清除了支持元数据存储的各个部分。

AirflowK8sDebugger - 一个用于使用 KubernetesPodOperator 从 Airflow DAG 生成 k8s pod yaml 模板的库。

Airflow Ditto - 一个可扩展的框架,用于对 Airflow DAG 进行转换,并将其转换为另一个与原始 DAG 流程同构的 DAG,以便能够在不同的环境中运行它(例如,在不同的云上,甚至在不同的容器框架上 - YARN 上的 Apache Spark 与 Kubernetes)。自带开箱即用的 EMR 到 HDInsight DAG 转换支持。

Amundsen - Amundsen 是一个数据发现和元数据平台,用于提高数据分析师、数据科学家和工程师在与数据交互时的生产力。它可以显示哪个 Airflow 任务生成了给定的表。

Apache-Liminal-Incubating - Liminal 提供了一种特定于领域的语言 (DSL),用于在 Apache Airflow 之上构建 ML/AI 工作流程。其目标是使机器学习过程可操作,允许数据科学家快速从成功的实验过渡到自动化模型训练、验证、部署和生产中的推理管道。

Astro CLI - Astro CLI 是获取用于原型设计和开发的本地 Airflow 服务器的最简单方法。

Astro SDK - Astro SDK 允许使用 Python 和 SQL 快速、清晰地开发提取、加载、转换工作流程,由 Apache Airflow 提供支持,并由 Astronomer 维护。

Chartis - 将通用工作流程语言 (CWL) 转换为 Airflow DAG 的 Python 包。

CWL-Airflow - 使用 CWL v1.2 支持扩展 Apache-Airflow 1.10.11 功能的 Python 包。

DAGify - 一个 Python 工具,可将 Control-M 工作流程转换为 Airflow DAG。

dag-factory - 一个用于从 YAML 配置文件动态生成 Apache Airflow DAG 的库。

DAG 依赖关系查看器 - 一个工具,用于创建视图以可视化 Airflow DAG 之间的依赖关系

data-dag - 一个用于构建工厂以从数据(例如 YAML 文件)动态生成 DAG 的库

Databand - 构建在 Airflow 之上的可观察性平台。

DataHub - 现代数据栈的元数据平台。它可以自动从 Airflow 收集血缘关系和其他元数据

dbt (data build tool) - 数据转换工具,dbt 作业可以使用 Airflow 进行调度

Domino - Domino 是一个开源的图形用户界面平台,用于创建数据和机器学习工作流(DAG),无需编码,通过直观的拖放操作即可完成。它也是发布和共享 Python 代码的标准,以便任何人可以直接在 GUI 中自动使用。

Elyra - Elyra 提供了一个可视化编辑器,使数据科学家能够以低代码/无代码的方式创建 AI 管道。

GeniumCloud - 一站式平台,通过全新的 UI 快速构建、调度和控制 Airflow 工作流。开箱即用的全面 Airflow 基础设施监控、与警报系统的集成,以及从小型到企业组织的服务的采用。管理复杂工作流的最简单方法。

gusty - 使用任意数量的 YAML、Python、Jupyter Notebook 或 R Markdown 文件创建 DAG,这些文件代表 DAG 中的单个任务。gusty 还配置依赖项、DAG 和 TaskGroup,支持本地操作符等。一个完全容器化的演示版本可在此处获得:here

Marquez - Marquez 是一个开源元数据服务,它维护数据来源,显示数据集是如何被使用和产生的,并集中化数据集生命周期管理。Marquez 可以与 Apache Airflow 一起用作 OpenLineage 后端。

Meltano - 开源、自托管、CLI 优先、可调试和可扩展的 ELT 工具,它采用 Singer 进行提取和加载,利用 dbt 进行转换,并与 Airflow 集成进行编排

Nexla - 构建、转换和管理与数据库、API、流、SaaS 服务、事件甚至电子邮件之间的数据流。当您的 Nexla 流运行完成后,使用 Nexla 的 Airflow 操作符来触发其他操作符中的流开始运行。

Oozie to Airflow - 一个在 Apache Oozie 工作流和 Apache Airflow 工作流之间轻松转换的工具。

OpenLineage - 一个用于收集数据血缘关系的开放标准,可用于跟踪数据集在包括 Apache Airflow 在内的多个系统中移动的路径。

Panda Patrol - 在您的 Airflow DAG 中测试和分析您的数据。预先构建了仪表板和警报。

PowerBI-Airflow-Plugin - 用于 Power BI 的 Airflow 插件,包括一个旨在刷新 Power BI 数据集的自定义 Airflow 操作符。

Pylint-Airflow - 一个用于对 Airflow 代码进行静态代码分析的 Pylint 插件。

Redactics - 一个安装在您数据库旁边的托管设备(基于 Airflow 构建),为不断增长的数据管理工作流集合提供支持。

simple-dag-editor - 零配置 Airflow 工具,可让您管理 DAG 文件。

Viewflow - 一个基于 Airflow 的框架,允许数据科学家创建数据模型,而无需编写 Airflow 代码。

whirl - Apache Airflow 工作流的快速迭代本地开发和测试。

ZenML - 在 Airflow 上运行您的机器学习特定管道,轻松与您现有的数据科学工具和工作流集成。

Airflow Vscode 扩展 这是 Apache Airflow 2+ 的 VSCode 扩展。您可以触发您的 DAG、暂停/取消暂停 DAG、查看执行日志、浏览源代码以及执行更多操作。

Airflow Provider 模板 - 用于创建和测试 Airflow provider 包的模板和命令。

Airflow 模板 - 用于创建最小化 Airflow 环境以进行快速测试和原型设计的模板和命令。

 

Airflow Provider 系统测试仪表板

Amazon provider 包健康状况仪表板 - 仪表板列出 Amazon provider 包中的所有系统测试及其当前健康状况:上次执行状态(成功/失败、平均持续时间等)。

Google provider 包健康状况仪表板 - 仪表板列出 Google provider 包中的所有系统测试及其当前健康状况。

LLM Providers 健康状况仪表板 - 仪表板列出 LLM provider 包中的所有系统测试及其当前健康状况:最近 7 次运行的执行状态(成功/失败、执行日期)。

Teradata Provider 健康状况仪表板 - 仪表板列出 Teradata Provider 的系统测试状态及其最近运行的当前健康状况。