Amazon Athena Operator

Amazon Athena 是一种交互式查询服务,可以使用标准 SQL 轻松分析 Amazon S3 中的数据。虽然 Amazon Athena 本身不提供符合 DB API 2.0 (PEP 249) 的连接,但 PyAthena 库基于 boto3 库提供了此功能。

本文档介绍了与 Airflow 交互 Amazon Athena 的两种主要方式

  1. API (HTTP Boto3):此方法通过 boto3 库使用 Amazon Athena 的直接 API。对于希望通过 HTTP 请求直接在较低级别与 Athena 交互的用户,此方法是首选。

  2. DB API 连接 (Amazon Athena SQL):对于喜欢更传统的数据库交互的用户,PyAthena 实现了 DB API 2.0 规范,允许通过 SQL 以类似于其他关系数据库的方式使用 Athena。

选择您的连接方法

Airflow 提供了两种使用 Amazon Athena 查询数据的方式。

Amazon Athena (API):如果您需要执行单个语句而不将结果返回到 Airflow,请选择此选项。

Amazon Athena SQL (DB API 连接):如果您需要在同一个 Operator 中执行多个查询,并且必须直接在 Airflow 中检索和处理查询结果(例如用于感知值或进一步的数据操作),请选择此选项。

注意

两种连接方法在底层都使用 Amazon Web Services 连接 进行身份验证。您应根据您的用例决定使用哪种连接方法。

此条目是否有帮助?