Amazon Athena 操作符¶
Amazon Athena 是一种交互式查询服务,可让您使用标准 SQL 轻松分析存储在 Amazon S3 中的数据。虽然 Amazon Athena 本身不提供符合 DB API 2.0(PEP 249)规范的连接,但 PyAthena 库在 boto3 库的基础上提供了此功能。
本文档介绍了使用 Airflow 与 Amazon Athena 交互的两种主要方式
API(HTTP Boto3):此方法通过 boto3 库直接调用 Amazon Athena 的 API。它是希望在更底层、直接通过 HTTP 请求与 Athena 交互的用户的首选方式。
DB API 连接(Amazon Athena SQL):对于偏好传统数据库交互方式的用户,PyAthena 实现了 DB API 2.0 规范,使得 Athena 可以像其他关系型数据库一样通过 SQL 使用。
选择连接方式¶
Airflow 提供了两种使用 Amazon Athena 查询数据的方法。
Amazon Athena (API): 如果您只需要执行单条语句且不需要在 Airflow 中返回结果,请选择此选项。
Amazon Athena SQL (DB API Connection): 如果您需要在同一个 operator 中执行多条查询,并且必须在 Airflow 中直接获取和处理查询结果(例如用于感知数值或进一步的数据操作),请选择此方式。
注意
这两种连接方式都在底层使用 Amazon Web Services Connection 进行身份验证。应根据您的使用场景决定使用哪种连接方式。