AWS Glue DataBrew¶
AWS Glue DataBrew 是一款可视化数据准备工具,可以让数据分析师和数据科学家更轻松地清理和规范化数据,为分析和机器学习 (ML) 做好准备。您可以从 250 多种预构建的转换中进行选择,以自动执行数据准备任务,所有这些都无需编写任何代码。您可以自动执行过滤异常值、将数据转换为标准格式和更正无效值等任务。数据准备就绪后,您可以立即将其用于分析和机器学习项目。
先决条件任务¶
要使用这些操作符,您必须执行以下操作
通过 pip 安装 API 库。
pip install 'apache-airflow[amazon]'详细信息请参阅 Airflow™ 安装
设置连接.
操作符¶
启动 AWS Glue DataBrew 作业¶
要提交新的 AWS Glue DataBrew 作业,您可以使用 GlueDataBrewStartJobOperator
。
start_job = GlueDataBrewStartJobOperator(task_id="startjob", job_name=job_name, delay=15)