tests.system.apache.hive.example_twitter_dag

这是一个用于管理 Twitter 数据的示例 DAG。

模块内容

函数

fetch_tweets()

此任务应调用 Twitter API,并从昨天从和到四个 Twitter 用户处检索推文

clean_tweets()

这是一个占位符,用于清理这八个文件。在这一步中,您可以删除或选择列

analyze_tweets()

这是一个用于分析 Twitter 数据的占位符。可以简单地通过算法进行情感分析

transfer_to_db()

这是一个从 Hive 数据中提取摘要并将其存储到 MySQL 的占位符。

属性

ENV_ID

DAG_ID

fetch

test_run

tests.system.apache.hive.example_twitter_dag.ENV_ID[源代码]
tests.system.apache.hive.example_twitter_dag.DAG_ID = 'example_twitter_dag'[源代码]
tests.system.apache.hive.example_twitter_dag.fetch_tweets()[源代码]

此任务应调用 Twitter API,并从昨天从和到四个 Twitter 用户 (Twitter_A,..,Twitter_D) 处检索推文。此任务应生成八个 csv 输出文件,命名约定为方向(来自或到)_twitterHandle_date.csv

tests.system.apache.hive.example_twitter_dag.clean_tweets()[源代码]

这是一个用于清理这八个文件的占位符。在这一步中,您可以删除或选择列以及文本的不同部分。

tests.system.apache.hive.example_twitter_dag.analyze_tweets()[源代码]

这是一个用于分析 Twitter 数据的占位符。可以简单地通过诸如词袋之类的算法进行情感分析,或者更复杂的方法。您还可以查看 Web 服务来执行此类任务。

tests.system.apache.hive.example_twitter_dag.transfer_to_db()[源代码]

这是一个从 Hive 数据中提取摘要并将其存储到 MySQL 的占位符。

tests.system.apache.hive.example_twitter_dag.fetch[源代码]
tests.system.apache.hive.example_twitter_dag.test_run[源代码]

此条目是否有帮助?