hadoop/mapreduce中的日志文件分析

xfb7svmp 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(282)

嗨，我有一些以下形式的查询日志文件：

q_string    q_visits    q_date
0   red ballons 1790        2012-10-02 00:00:00
1   blue socks  364         2012-10-02 00:00:00
2   current     280         2012-10-02 00:00:00
3   molecular   259         2012-10-02 00:00:00
4   red table   201         2012-10-02 00:00:00

我每天都有一份文件，一年中每个月都有。我想做的是：
（1）按月份对文件进行分组（或者更具体地说，将属于每个月的所有q\u字符串分组）
（2）由于同一个q\u字符串可能会在多天内出现，因此我想在一个月内对同一个q\u字符串进行分组，对该q\u字符串的所有示例的q\u访问进行汇总
（3）根据分组的q\u字符串对q\u访问进行标准化（通过将分组的q\u字符串的q\u访问的总和除以当月所有q\u字符串的q\u访问的总和）
我希望输出与输入具有类似的模式，只是有一个额外的列，其中包含标准化的每月q\ U访问量。
我一直在用python/pandas做这个，但是现在有了更多的数据，并且觉得这个问题更容易被mapreduce处理。
上述内容在emr/aws中是否易于实现？从概念上讲，执行上述操作的mr工作流是什么？我想继续用python编码，所以可能会使用流。
提前谢谢你的帮助。

hadoop mapreduce hadoop-streaming elastic-map-reduce

来源：https://stackoverflow.com/questions/18932741/log-file-analysis-in-hadoop-mapreduce