mapreduce：连接数据文件并汇总信息

8oomwypt 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(356)

我有以下数据集：
提供节目和该节目观众数量的数据集#1：

TVShow1,25
TVShow2,30
TVShow3,7
TVShow1,15

数据集#2，提供广播每个节目的频道：

TVShow4,BBC
TVShow2,COM
TVShow1,TNT
TVShow3,TNT

我想计算一下tnt频道每个节目的观众总数，例如。

TVShow1 40
TVShow3 7

我有以下Map器：


# !/usr/bin/env python

import sys

for line in sys.stdin:
    line       = line.strip()
    key_value  = line.split(",")
    key_in     = key_value[0]
    value_in   = key_value[1]

    if (value_in == 'TNT' or value_in.isdigit()):
        print( '%s\t%s' % (key_in, value_in) )

以及以下减速器：


# !/usr/bin/env python

import sys

prev_TV_show = "  "
line_cnt           = 0 
tnt_found = False
curr_TV_show_total_cnt = 0

for line in sys.stdin:
    line       = line.strip() 
    key_value  = line.split('\t')
    line_cnt   = line_cnt+1     

    curr_TV_show  = key_value[0]
    value_in   = key_value[1]

    if curr_TV_show != prev_TV_show:
        prev_TV_show = curr_TV_show     

        if (line_cnt>1 and tnt_found == True): 
            print('{0} {1}'.format(curr_TV_show,curr_TV_show_total_cnt))
            tnt_found = False
            curr_TV_show_total_cnt = 0

    if (value_in == 'TNT'): 
        tnt_found = True 
    else:
        curr_TV_show_total_cnt += int(value_in)

然后我测试代码如下：

cat data_file*.txt | ./my_mapper.py | sort | ./my_reducer.py

但是，第一行的观众总数是不正确的。它看起来像是被两个电视节目合并了。与管理第一行相关的代码中是否有任何错误？

hadoop mapreduce python hadoop-streaming

来源：https://stackoverflow.com/questions/33827535/mapreduce-join-data-files-and-summarize-information

1条答案

按热度按时间

qzlgjiam1#

我认为你的代码有两个问题-
更新上一个电视节目会导致打印错误的值。你实际上是想打印上一个电视节目的“count”，而不是当前的电视节目
打印上一个迭代值-您需要在循环外添加一个额外的打印（+条件）

赞(0）回复(0）举报 2021-06-03

我来回答

mapreduce：连接数据文件并汇总信息

1条答案

相关问题

热门标签

最新问答