如何在Hadoop中减少步骤差异？

sxpgvts3 于 2022-11-21 发布在 Hadoop

关注(0)|答案(1)|浏览(77)

如何在 Hadoop 中减少步骤差异？
我有一个理解 Hadoop 的问题。我有两个文件，首先我做了这些文件之间的连接。一个文件是关于国家，另一个是关于每个国家的客户端。
例如， clients . csv ：

Bertram Pearcy  ,bueno,SO
Steven Ulman  ,regular,ZA

中的每一个
Countries.csv

Name,Code   
Afghanistan,AF
Ã…land Islands,AX
Albania,AL  
…

格式
我做了一个 Map 减少，给我多少 " 好 " （ bueno ）客户有一个国家（ ZA ， SO ）和国家。 csv 我知道与国家，我们正在谈论。
我编程：

def steps(self): 
        # ordenamos las operaciones para su ejecución.
        return [ 
            MRStep(mapper=self.mapper 
                   ,reducer=self.reducer),            
            MRStep(mapper=self.mapper1
                   ,combiner=self.combiner_cuenta_palabras
                   ,reducer=self.reducer2
                    ),
        ]

格式
Map/减少的结果是：

["South Georgia and the South Sandwich Islands"]    1
["South Sudan"] 1
["Spain"]   3

格式
现在，我想知道哪一个最好。
我又加了一减。

def reducer3(self, _, values):            
        yield  _, max (values)
        
    def steps(self): 
        # ordenamos las operaciones para su ejecución.
        return [ 
            MRStep(mapper=self.mapper 
                   ,reducer=self.reducer),  
            MRStep(mapper=self.mapper1
                   ,combiner=self.combiner_cuenta_palabras
                   ,reducer=self.reducer2),
            MRStep(#mapper=self.mapper3,
                   reducer=self.reducer3
                   #,reducer=self.reducer3
            ),            
        ]

格式
但我得到的答案和没有减速器时一样
我试着使用一个 Map/减少程序添加另一个减少。它不工作。
我第一次减少我得到：

A, 10
C, 2
D, 5

格式
现在，我想使用我得到的结果：一、十
附加备注：
输入 [ 文件 1 ] + [ 文件 2 ] = 〉 enter image description here
Map/减少 = 〉输出
enter image description here 格式
现在，我需要与额外的 Map/减少（我想使用我所做的）得到另一个答案。
例如，一个且只有一个答案。例：x1月 1 日
第二）所有具有最好或更大的数字， 3 Spain 和 3 Guan 。
我试着用：

def reducer3(self, _, values):            
        yield  _, max (values)

格式
我还要补充一点，

def steps(self): 
        # ordenamos las operaciones para su ejecución.
        return [ 
            MRStep(mapper=self.mapper 
                   ,reducer=self.reducer),  
            MRStep(mapper=self.mapper1
                   ,combiner=self.combiner_cuenta_palabras
                   ,reducer=self.reducer2),
            MRStep(reducer=self.reducer3
            ),            
        ]

格式
但是我还是得到了相同的结果，我知道 REDUCER3 在使用，因为如果我写 max(values)+1000 ，会得到相同的结果，但是数字是 1001 ， 1003

hadoop

来源：https://stackoverflow.com/questions/74415367/how-to-steps-differences-reduce-in-hadoop

1条答案

按热度按时间

u0njafvf1#

你的reducer得到了3个不同的键，因此你找到了每个键的最大值，而values只有一个元素（试着打印它的长度...），因此你得到了3个结果。
例如，您需要第三个Map器返回(None, f'{key}|{value})，然后所有记录将被发送到一个reducer，然后您可以在其中迭代、解析和聚合结果

def reducer3(self, _, values):
    _max = float('-inf')
    k_out = None
    for x in values:
        k, v = x.split('|')
        if int(v) > _max:
            _max = v
            k_out = k
    yield  k_out, _max

如果你想捕获相等的max值，我认为你需要多次迭代列表，然后在找到max元素的循环中产生

赞(0）回复(0）举报 2022-11-21

我来回答

如何在Hadoop中减少步骤差异？

1条答案

相关问题

热门标签

最新问答