hadoop并行运行reducer

50few1ms  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(442)

我有一个4g文件,大约有16条生产线,Map正在运行,15张Map中有6张是并行分布的。生成35000个密钥。我使用multipletextoutput,这样每个减速机生成一个独立于其他减速机的输出。
我已经用25-50个减速机配置了conf,但是它总是一次运行一个减速机。
机器-4核32 g ram单机运行hortonworks堆栈
如何让多个reduce任务并行运行?

fcipmucu

fcipmucu1#

通过指定2GB的精简内存,Map后的站点xml中的默认值是6gb,框架将并行显示3个精简内存,而不是1个。

nqwrtyyt

nqwrtyyt2#

看看hadoopmapreduce教程
减少多少?
正确的reduces数似乎是0.95或1.75乘以(*)。
使用0.95时,所有reduces都可以立即启动,并在Map完成时开始传输Map输出。使用1.75,速度更快的节点将完成第一轮reduce并启动第二轮reduce,从而更好地完成负载平衡。
看看相关的se问题:
hadoop如何决定有多少节点将执行map和reduce任务
hadoop上理想的减缩器数量是多少?

相关问题