如何将级联作业的输出合并到特定大小

yruzcnhs  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(315)

我有一个级联作业,输出30个25mb的文件。有没有我可以减少到256MB的文件每个。我试过-dmapreduce.job.reduces=1。似乎没有什么问题。任何指导都会有帮助

9w11ddsr

9w11ddsr1#

总内存=30*25=750,
所需输出文件=750/256=3,
您可以在作业中再添加一个map reduce任务。在最终输出管道put group by、unique或任何操作上,您可以为这些操作设置reducer数,并将reducer数设置为3或4,这样您就可以将输出文件数设置为reducer数。

相关问题