hadoop2单作业配置/优化

rjjhvcjd  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(188)

我有一个工作,运行在大多数默认配置。
这个任务相当大,在200x4cpu15gb集群上运行。这是集群需要运行的唯一作业,在任何给定的时间都会有此作业的一个示例。
目前,我看到在Map阶段,cpu的使用率几乎是100%,但一旦到了缩减阶段,它的利用率只有50%左右。
我应该调整哪些常见的配置值?特别是考虑到这是集群的唯一任务?
额外问题。。。在当前的配置下,我将得到800个输出文件(4 x 200个减速机)。有没有一种优雅/高效的方法可以在不影响并行性的情况下输出更少的文件。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题