我有一个工作,运行在大多数默认配置。这个任务相当大,在200x4cpu15gb集群上运行。这是集群需要运行的唯一作业,在任何给定的时间都会有此作业的一个示例。目前,我看到在Map阶段,cpu的使用率几乎是100%,但一旦到了缩减阶段,它的利用率只有50%左右。我应该调整哪些常见的配置值?特别是考虑到这是集群的唯一任务?额外问题。。。在当前的配置下,我将得到800个输出文件(4 x 200个减速机)。有没有一种优雅/高效的方法可以在不影响并行性的情况下输出更少的文件。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!