如何强制pig增加Map数量

jc3wubiy  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(376)

我有一个高度并行的任务。在hadoop中,我可以编写一个使用所有服务器容量的任务。然而Pig只跑了一张Map。
任务非常简单,我加载一组int(总共120k),然后在一个udf中分别处理它们。像这样的

LOAD data as (id:int);
result = foreach data generate udf.myFunction(id);
STORE result ...;
az31mfrm

az31mfrm1#

pig将根据输入大小估计拆分的数量(->Map器的数量)。
可以减小“最大拆分大小”(max split size)以获得更多Map器。

SET mapred.max.split.size #bytes

相关问题