我有一个高度并行的任务。在hadoop中,我可以编写一个使用所有服务器容量的任务。然而Pig只跑了一张Map。任务非常简单,我加载一组int(总共120k),然后在一个udf中分别处理它们。像这样的
LOAD data as (id:int); result = foreach data generate udf.myFunction(id); STORE result ...;
az31mfrm1#
pig将根据输入大小估计拆分的数量(->Map器的数量)。可以减小“最大拆分大小”(max split size)以获得更多Map器。
SET mapred.max.split.size #bytes
1条答案
按热度按时间az31mfrm1#
pig将根据输入大小估计拆分的数量(->Map器的数量)。
可以减小“最大拆分大小”(max split size)以获得更多Map器。