如何强制pig增加Map数量

jc3wubiy 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(376)

我有一个高度并行的任务。在hadoop中，我可以编写一个使用所有服务器容量的任务。然而Pig只跑了一张Map。
任务非常简单，我加载一组int（总共120k），然后在一个udf中分别处理它们。像这样的

LOAD data as (id:int);
result = foreach data generate udf.myFunction(id);
STORE result ...;

Java hadoop apache-pig

来源：https://stackoverflow.com/questions/29193836/how-to-force-pig-to-increase-map-quantity

1条答案

按热度按时间

pig将根据输入大小估计拆分的数量（->Map器的数量）。
可以减小“最大拆分大小”（max split size）以获得更多Map器。

SET mapred.max.split.size #bytes

赞(0）回复(0）举报 2021-05-30

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 6个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 6个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 6个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 6个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 6个月前