从orc读取时增加Map器的数量

1yjd4xko  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(263)

问题来了。
我试图从配置单元中的压缩orc表中读取数据,但yarn无法确定Map器的正确数量,因为它使用的是压缩数据大小的值,而不是原始值。这是一个问题,因为我们只有18个Map器用于大约100gb的数据集。
玩hive.exec.reducers.bytes.per.reducer有助于增加reducer的数量。有没有办法获得更多的Map绘制者?
提前谢谢!

8dtrkrch

8dtrkrch1#

如果您使用以下配置设置

set mapreduce.input.fileinputformat.split.maxsize=100000;
set mapreduce.input.fileinputformat.split.minsize=100000;

如果你减少最大值,你应该得到更多的Map器。我觉得这应该管用!

相关问题