mapper-combiner-patitioner-shuffle/sort的顺序

hgtggwj0  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(281)

我有下面的文字在明确的指南:hadoop在第206页。
在将数据写入磁盘之前,线程首先将数据划分为与最终将发送到的缩减器相对应的分区。在每个分区中,后台线程执行内存中的按键排序,如果有组合器函数,则在排序的输出上运行。运行combiner函数可以获得更紧凑的map输出,因此要写入本地磁盘和传输到reducer的数据更少。
有了这样的理解,我可以按mapper、partitioner、shuffle/sort、combiner的顺序排序吗?

ar5n3qh5

ar5n3qh51#

我写了一篇关于这个的好文章:http://0x0fff.com/hadoop-mapreduce-comprehensive-description/ 一般来说,你是对的,但特别是有更多的角落情况-组合器可能会省略一些记录,其中一些可能会运行很多次,甚至可以在减速器之前在减速器侧启动合路器。总的来说你是对的,但事情要复杂得多

相关问题