mapper-combiner-patitioner-shuffle/sort的顺序

hgtggwj0 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(281)

我有下面的文字在明确的指南：hadoop在第206页。
在将数据写入磁盘之前，线程首先将数据划分为与最终将发送到的缩减器相对应的分区。在每个分区中，后台线程执行内存中的按键排序，如果有组合器函数，则在排序的输出上运行。运行combiner函数可以获得更紧凑的map输出，因此要写入本地磁盘和传输到reducer的数据更少。
有了这样的理解，我可以按mapper、partitioner、shuffle/sort、combiner的顺序排序吗？

hadoop

来源：https://stackoverflow.com/questions/27790601/order-of-mapper-combiner-patitioner-shuffle-sort

1条答案

按热度按时间

ar5n3qh51#

我写了一篇关于这个的好文章：http://0x0fff.com/hadoop-mapreduce-comprehensive-description/ 一般来说，你是对的，但特别是有更多的角落情况-组合器可能会省略一些记录，其中一些可能会运行很多次，甚至可以在减速器之前在减速器侧启动合路器。总的来说你是对的，但事情要复杂得多

赞(0）回复(0）举报 2021-05-30

我来回答

mapper-combiner-patitioner-shuffle/sort的顺序

1条答案

相关问题

热门标签

最新问答