排序—mapreduce分区内的数据是否已排序，如果是，如何排序？

xiozqbni 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(353)

mapreduce分区内的数据是否已排序？如果是，如何排序？好吧，它是按键分组的。如果它在内部排序，那么对所有分区中的所有数据进行排序不是一种开销吗？

hadoop mapreduce shuffle sorting Partition

来源：https://stackoverflow.com/questions/26037627/is-data-inside-mapreduce-partitions-sorted-if-yes-how-does-it-happen

1条答案

按热度按时间

ncecgwcz1#

如果您讨论的是Map程序作为输入接收的输入拆分，那么没有；它们不会被排序，因为这确实会产生不必要的开销。
排序在map阶段结束之前开始（仅当使用了reducer时），因此reduce函数的输入被排序。指定哪个reducer将处理Map器的输出的条件由partitioner定义。hashpartitioner（默认情况下使用的partitioner的实现）散列Map器的输出键，并将它们发送到对应于特定散列值的缩减器（这里是进行分组时的情况）。
排序实际上是reduce阶段的第二个过程，在洗牌a.k.a.复制（即获取Map器的输出）之后，在实际运行reduce函数之前，它是基于键的。它可以被认为是一个类似于merge-sort的进程，它合并Map器的排序输出。
你可以在汤姆·怀特的书《hadoop：权威指南》中找到更多的细节。以下是我所描述的示意图：

赞(0）回复(0）举报 2021-06-03

我来回答

排序—mapreduce分区内的数据是否已排序，如果是，如何排序？

1条答案

相关问题

热门标签

最新问答