apachespark:map-side聚合vs-in-map组合器

uujelgoq 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(252)

我目前正在从hadoopmr范式迁移到apachespark，对于通常的“map-and-reduce”基本工作流之外的高级效率实现模式，我有一些疑问。
在这本著名的书（lin和dier 2010）中，引入了“in-mapper-combiner”模式，它可以在许多应用中显著提高效率。
i、 e，hadoop中的规范字计数示例，我们通常会发出（word，1）个元组来进一步组合，如果执行（word，n）个元组的局部聚合，然后发出，则可以大大改进。尽管组合器可以实现这种行为，但我的经验是，为每个Map器使用局部变量以及hadoop的“setup”和“cleanup”等函数可以节省更高的计算量（这里是一个不错的教程）。
在spark世界里，我找不到任何类似的东西，只有所谓的map-side聚合，它相当于hadoop的本地组合器。在前面的示例中，我想知道是否可以使用map函数将其转换为spark。

hadoop apache-spark scalability

来源：https://stackoverflow.com/questions/32947063/apache-spark-map-side-aggregation-vs-in-map-combiner