apachespark:map-side聚合vs-in-map组合器

uujelgoq  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(252)

我目前正在从hadoopmr范式迁移到apachespark,对于通常的“map-and-reduce”基本工作流之外的高级效率实现模式,我有一些疑问。
在这本著名的书(lin和dier 2010)中,引入了“in-mapper-combiner”模式,它可以在许多应用中显著提高效率。
i、 e,hadoop中的规范字计数示例,我们通常会发出(word,1)个元组来进一步组合,如果执行(word,n)个元组的局部聚合,然后发出,则可以大大改进。尽管组合器可以实现这种行为,但我的经验是,为每个Map器使用局部变量以及hadoop的“setup”和“cleanup”等函数可以节省更高的计算量(这里是一个不错的教程)。
在spark世界里,我找不到任何类似的东西,只有所谓的map-side聚合,它相当于hadoop的本地组合器。在前面的示例中,我想知道是否可以使用map函数将其转换为spark。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题