hadoop输入拆分之间的重叠?

ux6nzvsh  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(316)

我正在做一个hadoop的工作,对一个或多个可能非常大的pgm文件进行卷积。每个Map器都会处理其中一个文件中的一些行,而reducer会将这些文件重新放在一起。但是,每个Map器都需要在上面和下面的几行上进行卷积。通常这不是一个问题,因为我已经制作了一个recordreader来获取这种冗余,但是它为inputsplit的第一行和最后一行带来了问题,因为我无法访问最后一个split中的行。
有没有办法使输入拆分重叠,使第一行的最后几行是第二行的前几行?

nhhxz33t

nhhxz33t1#

您可以编写自己的自定义拆分器。请看史蒂文·刘易斯的这篇文章

相关问题