hadoop流的hadoop输入格式wikihadoop输入格式

ds97pgxw  于 2021-06-04  发布在  Hadoop
关注(0)|答案(3)|浏览(345)

我想知道hadoop和hadoop流的输入格式之间是否有什么区别。hadoop流的输入格式是否也适用于hadoop,反之亦然?我问这个问题是因为我发现了一种用于维基百科转储文件的特殊输入格式,wikihadoop inputformat。有人说它是hadoop流的输入格式?为什么只针对hadoop流媒体?而不是hadoop?
最佳

vfwfrxfs

vfwfrxfs1#

不,mr作业的类型(流或java)不是使用(或开发)输入格式的标准。inputformat只是一种inputformat,适用于流媒体和javamr作业。它是您将要处理的数据类型,根据它您可以使用(或开发)输入格式。hadoop本机提供了不同类型的输入格式,这些格式通常足以满足您的需要。但有时您的数据处于这样一种状态,这些输入格式都无法处理它。
尽管如此,仍然可以使用mr处理这些数据,这就是您最终编写自己的自定义输入格式的地方,正如您在上面指定的那样。
我不知道他们为什么这么强调hadoop流媒体。它只是一个java类,它完成了inputformat应该做的所有事情,并实现了使它有资格这样做的所有事情@登山运动对此提出了一个非常正确的观点。因此,它可以用于任何mr作业、流媒体或java。

gkn4icbw

gkn4icbw2#

据我所知,hadoop流式处理作业和用java编写的常规mapreduce作业在处理输入方面没有区别。
的继承树 StreamWikiDumpInputFormat 是。。。


* InputFormat

  * FileInputFormat
    * KeyValueTextInputFormat
      * StreamWikiDumpInputFormat

既然它最终实现了 InputFormat ,它可以用于常规的mapreduce作业

goucqfw6

goucqfw63#

通常的输入格式和为hadoop流媒体开发的输入格式没有区别。
当作者说该格式是为hadoop流媒体开发的时,她唯一的意思是她的输入格式生成的对象带有一个有意义的tostring方法。就这样。
例如,当我开发一个用于hadoop流的输入格式时,我试图避免二进制可写,而是使用文本。

相关问题