mapreduce—hadoop如何处理没有键值结构的文件

dxxyhpgq  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(230)

我是hadoop新手,正在学习map-reduce范式。在我下面的教程中,据说map reduce方法倾向于基于文件的键值应用两个操作(map和reduce)。我知道hadoop也处理非结构化数据,所以我想知道在非结构化数据的情况下它将如何处理map reduce。

7ajki6be

7ajki6be1#

以课文为例

Hello
World

有两行文本,但自然有一个键和一个值,即文件偏移量和行本身。如果你把文件倒出来,你会看到这样的情况

0x0 Hello
0x6 World

这就是hdfs如何将纯文本文件分割成块的方法,因此可以使用mapreduce(和其他运行时引擎)来读取这些数据。
如果要存储视频、图像、音频、pdf文档等,则必须实现自己的inputformat读取器,以确定文件字节的结构和并行化方式(如果有的话)

相关问题