我是hadoop新手,正在学习map-reduce范式。在我下面的教程中,据说map reduce方法倾向于基于文件的键值应用两个操作(map和reduce)。我知道hadoop也处理非结构化数据,所以我想知道在非结构化数据的情况下它将如何处理map reduce。
7ajki6be1#
以课文为例
Hello World
有两行文本,但自然有一个键和一个值,即文件偏移量和行本身。如果你把文件倒出来,你会看到这样的情况
0x0 Hello 0x6 World
这就是hdfs如何将纯文本文件分割成块的方法,因此可以使用mapreduce(和其他运行时引擎)来读取这些数据。如果要存储视频、图像、音频、pdf文档等,则必须实现自己的inputformat读取器,以确定文件字节的结构和并行化方式(如果有的话)
1条答案
按热度按时间7ajki6be1#
以课文为例
有两行文本,但自然有一个键和一个值,即文件偏移量和行本身。如果你把文件倒出来,你会看到这样的情况
这就是hdfs如何将纯文本文件分割成块的方法,因此可以使用mapreduce(和其他运行时引擎)来读取这些数据。
如果要存储视频、图像、音频、pdf文档等,则必须实现自己的inputformat读取器,以确定文件字节的结构和并行化方式(如果有的话)