mapreduce—hadoop如何处理没有键值结构的文件

dxxyhpgq 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(230)

我是hadoop新手，正在学习map-reduce范式。在我下面的教程中，据说map reduce方法倾向于基于文件的键值应用两个操作（map和reduce）。我知道hadoop也处理非结构化数据，所以我想知道在非结构化数据的情况下它将如何处理map reduce。

1条答案

以课文为例

Hello
World

有两行文本，但自然有一个键和一个值，即文件偏移量和行本身。如果你把文件倒出来，你会看到这样的情况

0x0 Hello
0x6 World

这就是hdfs如何将纯文本文件分割成块的方法，因此可以使用mapreduce（和其他运行时引擎）来读取这些数据。
如果要存储视频、图像、音频、pdf文档等，则必须实现自己的inputformat读取器，以确定文件字节的结构和并行化方式（如果有的话）