map-reduce：使用哪种底层数据结构

vlurs2pr 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(348)

我想知道，如果hadoop map reduce中使用了这么大的数据集，那么hadoop使用的数据结构是什么。如果可能的话，请有人给我提供一个hadoop底层数据结构的详细视图。

hadoop reduce Map

来源：https://stackoverflow.com/questions/21986572/map-reduce-which-is-the-underlying-data-structure-used

2条答案

按热度按时间

6g8kf2rb1#

hdfs是hadoop默认的底层存储平台。它和其他任何文件系统一样，不关心文件的结构。它只确保文件以冗余方式保存，并可用于快速检索。
所以它完全取决于你的用户，用你喜欢的结构来存储文件。
map reduce程序只需将文件数据作为输入提供给它。不一定是整个文件，但它的一部分取决于输入格式等。然后，Map程序可以使用它想要的任何方式的数据。
另一方面，“hive”处理表（列/行）。您可以使用hive-ql以类似sql的方式查询它们。

赞(0）回复(0）举报 2021-06-03

p5fdfcr12#

感谢你们所有人
我得到了问题的答案。底层的hdfs使用块作为存储单元，下面的书和网络流概念中提到了详细的描述。