是否可以在hadoop中创建/使用非并行文件

xhv8bpkk  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(285)

我们总是谈论如果我们使用hadoop并行化我们的数据和程序会有多快。我想知道是否可以在一个特定的数据节点中保存一个小文件(不是并行化的)?

n53p2ov0

n53p2ov01#

可以在一个特定的数据节点中保存一个小文件
hdfs将尝试将任何文件拆分为hdfs块。datanodes不存储整个文件,也不应该尝试存储在特定的文件上。让hadoop管理数据位置。
默认情况下,您的文件将在hadoop中复制3次以实现容错。
如果您有小文件(小于hdfs块大小,64或128mb,取决于hadoop版本),那么您可能不应该使用hadoop。如果需要并行处理,请从多线程开始。如果你真的需要分布式进程,我现在推荐spark或flink,而不是hadoop(mapreduce)。
如果你想这样,看起来你想要的是对象存储,而不是块存储

相关问题