是否可以在hadoop中创建/使用非并行文件

xhv8bpkk 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(285)

我们总是谈论如果我们使用hadoop并行化我们的数据和程序会有多快。我想知道是否可以在一个特定的数据节点中保存一个小文件（不是并行化的）？

hadoop

来源：https://stackoverflow.com/questions/47509508/is-it-possible-to-create-work-with-a-non-paralleized-file-in-hadoop

1条答案

按热度按时间

n53p2ov01#

可以在一个特定的数据节点中保存一个小文件
hdfs将尝试将任何文件拆分为hdfs块。datanodes不存储整个文件，也不应该尝试存储在特定的文件上。让hadoop管理数据位置。
默认情况下，您的文件将在hadoop中复制3次以实现容错。
如果您有小文件（小于hdfs块大小，64或128mb，取决于hadoop版本），那么您可能不应该使用hadoop。如果需要并行处理，请从多线程开始。如果你真的需要分布式进程，我现在推荐spark或flink，而不是hadoop（mapreduce）。
如果你想这样，看起来你想要的是对象存储，而不是块存储

赞(0）回复(0）举报 2021-06-01

我来回答

是否可以在hadoop中创建/使用非并行文件

1条答案

相关问题

热门标签

最新问答