hadoop开发环境的bigdata数据集?

drkbr07n  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(295)

我正在学习hadoop。我想了解数据集/数据库是如何为dev、test和pre-prod等环境设置的。当然,在prod环境中,我们将处理数兆字节的数据,但是将数兆字节的数据复制到其他环境中,我认为这是不可能的。
对于其他环境,如何复制数据集?在这些非prod环境中,是否只加载和使用某些数据部分?如果是这样,怎么做?

zc0qhyus

zc0qhyus1#

它是如何复制的,基本上与namenodes和datanodrs相关的hdfs的概念应该给你一些研究。当您创建一个新文件时,它会转到名称节点,该节点更新了元数据,并在您写入时为您提供一个空白块id,它会根据机架位置查找最近的数据节点。一旦复制完成,它就复制到第一个数据节点。datanode首先将它复制到下一个第二个,然后是第三个,最后是第四个。它基本上只在第一个节点上重复,hdfs框架将处理下一个前复制

相关问题