hdfs put/movefromlocal不跨数据节点分发数据?

bqujaahr  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(382)

我发现类似的问题hadoop hdfs并没有均匀地分布数据块
但我的问题是当复制因子=1时
我仍然想理解为什么hdfs不能在集群节点上均匀地分布文件块?当我在这些文件上加载/运行dataframe操作时,这将导致数据从一开始就倾斜。我错过什么了吗?

0qx6xfy6

0qx6xfy61#

即使复制因子是1,文件仍然被分割并以hdfs块大小的倍数存储。块的位置是尽最大努力,阿法伊克,而不是纯粹的平衡;3的复制放置随机选取一个节点,然后在同一机架上选取另一个节点,然后在机架外随机选取另一个节点
您需要弄清楚您的文件有多大,以及您在哪里查看数据是否被分割
注意:并非所有文件格式都是可拆分的

相关问题