我发现类似的问题hadoop hdfs并没有均匀地分布数据块但我的问题是当复制因子=1时我仍然想理解为什么hdfs不能在集群节点上均匀地分布文件块?当我在这些文件上加载/运行dataframe操作时,这将导致数据从一开始就倾斜。我错过什么了吗?
0qx6xfy61#
即使复制因子是1,文件仍然被分割并以hdfs块大小的倍数存储。块的位置是尽最大努力,阿法伊克,而不是纯粹的平衡;3的复制放置随机选取一个节点,然后在同一机架上选取另一个节点,然后在机架外随机选取另一个节点您需要弄清楚您的文件有多大,以及您在哪里查看数据是否被分割注意:并非所有文件格式都是可拆分的
1条答案
按热度按时间0qx6xfy61#
即使复制因子是1,文件仍然被分割并以hdfs块大小的倍数存储。块的位置是尽最大努力,阿法伊克,而不是纯粹的平衡;3的复制放置随机选取一个节点,然后在同一机架上选取另一个节点,然后在机架外随机选取另一个节点
您需要弄清楚您的文件有多大,以及您在哪里查看数据是否被分割
注意:并非所有文件格式都是可拆分的