cloudera将hadoop数据存储到特定节点

hfsqlsce  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(366)

我有10个amazonec2节点集群用于每天的数据处理,我想使用所有10个节点用于每天的批处理(仅2小时的处理),一旦生成了报告数据点,我想关闭5个节点,并在一天的剩余时间内只激活5个节点以进行成本优化。
我的复制因子是3。
在某些情况下,所有3个数据块(实际和复制块)都存储在我要关闭的5个节点中。因此我无法正确读取数据。
我可以在cloudera管理器中进行一些设置,将特定的数据库或特定的表持久化到给定的节点中,这样我在读取只有5个节点处于活动状态的数据时就不会有任何问题。
或任何其他建议将不胜感激。

gev0vcfq

gev0vcfq1#

您可以使用机架感知(虚拟地)将集群分为2个“机架”,并将定期关闭的5个节点放在一个单独的“机架”上。复制策略将要求nn将副本放置在单独的机架上(如果已配置)。再次,我指的是虚拟意义上的机架。那会让你得到你想要的。

相关问题