将单集群hadoop安装更改为保留持久数据

flmtquvp  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(266)

我要在生产环境中做一个hadoop poc。poc包括:1。接受很多(现实生活中的)事件2。将它们累积起来,形成一组大小足够3的事件。将事件集持久化到单个文件hdfs中
如果poc成功,我想安装一个集群环境,但是我需要在单集群安装(poc)中保持数据的持久性。
那么,问题是:将hdfs单个集群中已经持久化的数据迁移到真正的集群hdfs环境有多困难?
提前感谢(并为我糟糕的英语)问候

bf1o4zei

bf1o4zei1#

你不需要迁移任何东西。
如果您在伪分布式模式下运行hadoop,那么只需添加指向现有namenode的datanode即可!
我想指出
将事件集持久化到单个文件hdfs中
我不确定是否要创建“单个文件”,但我建议您定期检查。如果流失败了怎么办?你如何捕捉掉下来的事件?spark、flume、kafka connect、nifi等可以让你做到这一点。
如果您所做的只是流式处理事件,并且希望将它们存储在一个可变的时间段内,那么kafka更适合该用例。你不一定需要hadoop。将事件推送到kafka,在有意义的地方使用它们,例如,搜索引擎或数据库(hadoop不是数据库)

相关问题