hadoop的分布式替代方案

nszi6y05  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(559)

我有个奇怪的问题。
hadoop的一些分布式和可伸缩的替代方案是什么。我正在寻找一些分布式文件系统,如hdfs,可以作为一个廉价和有效的存储,并希望在它上面的数据处理引擎(批/实时)。我知道spark是个不错的选择。但是我想把这个系统作为一个分布式的、容错的、可扩展的文件存档,有什么合适的解决方案吗?欢迎提出建议。谢谢:)

vwhgwdsa

vwhgwdsa1#

如果您仍在寻找替代方案,这篇gigaom文章可能会有所帮助:https://gigaom.com/2012/07/11/because-hadoop-isnt-perfect-8-ways-to-replace-hdfs/ 默认情况下,spark刷新为hdfs。
由于hdfs是gfs(googlefs)的开源替代品,您可以使用到gfs的连接器(googlefs通过google云平台存储服务提供)。。。有一个问题:在节点/集群之间进行大规模数据传输的成本很高。hadoop不是为实时数据设计的,而是为动态数据设计的。我希望这能有所帮助。
mapr声称比常规hdfs快20%(但底层fs是hdfs)https://mapr.com/why-mapr/
netapp也有hdfs的替代品http://www.netapp.com/us/solutions/applications/big-data-analytics/index.aspx
以上所有链接都是我分享的gigaom文章。我希望这能有所帮助。

wxclj1h5

wxclj1h52#

这些是hadoop和apachespark的其他替代方案。聚类图reduce、hydra和conclusion,它们对于大数据项目来说都是比较好的。在这里阅读更多https://datafloq.com/read/big-data-hadoop-alternatives/1135

相关问题