hadoop的分布式替代方案

nszi6y05 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(559)

我有个奇怪的问题。
hadoop的一些分布式和可伸缩的替代方案是什么。我正在寻找一些分布式文件系统，如hdfs，可以作为一个廉价和有效的存储，并希望在它上面的数据处理引擎（批/实时）。我知道spark是个不错的选择。但是我想把这个系统作为一个分布式的、容错的、可扩展的文件存档，有什么合适的解决方案吗？欢迎提出建议。谢谢：）

hadoop hdfs Distributed storage distributed-system

来源：https://stackoverflow.com/questions/38988567/distributed-alternatives-to-hadoop

2条答案

按热度按时间

vwhgwdsa1#

如果您仍在寻找替代方案，这篇gigaom文章可能会有所帮助：https://gigaom.com/2012/07/11/because-hadoop-isnt-perfect-8-ways-to-replace-hdfs/ 默认情况下，spark刷新为hdfs。
由于hdfs是gfs（googlefs）的开源替代品，您可以使用到gfs的连接器（googlefs通过google云平台存储服务提供）。。。有一个问题：在节点/集群之间进行大规模数据传输的成本很高。hadoop不是为实时数据设计的，而是为动态数据设计的。我希望这能有所帮助。
mapr声称比常规hdfs快20%（但底层fs是hdfs）https://mapr.com/why-mapr/
netapp也有hdfs的替代品http://www.netapp.com/us/solutions/applications/big-data-analytics/index.aspx
以上所有链接都是我分享的gigaom文章。我希望这能有所帮助。

赞(0）回复(0）举报 2021-05-30

wxclj1h52#

这些是hadoop和apachespark的其他替代方案。聚类图reduce、hydra和conclusion，它们对于大数据项目来说都是比较好的。在这里阅读更多https://datafloq.com/read/big-data-hadoop-alternatives/1135

赞(0）回复(0）举报 2021-05-29