现在使用mapreduce代替spark有什么好处吗?

wb1gzix0  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(341)

我正在建立一个hadoop集群,用于测试/poc。今天有什么东西不能用spark作为处理引擎吗?在我看来,spark已经取代了mr,所有其他围绕hadoop构建的工具/抽象也与spark兼容(hive、sqoop、flume、hbase、pig……)——还有其他限制吗?据我所知,即使对于批处理作业,spark也至少和mr一样快,如果您希望在将来扩展用例(流),那么您无论如何都需要适应spark。
我这么问是因为到今天为止,大多数介绍和教程都会教你hadoop和mapreduce。

jqjz2hbq

jqjz2hbq1#

很简单,不,现在没有理由使用mapreduce。spark更快,更容易使用,有更多的持续开发,更多的连接器,更多的用户,更多的优化。。。
mapreduce用于教程中是因为许多教程已经过时,但也因为mapreduce演示了在所有分布式系统中处理数据的底层方法。在我看来,任何想使用“大数据”的人都应该(至少在概念上)理解mapreduce。

相关问题