我正在建立一个hadoop集群,用于测试/poc。今天有什么东西不能用spark作为处理引擎吗?在我看来,spark已经取代了mr,所有其他围绕hadoop构建的工具/抽象也与spark兼容(hive、sqoop、flume、hbase、pig……)——还有其他限制吗?据我所知,即使对于批处理作业,spark也至少和mr一样快,如果您希望在将来扩展用例(流),那么您无论如何都需要适应spark。
我这么问是因为到今天为止,大多数介绍和教程都会教你hadoop和mapreduce。
我正在建立一个hadoop集群,用于测试/poc。今天有什么东西不能用spark作为处理引擎吗?在我看来,spark已经取代了mr,所有其他围绕hadoop构建的工具/抽象也与spark兼容(hive、sqoop、flume、hbase、pig……)——还有其他限制吗?据我所知,即使对于批处理作业,spark也至少和mr一样快,如果您希望在将来扩展用例(流),那么您无论如何都需要适应spark。
我这么问是因为到今天为止,大多数介绍和教程都会教你hadoop和mapreduce。
1条答案
按热度按时间jqjz2hbq1#
很简单,不,现在没有理由使用mapreduce。spark更快,更容易使用,有更多的持续开发,更多的连接器,更多的用户,更多的优化。。。
mapreduce用于教程中是因为许多教程已经过时,但也因为mapreduce演示了在所有分布式系统中处理数据的底层方法。在我看来,任何想使用“大数据”的人都应该(至少在概念上)理解mapreduce。