spark vs mapreduce，为什么spark比mr快，原理是什么？

jmp7cifd 于 2021-05-30 发布在 Hadoop

关注(0)|答案(2)|浏览(470)

据我所知，spark将来自每个节点的磁盘（hdfs）的数据预加载到每个节点的rdd中进行计算。但我猜，mapreduce还必须将数据从hdfs加载到内存，然后在内存中进行计算。所以。。为什么spark更时尚？就因为每次mapreduce要计算时，mapreduce都会将数据加载到内存中，而spark会预加载数据吗？非常感谢你。

hadoop mapreduce apache-spark

来源：https://stackoverflow.com/questions/25374980/spark-vs-mapreduce-why-is-spark-faster-than-mr-the-principle

2条答案

按热度按时间

muk1a3rh1#

有一个弹性分布式数据集（rdd）的概念，spark使用它，它允许透明地将数据存储在内存中，并在需要时将其持久化到光盘上。
另一方面，在map reduce中，map和reduce任务之后的数据将被洗牌和排序（同步障碍）并写入磁盘。
在spark中，没有同步障碍会减慢map reduce的速度。内存的使用使得执行引擎非常快。

赞(0）回复(0）举报 2021-05-30

ygya80vv2#

hadoopMap还原
hadoop map reduce是批处理
2.hdfs中的高延迟。下面是关于hadoopmapreduce和spark的完整解释
http://commandstech.com/basic-difference-between-spark-and-map-reduce-with-examples/
Spark：
spark的到来是流式处理
由于RDD，延迟较低。

赞(0）回复(0）举报 2021-05-30

我来回答

spark vs mapreduce，为什么spark比mr快，原理是什么？

2条答案

相关问题

热门标签

最新问答