spark vs mapreduce,为什么spark比mr快,原理是什么?

jmp7cifd  于 2021-05-30  发布在  Hadoop
关注(0)|答案(2)|浏览(470)

据我所知,spark将来自每个节点的磁盘(hdfs)的数据预加载到每个节点的rdd中进行计算。但我猜,mapreduce还必须将数据从hdfs加载到内存,然后在内存中进行计算。所以。。为什么spark更时尚?就因为每次mapreduce要计算时,mapreduce都会将数据加载到内存中,而spark会预加载数据吗?非常感谢你。

muk1a3rh

muk1a3rh1#

有一个弹性分布式数据集(rdd)的概念,spark使用它,它允许透明地将数据存储在内存中,并在需要时将其持久化到光盘上。
另一方面,在map reduce中,map和reduce任务之后的数据将被洗牌和排序(同步障碍)并写入磁盘。
在spark中,没有同步障碍会减慢map reduce的速度。内存的使用使得执行引擎非常快。

ygya80vv

ygya80vv2#

hadoopMap还原
hadoop map reduce是批处理
2.hdfs中的高延迟。下面是关于hadoopmapreduce和spark的完整解释
http://commandstech.com/basic-difference-between-spark-and-map-reduce-with-examples/
Spark:
spark的到来是流式处理
由于RDD,延迟较低。

相关问题