据我所知,spark将来自每个节点的磁盘(hdfs)的数据预加载到每个节点的rdd中进行计算。但我猜,mapreduce还必须将数据从hdfs加载到内存,然后在内存中进行计算。所以。。为什么spark更时尚?就因为每次mapreduce要计算时,mapreduce都会将数据加载到内存中,而spark会预加载数据吗?非常感谢你。
muk1a3rh1#
有一个弹性分布式数据集(rdd)的概念,spark使用它,它允许透明地将数据存储在内存中,并在需要时将其持久化到光盘上。另一方面,在map reduce中,map和reduce任务之后的数据将被洗牌和排序(同步障碍)并写入磁盘。在spark中,没有同步障碍会减慢map reduce的速度。内存的使用使得执行引擎非常快。
ygya80vv2#
hadoopMap还原hadoop map reduce是批处理2.hdfs中的高延迟。下面是关于hadoopmapreduce和spark的完整解释http://commandstech.com/basic-difference-between-spark-and-map-reduce-with-examples/Spark:spark的到来是流式处理由于RDD,延迟较低。
2条答案
按热度按时间muk1a3rh1#
有一个弹性分布式数据集(rdd)的概念,spark使用它,它允许透明地将数据存储在内存中,并在需要时将其持久化到光盘上。
另一方面,在map reduce中,map和reduce任务之后的数据将被洗牌和排序(同步障碍)并写入磁盘。
在spark中,没有同步障碍会减慢map reduce的速度。内存的使用使得执行引擎非常快。
ygya80vv2#
hadoopMap还原
hadoop map reduce是批处理
2.hdfs中的高延迟。下面是关于hadoopmapreduce和spark的完整解释
http://commandstech.com/basic-difference-between-spark-and-map-reduce-with-examples/
Spark:
spark的到来是流式处理
由于RDD,延迟较低。