为什么我们说map reduce比传统方法更好地解决“纸质参考”问题？

dldeef67 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(284)

有人说，当我们希望在参考文献中进行统计时，map reduce可以比传统方法做得更好，因为传统方法涉及大量的内存/磁盘开关。我不太明白为什么传统的方法不好。
假设我只在一台机器上运行map reduce（没有集群），它是否仍然比传统方法更好地解决了一些问题？
或者换言之，从算法的Angular 来看，“map-reduce”的算法范式本身在解决问题上是否有一些优势？
谢谢。

hadoop reduce Dictionary Algorithm statistics

来源：https://stackoverflow.com/questions/39120590/why-we-say-map-reduce-solves-paper-reference-problems-better-than-traditional

1条答案

按热度按时间

qybjjes11#

m/r最多允许重新应用与高级stats包相同的算法。但更典型的是，在所使用的算法中做出了一些牺牲——允许以分布式方式运行。map/reduce在交叉折叠采样（或任何其他采样方法）期间提供更均匀的随机分布方面没有“魔力”。
对于一个适合内存的小数据集，m/r通常比传统的包更糟糕——这是由于算法在可伸缩性方面的折衷。当使用禁止在一台机器上完全采样的大型数据集时，您开始看到m/r的优势。使用r/matlab/sas通常需要下采样，而且可能需要按数量级或数量级进行下采样。

赞(0）回复(0）举报 2021-05-29

我来回答

为什么我们说map reduce比传统方法更好地解决“纸质参考”问题？

1条答案

相关问题

热门标签

最新问答