mapreduce/hadoop在机器学习培训中的作用是什么?

zpjtge22  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(289)

mapreduce/hadoop非常适合从各种资源的成堆数据中收集见解,并以我们希望的方式组织它们。
但说到训练,我的印象是,我们必须将所有的训练数据一次全部转储到算法中(无论是svn、logistic回归还是随机森林),这样算法才能得到一个拥有所有数据的模型。mapreduce/hadoop能否在培训部分提供帮助?如果是,一般如何?

carvr3hs

carvr3hs1#

对。有很多mapreduce实现,比如hadoop流媒体,甚至还有一些简单的工具,比如pig,可以用来学习。此外,还有基于map/reduce的分布式学习工具集,比如vowpal-wabbit(https://github.com/johnlangford/vowpal_wabbit/wiki/tutorial). 这种方法的主要思想是对一小部分数据(由hdfs分割)进行训练,然后对模型求平均值并与每个节点进行交换。因此,模型直接从基于部分数据构建的子模型中获取更新。

相关问题