k表示mapreduce作业中集群的初始集群中心

vsikbqxv 于 2021-07-13 发布在 Hadoop

关注(0)|答案(0)|浏览(131)

我对mapreduce和k-means还比较陌生。出于学习的目的，我正在用python编写一个mapreduce作业来实现k-means。作为一个学习的目的，我局限于这些工具，这就是为什么我不看Spark或类似的东西。
当计算分布在不同的节点上时，我想知道如何设置初始集群中心。当我编写k-means在我的单机上本地运行时，我已经将初始集群中心设置为数据中的随机集(我想这可能是k++）。但我不认为让每个Map器随机选取簇中心是正确的，因为这样我就有了比我用k指定的更多的簇中心。
我如何让我的Map绘制者都同意初始的集群中心，以及如何确保他们知道在reduce任务之后中心何时更新。
我打算用python编写它，并在aws emr上作为hadoop流作业执行它。
我读过这样的东西：
https://www.coursera.org/lecture/ml-clustering-and-retrieval/mapreduce-for-k-means-ehcykhttps用法：//stanford.edu/~rezab/classes/cme323/s16/projects\u reports/bodoia.pdf
任何建议都将不胜感激，谢谢。

hadoop mapreduce python k-means

来源：https://stackoverflow.com/questions/66475855/k-means-initial-cluster-centres-for-clusters-in-a-mapreduce-job