k-means聚类_大数据知识库

我对机器学习和聚类分析不是很有经验，但我有以下问题：
我有~100kk-1000kk个数据块，我不能一次全部加载到内存中，我需要将其划分为若干类（比如1-10k类，甚至100k类），以便进一步分析。为此，我选择了在openimaj库（floatkmeans类）中实现的k-means算法。我知道k-means算法可以分为两个阶段：
学习阶段-在这里，我传递所有的数据，我必须创建/填充类
assignemnt阶段-在这里我可以询问集群给定的数据属于哪个类
我计划使用hadoop reduce阶段构建集群模型，在这个阶段我将一个接一个地接收数据片段（这就是为什么我不能一次将数据全部传递给算法）
我的问题是：
openimaj实现对于这种“bigdata”用例来说是最佳的吗？难道不是要花很长时间来计算吗？
有没有可能在hadoop reduce faze期间将数据“流”到算法中，以便学习集群？
是否可以将学习到的集群（模型）保存为字节，以便将模型传递给下一个hadoop作业？
在hadoopMap期间运行算法分配阶段可以吗？
谢谢你的帮助

k-means聚类是一种迭代算法，可以对数据进行多次传递。在每个过程中，将点指定给簇质心，然后在指定所有点后，将簇质心重新计算为指定点的平均值。在传统意义上，您不能将数据“流”到算法中，因为您需要在随后的迭代中返回到它。
关于openimaj FloatKMeans 实现：是的，这可以处理“大数据”，因为它不介意从哪里获取数据-从 DataSource 它作为输入的示例可以在必要时从磁盘读取数据。唯一的要求是，在算法运行期间，可以在内存中保留所有质心。这个实现是多线程的，所以所有的cpu核都可以在计算过程中使用。这里有一个示例代码：https://github.com/openimaj/openimaj/blob/master/demos/examples/src/main/java/org/openimaj/examples/ml/clustering/kmeans/bigdataclusterexample.java. openimaj IOUtils.writeBinary(...) 方法可用于将生成的簇质心保存在 FloatCentroidsResult 对象。
k-means的最大代价之一是计算每个数据点和每个簇质心之间的距离，以便找到最近的。这样做的代价与数据的维数和质心的数目有关。如果你有大量的质心和高维数据，那么使用一个近似的k-means实现可以有很大的速度优势，代价是精度上的轻微损失（参见 FloatKMeans.createKDTreeEnsemble() 例如，它使用kd树的集合来加速邻居计算）。
关于与hadoop的集成，可以将k-means实现为一系列map-reduce任务（每对任务对应于算法的一次迭代）。有关讨论，请参阅本文：http://eprints.soton.ac.uk/344243/1/paper.pdf . 如果您想沿着这条路线走下去，openimaj在这里有一个非常粗略的实现，您可以构建它：https://github.com/openimaj/openimaj/tree/master/hadoop/tools/hadoopfastkmeans. 如本文所述，apache mahout还包含一个实现：https://mahout.apache.org. 这两种实现的一个问题是，它们需要在Map器和reducer之间传输大量数据（每个Map器发出当前数据点及其分配的集群id）。这种程度可能意味着使用算法的非hadoop实现可能会更快，但这取决于可用的处理资源和数据集的性质。map和reduce之间的数据传输问题也可以通过一个聪明的hadoop来解决 Combiner 并从数据子集计算加权质心，然后将这些质心传递给（修改的）缩减器以计算实际质心。

k-means聚类

1条答案

相关问题

热门标签

最新问答