mahout 0.9 cvb文档主题Map错误

ifsvaxew  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(375)

我正在尝试使用最新版本的mahout对一组文档进行主题分析。
主题到术语Map的输出是适当的,每个主题都有具有相应概率的术语列表。
但是当我尝试将文档Map到主题时,它只显示一组以字母开头的主题。就像在这个例子中,所有的主题都是以字母a开头的
以下是用于生成文档主题Map的示例代码:

VectorDumper.main(new String[] 
            { 
            "-i" , inputDocTopicsDir 
            , "-o", oututDocTopicsDir 
            , "-d", inputDictionaryDir 
            , "-dt", "sequencefile" 
            , "-sort", "true" 
            , "-vs", "10" });

样本输出:{2d:0.019996671414880783,3d:0.019994853350969108,4d:0.02000171234917903,5d:0.019994290328033588,a。config:0.01999309367417373,又名:0.02000227944902019,又名。system:0.01999771644223781,aaa:0.020003361639812457,aam:0.019990182999365072,aapm:0.020012465032122083,aapv:0.01999879522431889,aar:0.019995543474585993,aas:0.019995157547471696,aav:0.02000267326012652,ab:0.020025978185034182,aba:0.01999553819903237,abandon:0.020013355238553677,abandoned:0.01999559962237951,ab型andonment:0.019994194616256,abandons:0.02001433184497984,abatement:0.01997728075793184,ab型berationa:0.020001189392395737}

7kjnsjlb

7kjnsjlb1#

这些是文字载体,不是主题。主题建模与聚类是一个不同的领域。
k-means聚类(您可能正在使用)将为您提供平均字数,而不是您直觉上接受的“主题”。没有一个k-means会把“美式足球”作为一个主题。它不能。使用监督技术。
你可能以某种方式截断了单词向量,它只给出按字母顺序排列的第一个单词。
由于每个值都接近0.02,因此结果可能退化为近乎随机的混乱。

相关问题