Lucene中的Jaccard相似性

oxf4rvwz  于 8个月前  发布在  Lucene
关注(0)|答案(2)|浏览(88)

我需要在Lucene中使用Jaccard similarity over n-gram计算查询和文档的相似度。由于Jaccard相似性是IR中一个非常常见的度量,我希望找到一个Lucene实现,但我不能。
有没有人知道这样的实施?

bksxznpy

bksxznpy1#

我所知道的唯一一个可以与Lucene轻松集成的实现是来自LingPipe的实现(请注意,它只对非商业/研究用途免费)。Here是一篇展示如何在LingPipe中使用它的博客文章。有关如何连接两个库的详细说明,请访问LingPipe网站和this book
但是我还没有评估过,如果你自己集成一些其他的实现不会更容易(也是从许可证的Angular 来看)--这只是一个对我有效的解决方案。

6rqinv9w

6rqinv9w2#

试试这个库http://sourceforge.net/projects/simmetrics/,你会发现更多的相似函数。但是我会推荐你使用来自http://secondstring.sourceforge.net/的SoftTFIDF,根据“名称匹配任务的字符串距离比较”,它具有最好的精确度/召回率。William W. Cohen和其他人。

相关问题