关联挖矿似乎为检索提供了良好的结果相关术语在文本语料库中。有很多关于这个主题的著作,其中包括著名的LSA http://en.wikipedia.org/wiki/Latent_semantic_analysis方法。挖掘关联最直接的方法是构建共现矩阵docs X terms
并查找在同一文档中最常出现的术语。在我之前的项目中,我通过 TermDocs 迭代直接在 Lucene 中实现了它(我通过调用IndexReader.termDocs(术语) http://lucene.apache.org/java/3_3_0/api/all/org/apache/lucene/index/IndexReader.html#termDocs%28org.apache.lucene.index.Term%29)。但我在 Solr 中看不到类似的东西。
So, my needs are:
- 要检索最相关的术语特定领域内。
- 要检索项,最接近指定项特定领域内。
I will 对答案进行评分通过以下方式:
- 理想情况下,我希望找到直接满足特定需求的Solr组件,即直接获取关联术语的组件。
- 如果这是不可能的,我正在寻找获取指定字段的共现矩阵信息的方法。
- 如果这也不是一个选项,我想知道最直接的方法 1) 获取所有术语 2) 获取这些术语出现的文档的 ID(数字)。
您可以将 Lucene(或 Solr)索引导出到Mahout http://mahout.apache.org/,然后使用潜在狄利克雷分配。如果 LDA 与 LSA 不够接近,无法满足您的需求,您可以从 Mahout 中获取相关矩阵,然后使用 Mahout 进行奇异值分解。
我不知道 Solr 有任何 LSA 组件。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)