我似乎陷入了 Solr 分面支持的标签云的逻辑背后。首先,我使用 OpenNLP 解析我的文档并从中获取相关单词,因此每个文档都被分成 n 个单词。
我的 Solr 响应基本上是这样的:
<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
</docID>
我相信一定有办法把这些话整合到这里。我首先想到的是这样的事情:
<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
<words>word</words>
<words1>word1</words1>
<words2>word2</words2>
<words3>word3</words3>
<wordsN>wordN</wordsN>
</docID>
但是分面是不可能的,因为我不知道每个 docID 会得到多少个单词字段,那么分面就必须跨字段完成(我什至不确定它是否可能)。我正在尝试寻找可能的答案,但我似乎陷入了困境......最后,我需要对 n 个单词进行分面,以获取索引中的每个文档。非常感谢您的想法。
我建议使用一个多值的单词字段并存储每个文档的单词列表。
拥有无限数量的 word\d+ 字段将使事情变得复杂。
如果您使用单个单词多值字段,您可以获得所有单词及其频率,这足以创建标签云。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)