刚刚开始使用 Lucene.Net。我使用标准分析器索引了 100,000 行,运行了一些测试查询,并注意到如果原始术语是单数,则复数查询不会返回结果。我知道雪球分析器增加了词干支持,这听起来不错。不过,我想知道,超过标准的雪球锣是否有任何缺点?我这样做会失去什么吗?还有其他分析仪需要考虑吗?
是的,通过使用 Snowball 等词干分析器,您会丢失有关文本原始形式的信息。有时这会有用,有时则没有。
例如,Snowball 会将“organization”词干转换为“organ”,因此搜索“organization”将返回包含“organ”的结果,而不会产生任何得分惩罚。
这是否适合您取决于您的内容以及您支持的查询类型(例如,搜索是否非常基本,或者用户是否非常复杂并使用您的搜索来准确过滤结果)。您可能还想研究不太激进的词干分析器,例如KStem http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters/Kstem.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)