我正在尝试实现一个 Elasticsearch 映射来优化大量文本中的短语搜索。根据中的建议本文 http://www.elasticsearch.org/blog/searching-with-shingles/,我使用 shingle 过滤器为每个短语构建多个一元组。
两个问题:
在提到的文章中,停用词被过滤,并且 shingles 通过插入“_”标记来处理丢失的空格。这些标记应该从引擎索引的一元图中消除。这种消除的目的是能够响应包含各种“无用”单词的短语查询。标准解决方案(如本文中提到的)不再可能,因为 Lucene 正在弃用此类行为所需的某些功能 (enable_position_increments)。我该如何解决此类问题?
考虑到标点符号的消除,我经常看到由这个覆盖这两个短语的叠瓦过程产生的一元组。从搜索的角度来看,任何包含两个单独短语的单词的结果都是不正确的。如何避免(或减轻)此类问题?
None
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)