如何在 Lucene 中进行查询自动完成/建议？

2023-11-29

我正在寻找一种在 Lucene 中执行查询自动完成/建议的方法。我在 Google 上搜索了一下，也玩了一下，但我看到的所有示例似乎都是在 Solr 中设置过滤器。我们不使用 Solr，也不打算在不久的将来转向使用 Solr，而且 Solr 显然只是围绕着 Lucene，所以我想一定有办法做到这一点！

我研究过使用 EdgeNGramFilter，我意识到我必须在索引字段上运行过滤器并取出标记，然后将它们与输入的查询进行比较......我只是在努力建立之间的联系将两者转化为一些代码，因此非常感谢您的帮助！

为了清楚我正在寻找什么（我意识到我并不太清楚，抱歉） - 我正在寻找一种解决方案，在搜索术语时，它会返回建议查询的列表。当在搜索字段中输入“inter”时，它将返回一个建议查询列表，例如“internet”、“international”等。

根据 @Alexandre Victoor 的回答，我编写了一个基于 contrib 包中的 Lucene Spellchecker 的小类（并使用其中包含的 LuceneDictionary），它正是我想要的。

这允许使用单个字段从单个源索引重新建立索引，并提供术语建议。结果按原始索引中与该术语匹配的文档数量排序，因此更流行的术语首先出现。看起来效果很好:)

import java.io.IOException;
import java.io.Reader;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.ISOLatin1AccentFilter;
import org.apache.lucene.analysis.LowerCaseFilter;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.ngram.EdgeNGramTokenFilter;
import org.apache.lucene.analysis.ngram.EdgeNGramTokenFilter.Side;
import org.apache.lucene.analysis.standard.StandardFilter;
import org.apache.lucene.analysis.standard.StandardTokenizer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Sort;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.spell.LuceneDictionary;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

/**
 * Search term auto-completer, works for single terms (so use on the last term
 * of the query).
 * <p>
 * Returns more popular terms first.
 * 
 * @author Mat Mannion, [email protected]
 */
public final class Autocompleter {

    private static final String GRAMMED_WORDS_FIELD = "words";

    private static final String SOURCE_WORD_FIELD = "sourceWord";

    private static final String COUNT_FIELD = "count";

    private static final String[] ENGLISH_STOP_WORDS = {
    "a", "an", "and", "are", "as", "at", "be", "but", "by",
    "for", "i", "if", "in", "into", "is",
    "no", "not", "of", "on", "or", "s", "such",
    "t", "that", "the", "their", "then", "there", "these",
    "they", "this", "to", "was", "will", "with"
    };

    private final Directory autoCompleteDirectory;

    private IndexReader autoCompleteReader;

    private IndexSearcher autoCompleteSearcher;

    public Autocompleter(String autoCompleteDir) throws IOException {
        this.autoCompleteDirectory = FSDirectory.getDirectory(autoCompleteDir,
                null);

        reOpenReader();
    }

    public List<String> suggestTermsFor(String term) throws IOException {
        // get the top 5 terms for query
        Query query = new TermQuery(new Term(GRAMMED_WORDS_FIELD, term));
        Sort sort = new Sort(COUNT_FIELD, true);

        TopDocs docs = autoCompleteSearcher.search(query, null, 5, sort);
        List<String> suggestions = new ArrayList<String>();
        for (ScoreDoc doc : docs.scoreDocs) {
            suggestions.add(autoCompleteReader.document(doc.doc).get(
                    SOURCE_WORD_FIELD));
        }

        return suggestions;
    }

    @SuppressWarnings("unchecked")
    public void reIndex(Directory sourceDirectory, String fieldToAutocomplete)
            throws CorruptIndexException, IOException {
        // build a dictionary (from the spell package)
        IndexReader sourceReader = IndexReader.open(sourceDirectory);

        LuceneDictionary dict = new LuceneDictionary(sourceReader,
                fieldToAutocomplete);

        // code from
        // org.apache.lucene.search.spell.SpellChecker.indexDictionary(
        // Dictionary)
        IndexReader.unlock(autoCompleteDirectory);

        // use a custom analyzer so we can do EdgeNGramFiltering
        IndexWriter writer = new IndexWriter(autoCompleteDirectory,
        new Analyzer() {
            public TokenStream tokenStream(String fieldName,
                    Reader reader) {
                TokenStream result = new StandardTokenizer(reader);

                result = new StandardFilter(result);
                result = new LowerCaseFilter(result);
                result = new ISOLatin1AccentFilter(result);
                result = new StopFilter(result,
                    ENGLISH_STOP_WORDS);
                result = new EdgeNGramTokenFilter(
                    result, Side.FRONT,1, 20);

                return result;
            }
        }, true);

        writer.setMergeFactor(300);
        writer.setMaxBufferedDocs(150);

        // go through every word, storing the original word (incl. n-grams) 
        // and the number of times it occurs
        Map<String, Integer> wordsMap = new HashMap<String, Integer>();

        Iterator<String> iter = (Iterator<String>) dict.getWordsIterator();
        while (iter.hasNext()) {
            String word = iter.next();

            int len = word.length();
            if (len < 3) {
                continue; // too short we bail but "too long" is fine...
            }

            if (wordsMap.containsKey(word)) {
                throw new IllegalStateException(
                        "This should never happen in Lucene 2.3.2");
                // wordsMap.put(word, wordsMap.get(word) + 1);
            } else {
                // use the number of documents this word appears in
                wordsMap.put(word, sourceReader.docFreq(new Term(
                        fieldToAutocomplete, word)));
            }
        }

        for (String word : wordsMap.keySet()) {
            // ok index the word
            Document doc = new Document();
            doc.add(new Field(SOURCE_WORD_FIELD, word, Field.Store.YES,
                    Field.Index.UN_TOKENIZED)); // orig term
            doc.add(new Field(GRAMMED_WORDS_FIELD, word, Field.Store.YES,
                    Field.Index.TOKENIZED)); // grammed
            doc.add(new Field(COUNT_FIELD,
                    Integer.toString(wordsMap.get(word)), Field.Store.NO,
                    Field.Index.UN_TOKENIZED)); // count

            writer.addDocument(doc);
        }

        sourceReader.close();

        // close writer
        writer.optimize();
        writer.close();

        // re-open our reader
        reOpenReader();
    }

    private void reOpenReader() throws CorruptIndexException, IOException {
        if (autoCompleteReader == null) {
            autoCompleteReader = IndexReader.open(autoCompleteDirectory);
        } else {
            autoCompleteReader.reopen();
        }

        autoCompleteSearcher = new IndexSearcher(autoCompleteReader);
    }

    public static void main(String[] args) throws Exception {
        Autocompleter autocomplete = new Autocompleter("/index/autocomplete");

        // run this to re-index from the current index, shouldn't need to do
        // this very often
        // autocomplete.reIndex(FSDirectory.getDirectory("/index/live", null),
        // "content");

        String term = "steve";

        System.out.println(autocomplete.suggestTermsFor(term));
        // prints [steve, steven, stevens, stevenson, stevenage]
    }

}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Lucene 中进行查询自动完成/建议？的相关文章

Spring Batch 多线程 - 如何使每个线程读取唯一的记录？

这个问题在很多论坛上都被问过很多次了但我没有看到适合我的答案我正在尝试在我的 Spring Batch 实现中实现多线程步骤有一个包含 100k 条记录的临时表想要在 10 个线程中处理它每个线程的提交间隔为 300 因此在任何时
为什么 i++ 不是原子的？

Why is i Java 中不是原子的为了更深入地了解 Java 我尝试计算线程中循环的执行频率所以我用了一个 private static int total 0 在主课中我有两个线程主题 1 打印System out prin
Java - 将节点添加到列表的末尾？

这是我所拥有的 public class Node Object data Node next Node Object data Node next this data data this next next public Object g
Java JDBC：更改表

我希望对此表进行以下修改添加状态列 varchar 20 日期列时间戳我不确定该怎么做 String createTable Create table aircraft aircraftNumber int airLineCompa
使用 Android 发送 HTTP Post 请求

我一直在尝试从 SO 和其他网站上的大量示例中学习但我无法弄清楚为什么我编写的示例不起作用我正在构建一个小型概念验证应用程序它可以识别语音并将其文本作为 POST 请求发送到 node js 服务器我已确认语音识别有效并且服务
JAXb、Hibernate 和 beans

目前我正在开发一个使用 Spring Web 服务 hibernate 和 JAXb 的项目 1 我已经使用IDE hibernate代码生成生成了hibernate bean 2 另外我已经使用maven编译器生成了jaxb bean
多个 Maven 配置文件激活多个 Spring 配置文件

我想在 Maven 中构建一个环境在其中我想根据哪些 Maven 配置文件处于活动状态来累积激活多个 spring 配置文件目前我的 pom xml 的相关部分如下所示
我可以使用 HSQLDB 进行 junit 测试克隆 mySQL 数据库吗

我正在开发一个 spring webflow 项目我想我可以使用 HSQLDB 而不是 mysql 进行 junit 测试吗如何将我的 mysql 数据库克隆到 HSQLDB 如果您使用 spring 3 1 或更高版本您可以使用 s
Mockito when().thenReturn 不必要地调用该方法

我正在研究继承的代码我编写了一个应该捕获 NullPointerException 的测试因为它试图从 null 对象调用方法 Test expected NullPointerException class public void c
Spring @RequestMapping 带有可选参数

我的控制器在请求映射中存在可选参数的问题请查看下面的控制器 GetMapping produces MediaType APPLICATION JSON VALUE public ResponseEntity
无法解析插件 Java Spring

我正在使用 IntelliJ IDEA 并且我尝试通过 maven 安装依赖项但它给了我这些错误 Cannot resolve plugin org apache maven plugins maven clean plugin 3 0
禁止的软件包名称：java

我尝试从数据库名称为 jaane 用户名 Hello 和密码 hello 获取数据错误 java lang SecurityException Prohibited package name java at java lang Class
从 127.0.0.1 到 2130706433，然后再返回

使用标准 Java 库从 IPV4 地址的点分字符串表示形式获取的最快方法是什么 127 0 0 1 到等效的整数表示 2130706433 相应地反转所述操作的最快方法是什么从整数开始2130706433到字符串表示形式 127 0
Java TestNG 与跨多个测试的数据驱动测试

我正在电子商务平台中测试一系列商店每个商店都有一系列属性我正在考虑对其进行自动化测试是否有可能有一个数据提供者在整个测试套件中提供数据而不仅仅是 TestNG 中的测试我尝试不使用 testNG xml 文件作为机制因为这些属性
如何将 pfx 文件转换为 jks，然后通过使用 wsdl 生成的类来使用它来签署传出的肥皂请求

我正在寻找一个代码示例该示例演示如何使用 PFX 证书通过 SSL 访问安全 Web 服务我有证书及其密码我首先使用下面提到的命令创建一个 KeyStore 实例 keytool importkeystore destkeystore
如何从终端运行处理应用程序

我目前正在使用加工 http processing org对于一个小项目但是我不喜欢它附带的文本编辑器我使用 vim 编写所有代码我找到了 pde 文件的位置并且我一直在从 vim 中编辑它们然后重新打开它们并运行它们重新加载脚
在mockito中使用when进行模拟ContextLoader.getCurrentWebApplicationContext()调用。我该怎么做？

我试图在使用 mockito 时模拟 ContextLoader getCurrentWebApplicationContext 调用但它无法模拟 here is my source code Mock org springframewo
Firebase 添加新节点

如何将这些节点放入用户节点中并创建另一个节点来存储帖子我的数据库参考 databaseReference child user getUid setValue userInformations 您需要使用以下代码 databaseRef
使用 JMF 创建 RTP 流时出现问题

我正处于一个项目的早期阶段需要使用 RTP 广播DataStream创建自MediaLocation 我正在遵循一些示例代码该代码目前在rptManager initalize localAddress 出现错误无法打开本地数据端口
如何实现仅当可用内存较低时才将数据交换到磁盘的写缓存

我想将应用程序生成的数据缓存在内存中但如果内存变得稀缺我想将数据交换到磁盘理想情况下我希望虚拟机通知它需要内存并将我的数据写入磁盘并以这种方式释放一些内存但我没有看到任何方法以通知我的方式将自己挂接到虚拟机中before an O

随机推荐

使用属性路由时查询字符串不起作用

我在用着System Web Http RouteAttribute and System Web Http RoutePrefixAttribute为我的 Web API 2 应用程序启用更清晰的 URL 对于我的大多数请求我可以使用路
重载 + 运算符以添加 2 个多项式

我正在尝试将存储在二维数组中的两个多项式相加第一行存储系数第二行存储阶数我创建了一个重载函数但在这里我使用 2D 分配的内存数组当调用该函数时它会崩溃更新它现在运行但结果是一些大的负数仅供参考我有一个复制构造函数和一个
错误 [ERR_REQUIRE_ESM]：不支持 ES 模块的 require() [重复]

这个问题在这里已经有答案了我正在尝试做一个Discord机器人只会告诉你是否有人在线玩游戏然而我不断收到这样的消息 ERR REQUIRE ESM 不支持 ES 模块的 require 相反将index js in 的 require
如何读取并解析该文本文件的内容？

我想以 C 的方式读取文本文件这是文本文件中的示例 item name 256 desc 520 Index 1 Image Wea001 specialty aspeed 700 item name 257 desc 520 Index
如何从 YouTube 嵌入中删除暂停时叠加的“更多视频”？ Edpuzzle 和可汗学院以某种方式做到了

我希望在嵌入的 YouTube 视频暂停时不显示更多视频叠加层我看过其他类似的帖子one或这个one 但没有人提到这样一个事实 Edpuzzle 例如https edpuzzle com media 5e96205457b2f23ef
UTF-8 支持、SQL Server 2012 和 UTF8String UDT

针对我的特定应用程序研究了 SQL Server VARCHAR 与 NVARCHAR 的优缺点我意识到如果 SQL Server 本身支持 UTF8 将是理想的选择一些 SO 帖子表明事实并非如此例如 VARCHAR 完全像 20
Devise - 多个用户的单点登录表单

我有两个设计模型用户和业务我希望两者都能够使用单一登录表单进行登录我正在使用主干js并且我有一个自定义视图所以视图不是问题 ajax 请求用于登录它按预期适用于用户但不适用于企业我搜索了 google 找到了一些提到使用 ST
R 和 Python 中线性回归的差异 [关闭]

Closed 这个问题需要调试细节目前不接受答案我试图将线性回归 R 结果与 python 的结果相匹配匹配每个自变量的系数下面是代码数据已上传 https www dropbox com s oowe4irm9332s78 X
使用 Spark 内置函数或方法在 Pyspark 中解析 csv 文件

我正在使用 Spark 2 3 版本并正在处理一些 poc 其中我必须将一些 csv 文件加载到 Spark 数据帧考虑下面的 csv 作为示例我需要解析它并将其加载到数据框中给定的 csv 有多个需要识别的不良记录 id name
UrlFetchApp 请求在菜单功能中失败，但在自定义功能中失败（连接到外部 REST API）

我使用以下函数连接到外部 API Binance 使用 Google Apps 脚本检索 JSON 数组市场价格这个简单的查询 URL 在浏览器中运行良好不需要 API 密钥 function getMyArray var url h
以编程方式调用按钮的单击方法

简单的问题我认为我希望能够在预定义的对象上调用单击方法特别是bindingNavigatorDeleteItem标准 c 上的按钮BindingNavigator 我需要拦截删除以便我可以验证该记录是否允许被删除如果是我想调用前
Selenium 文件上传使文件选择器窗口保持打开状态（OS/X 和 Python）

我可以使用 Selenium 将文件上传到远程服务器但即使文件上传后文件选择器对话框仍然存在 Selenium 常见问题解答指出您无法直接与本机操作系统文件浏览器对话框交互但我们做了一些魔法以便考虑到此处使用魔法我得到的行为
具有随机 id 变量的 Pandas Wide_to_long

我在使用 Wide to long 函数时遇到一些问题这个例子运行良好 Loc Nom Meas 1 Meas 2 Meas 3 200 A 0 8 1 1 1 2 201 B 4 9 5 1 5 2 pd wide to long df
...链接器错误的多重定义

我定义了一个特殊的文件 config h 我的项目也有文件 t c t h pp c pp h b c b h l cpp 和 includes in t c include t h include b h include pp h inc
使用 Google Cloud Kubernetes TCP 负载均衡器的 Nginx 状态代码 499

我们在 GKE 上运行使用在 TCP 负载均衡器下公开的面向公众的 Nginx 入口控制器该负载均衡器由 Kubernetes 自动配置问题是我们的 0 05 的请求的状态代码为 499 Nginx 唯一的状态代码意味着客户端已取消
使用 jQuery 触发多个动画 onScroll 事件

我有一个函数可以在滚动到视图中时淡出特定的 DIV 我在这些 DIV 中有一些子元素我想在每个淡入淡出动画结束时为其设置动画如何在以下函数中添加其他函数 window scroll function d h tiles each fu
如何在Java中优雅地序列化和反序列化OpenCV YAML校准数据？

我正在尝试使用官方 OpenCV Java 绑定以 YAML 格式加载保存 OpenCV 校准数据我知道 OpenCV 至少 c 版本可以序列化为 XML 和 JSON 但我想支持旧的 YAML 校准文件校准文件如下所示 YAML
展开字符串的 ENV 变量，运行命令并存储在变量中？

如何扩展变量运行该命令并将输出存储到变量通常你这样做 var echo string 但我想要这个 envString echo stringToEcho stringToEcho hello world var envString 但
Spark/Hadoop 不支持 AWS S3 上的 SSE-KMS 加密

我正在尝试使用 KMS 密钥 SSE KMS 通过服务器端加密在 S3 上保存 rdd 但出现以下异常线程 main 中的异常 com amazonaws services s3 model AmazonS3Exception 状态代码
如何在 Lucene 中进行查询自动完成/建议？

我正在寻找一种在 Lucene 中执行查询自动完成建议的方法我在 Google 上搜索了一下也玩了一下但我看到的所有示例似乎都是在 Solr 中设置过滤器我们不使用 Solr 也不打算在不久的将来转向使用 Solr 而且 Solr

如何在 Lucene 中进行查询自动完成/建议？

如何在 Lucene 中进行查询自动完成/建议？ 的相关文章

随机推荐

热门标签

如何在 Lucene 中进行查询自动完成/建议？的相关文章