对小文本进行有效搜索

2024-02-13

我有许多小文本（假设大约 500 个单词）和两个数据库，每个数据库大约有 10,000 个条目（关键字）。

我现在想要处理每个文本并找出文本中包含哪些关键字（保存在两个数据库中的关键字）。

你们中有人有关于如何有效地做到这一点的好方法吗？

我想在搜索数据库之前处理每个文本并为其建立索引（也许使用 lucene），但我真的不知道 lucene 是否是正确的工具。

Lucene 正是完成此任务的正确工具。

实现目标的一种方法是使用 RAMDirectory 来索引每个文本，然后使用 IndexReader 从索引中获取 TermEnum。您现在可以将术语与数据库中的关键字进行匹配。

另一种方法是将每个文本索引为 lucene 文档，然后迭代关键字并获取当前术语的 termDocs => 包含当前术语/关键字的所有文本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Search

Lucene

对小文本进行有效搜索的相关文章

如何使用 Apache POI API 将图像添加到 pptx 中添加的图像占位符？

我已经预定义了带有文本和图像占位符的 pptx 模板我如何从模板访问和修改这些占位符我可以使用 POI pptx API 直接将图像和文本添加到幻灯片中但如何将其添加到模板的占位符中请参阅链接以了解如何添加占位符来创建固定模板 ht
如何使用 Java 中的 Web 服务（例如 Axis2）发送复杂对象的数组或集合？

我对 SOAP Web 服务还比较陌生虽然我完成了一些较小的 Web 服务项目但我偶然从来不需要返回或用作参数复杂对象的数组或集合当我尝试这样做时根据我的 SOAP 绑定风格我会得到不同的奇怪行为当我使用RPC 文字我可
使用 JPA Criteria API 进行分页的总行数

我正在系统中为实体实现高级搜索功能以便用户可以使用该实体的属性上的多个条件 eq ne gt lt 等来搜索该实体我正在使用 JPA 的 Criteria API 动态生成 Criteria 查询然后使用setFirstResu
是什么决定了从 lambda 创建哪个函数式接口？

请考虑这个例子 import java util function Consumer public class Example public static void main String args Example example new
Java：迭代 Collection 的最佳方法（此处为 ArrayList）

今天当我看到一段我已经使用了数百次的代码时我很高兴地开始编码迭代集合此处为 ArrayList 出于某种原因我实际上查看了 Eclipse 的自动完成选项这让我想知道在什么情况下以下循环比其他循环更好使用经典的数组索引循环
Java：如何从转义的 URL 获取文件？

我收到了一个定位本地文件的 URL 事实上我收到的 URL 不在我的控制范围内 URL 按照 RFC2396 中的定义进行有效转义如何将其转换为 Java File 对象有趣的是 URL getFile 方法返回一个字符串而不是文件
正则表达式拆分数字和字母组，不带空格

如果我有一个像 11E12C108N 这样的字符串它是字母组和数字组的串联如何在中间没有分隔符空格字符的情况下分割它们例如我希望分割结果为 tokens 0 11 tokens 1 E tokens 2 12 tokens 3 C
如何使用 Java 处理 Selenium WebDriver 中的新窗口？

这是我的代码 driver findElement By id ImageButton5 click Thread sleep 3000 String winHandleBefore driver getWindowHandle drive
比较两个文本文件的最快方法是什么，不将移动的行视为不同

我有两个文件非常大每个文件有 50000 行我需要比较这两个文件并识别更改然而问题是如果一条线出现在不同的位置它不应该显示为不同的例如考虑这个文件A txt xxxxx yyyyy zzzzz 文件B txt zzzzz xx
JAVA - Xuggler - 组合 MP3 音频文件和 MP4 电影时播放视频

使用 JAVA 和 Xuggler 以下代码组合 MP3 音频文件和 MP4 电影文件并输出组合的 mp4 文件我希望在合并音频和视频文件时应自动播放输出视频文件 String inputVideoFilePath in mp4 Stri
Java 文件上传速度非常慢

我构建了一个小型服务它从 Android 设备接收图像并将其保存到 Amazon S3 存储桶中代码非常简单但是速度非常慢事情是这样的 public synchronized static Response postCommentP
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
具有 java XSLT 扩展的数组

我正在尝试使用 java 在 XSLT 扩展中使用数组我收到以下错误 Caused by java lang ClassCastException org apache xpath objects XObject cannot be ca
Javafx过滤表视图

我正在尝试使用文本字段来过滤表视图我想要一个文本字段 txtSearch 来搜索 nhs 号码名字姓氏和分类类别我尝试过在线实施各种解决方案但没有运气我对这一切仍然很陌生所以如果问得不好我深表歉意任何帮助将不胜感激我
如何在JSTL中调用java方法？ [复制]

这个问题在这里已经有答案了这可能是重复的问题我只想调用不是 getter 或 setter 方法的方法例如 xyz 类的 makeCall someObj stringvalue Java类 Class XYZ public Strin
Eclipse 中 Spring MVC 模型对象的 (jsp /jstl) 视图中的代码辅助

在 Spring MVC 中当将对象放置在视图模型中时如下所示 public String getUser Model model fetch user model addAttribute user user return viewN
hashcode 的默认实现为以相同方式构造的对象返回不同的值

我在这里编写一个示例代码 public class Test private int i private int j public Test TODO Auto generated constructor stub public Test
如何从 Maven 存储库引用本机 DLL？

如果 JAR 附带 Maven 存储库中的本机 DLL 我需要在 pom xml 中放入什么才能将该 DLL 放入打包中更具体地举个例子Jacob http search maven org artifactdetails 7Cnet s
在 RESTful Web 服务中实现注销

我正在开发一个需要注销服务的移动应用程序登录服务是通过数据库验证来完成的现在我陷入了注销状态退一步您没有提供有关如何在应用程序中执行身份验证的详细信息并且很难猜测您在做什么但是需要注意的是在 REST 应用程序中不能有会话
带有 Maven Wrapper 的 Java 17 导致无法识别的 VM 选项“MaxPermSize=512m”

I use OpenJDK 17 https jdk java net 17 使用 Maven Wrapper 3 8 2 从春季初始化 https start spring io Maven项目 JAR打包 Java 17 Spring

随机推荐

来自一个子组的多个结果

我有这个字符串
使用 Url.Action 时如何将参数传递给 URL？

我有以下代码 function reload var referenceID ReferenceID val detailData load Url Action DetailData new pk referenceID 它指出 pk 之
Webpack - 错误：无法在加载程序列表中定义“查询”和多个加载程序

我添加后出现这个错误react hot按照本教程将加载器放入数组中 https thoughtbot com blog setting up webpack for react and hot module replacement http
更新 Hudson 和插件

我想知道哪些步骤是升级 Hudson 和插件的最佳步骤我现在运行的是1 347 我曾经尝试更新但由于某些插件不兼容而导致混乱另外我想删除一些插件是否适合只删除 hpi 文件很高兴知道其他人如何执行此步骤以及按什么顺序执行我应该先升
bogoMIPS 值正在变化

我一直在读取 Samsung Galaxy sgh i897 上的 cpuinfo 文件来检索 bogoMIPS 值现在正在学习如何解释这些信息最初我在加载线程的主活动下执行此操作并且始终获得值 997 59 然后我将文件读取方法
反应选择-为下拉菜单和控制显示不同的文本/标签？

在我的反应选择下拉列表中标签有数百个字符长在控制芯片中我想显示下拉菜单中内容的较短版本这可能吗编辑我想设置芯片的文本而不是像素宽度解决方案1 使用多值时可以自定义控制芯片的样式Select与道具styles就像下面的例子 c
我应该如何在 Pyside6 应用程序中使用 Material Design？

我的 pyside 6 应用程序中有以下代码 import sys os from PySide6 QtGui import QGuiApplication from PySide6 QtQml import QQmlApplication
HTML5 微数据：跨越内容？

我读过了HTML5 规范 http www w3 org TR 2014 REC html5 20141028 single page html 微观数据规范 http www w3 org TR 2013 NOTE microdata 2
AngularJS - 多个指令实例多次调用 XHR

我有一个 Angularjs 指令 ExampleDirective 它具有控制器 ExampleController 控制器定义了两个 Promise 对象其中每个 Promise 对象发出 Http GET 请求并返回响应在指令中
如何使用 terraform 输出作为 Azure DevOps 管道中的变量

我试图将使用 Azure DevOps 的 terraform 部署生成的 databricks 工作区名称作为变量传递到另一个步骤但不知道该怎么做所以我在我的output tf中定义了输出 output workspace name
当文件打开后被删除时，Python 如何读取该文件

我很难理解 Python 在删除文件后如何读取文件的概念open编辑这是代码 gt gt gt import os gt gt gt os system cat foo txt Hello world 0 gt gt gt f lt io
部分类与扩展方法

我没有太多使用这两种方法来扩展类或针对类创建扩展方法的经验通过查看其他人的工作我在这里有一个问题我看到人们在项目中使用分部类来扩展实体类同时在同一个项目中还有另一个文件夹其中包含很多实体类的扩展方法这样做对吗我的意思是这两
我可以向 SKSpriteNode 添加边框吗，类似于 UIView？

我感兴趣如果SKSpriteNode可以模仿一个人的行为UIView我可以在哪里指定边框和角半径 self view layer borderColor UIColor lightGrayColor CGColor self view la
Excel 中是否有一个类似的命令，其执行与 MATLAB 中的“floor”命令相同的功能[重复]

这个问题在这里已经有答案了 MATLAB 中的 floor 命令定义为向负无穷大舍入 Floor X 将 X 的元素四舍五入为最接近的整数趋向于负无穷大 Excel 中是否有类似的命令或者有人知道如何在 Excel 中执行相同的操作
C DLL 到 Python 回调

我有一个 Visual C DLL 我在 DLL 中导出了 SetCallback 函数指针我使用此函数从 python2 7 脚本设置回调函数我遵循 Python 文档中给出的内容 from ctypes import def myp
如何在 vue-cli 中禁用 ESLint？

我该如何禁用ESlint在生成的项目中vue cli preLoaders test vue loader eslint include projectRoot exclude node modules test js loader esl
Google Sheets 查询图像从查询结果中显示

当图像从查询中出来时我不知道如何在 gsheet 的单元格中显示图像我尝试过各种形式的数组公式和查询组合但没有任何结果希望有任何帮助尝试过这个 A4 A21 是图像 URL ARRAYFORMULA 查询 B4 B21 图像 A4
Objective-C 中的美元符号是什么意思？

CAGradientLayer grad CAGradientLayer layer grad colors array ColRGBA2 1 0 0 1 ColRGBA2 0 1 0 1 ColRGBA2 0 0 1 1 ColRGBA2
如何让 axios 使用 AWS ACM 公共证书？

我很惊讶地发现在使用 axios 和 node fetch 时 AWS ACM 颁发的公共证书会触发无法验证第一个证书错误但是当我从命令行使用curl 时我没有收到错误所以我的问题是为什么节点会有这样的行为 Curl 似乎可
对小文本进行有效搜索

我有许多小文本假设大约 500 个单词和两个数据库每个数据库大约有 10 000 个条目关键字我现在想要处理每个文本并找出文本中包含哪些关键字保存在两个数据库中的关键字你们中有人有关于如何有效地做到这一点的好方法吗我想在搜索

对小文本进行有效搜索

对小文本进行有效搜索 的相关文章

随机推荐

热门标签

对小文本进行有效搜索的相关文章