我有许多小文本(假设大约 500 个单词)和两个数据库,每个数据库大约有 10,000 个条目(关键字)。
我现在想要处理每个文本并找出文本中包含哪些关键字(保存在两个数据库中的关键字)。
你们中有人有关于如何有效地做到这一点的好方法吗?
我想在搜索数据库之前处理每个文本并为其建立索引(也许使用 lucene),但我真的不知道 lucene 是否是正确的工具。
Lucene 正是完成此任务的正确工具。
实现目标的一种方法是使用 RAMDirectory 来索引每个文本,然后使用 IndexReader 从索引中获取 TermEnum。您现在可以将术语与数据库中的关键字进行匹配。
另一种方法是将每个文本索引为 lucene 文档,然后迭代关键字并获取当前术语的 termDocs => 包含当前术语/关键字的所有文本。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)