如何查找相似文档

2024-04-02

如何在 Lucene 中找到给定文档的相似文档。我不知道文本是什么,我只知道文档是什么。有没有办法在lucene中找到类似的文档。我是新手,所以我可能需要一些指导。


你可能想检查 lucene 的 MoreLikeThis 功能。

MoreLikeThis 根据文档中的术语构建 lucene 查询,以查找索引中的其他相似文档。

http://lucene.apache.org/java/3_0_1/api/contrib-queries/org/apache/lucene/search/similar/MoreLikeThis.html http://lucene.apache.org/java/3_0_1/api/contrib-queries/org/apache/lucene/search/similar/MoreLikeThis.html

示例代码示例(java 参考)-

MoreLikeThis mlt = new MoreLikeThis(reader); // Pass the index reader
mlt.setFieldNames(new String[] {"title", "author"}); // specify the fields for similiarity

Query query = mlt.like(docID); // Pass the doc id 
TopDocs similarDocs = searcher.search(query, 10); // Use the searcher
if (similarDocs.totalHits == 0)
    // Do handling
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何查找相似文档 的相关文章

  • 随着索引和文档数量恒定,elasticsearch 批量索引会随着时间的推移而变慢

    我遇到了使用 NET NEST 客户端和 ElasticSearch 进行批量索引的性能随着时间的推移 索引数量和文档数量恒定而降低的情况 我们正在奔跑ElasticSearch Version 0 19 11 JVM 23 5 b02在具
  • Lucene外来字符问题

    我在使用 Zend Lucene 和 等外来字符时遇到了一些严重的问题 这些问题在创建索引和查询索引时都会出现 我已经尝试过 iso 8859 1 和 utf 8 ISO 8859 1 不起作用的查询看起来像 area sk ne 使用 Z
  • openNLP 与 Solr 集成时出现异常

    我正在尝试将 openNLP 与 Solr 6 1 0 集成 我配置了架构和 solrconfig 文件 详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
  • 使用 gin 索引和 sqlalchemy 返回排名搜索结果

    我为全文搜索设置了 GIN 索引 我想获取与搜索查询匹配的记录列表 按排名排序 记录与搜索查询的匹配程度 对于结果 我只需要记录及其列 不需要用于排序的实际排名值 我有以下查询 它运行良好并从我的 postgresql 数据库返回预期结果
  • SQL Server 全文搜索 - 是否可以在单词中间进行搜索?

    我的数据库有全文搜索 是否可以在单词中间搜索某些文本 例如 我有一个描述列 其中包含以下文本 Revolution 是否可以搜索 EVO 并让它在 革命 一词中找到它 或者我是否一直在做 LIKE SELECT FROM Table WHE
  • 如何使用 Ansible when 条件在文件中搜索字符串

    我有一个变量中用 n 分隔的搜索字符串列表listofips 我想在文件中搜索该字符串hello csv在我的下面playbook dir 我可能遇到一些语法问题 我不确定 但下面是我尝试过的 set fact listofips 10 0
  • cursorMark是无状态的以及它如何解决深度分页

    作为指定here https cwiki apache org confluence display solr Pagination of Results光标标记是无状态的 但我不明白它是如何解决无状态的深度分页问题的 solr 是否按唯一
  • Oracle Text:如何清理用户输入

    如果有人有使用 Oracle 文本的经验 CTXSYS CONTEXT 我想知道当用户想要搜索可能包含撇号的名称时如何处理用户输入 在某些情况下 转义 似乎有效 但对于单词末尾的 s 则不起作用 s 在停用词列表中 因此似乎已被删除 目前
  • 在 MySQL 中进行全文搜索的最有效方法

    我有 3 个表 我想查询搜索词文本框 我的查询目前看起来像这样 SELECT Artist FROM Artist Band Instrument WHERE MATCH Artist name AGAINST mysearchterm O
  • Solr/Solrj 分页

    我正在创建的 Web 应用程序中使用 solr 和 solrj 来实现索引和搜索功能 我的请求处理程序在 solrconfig xml 中配置如下
  • 比 BMH (Boyer–Moore–Horspool) 更快的算法

    您会使用哪种算法来搜索短文本中的短子字符串 简而言之 我的意思是子字符串有 5 10 个字符 字符串有 255 个字符 我正在考虑根据输入数据长度选择算法 哪种算法对于较长的输入更好 Try Turbo BM http www igm un
  • mysql - 有什么方法可以帮助使用另一个索引进行全文搜索?

    假设我有一个 文章 表 其中包含以下列 article text fulltext indexed author id indexed 现在我想搜索特定作者撰写的文章中出现的术语 所以像这样 select from articles whe
  • 了解 FTS3/FTS4:什么是虚拟表并从中搜索具有可搜索的非虚拟表?

    阅读 SQLite3 的 FTS3 FTS4 文档的第一部分后 我现在感到非常困惑 我感到困惑的原因是散布在网络上的示例 我相信它没有涵盖所有可能的用例 另一个原因是我目前所处的情况 话虽如此 我有一个名为 Note 的表 其中包含两个类型
  • SQL Server 全文的自定义断字器

    有谁知道如何为 SQL Server 2005 创建自定义分词系统 我更喜欢用 C 编写它 我需要能够搜索 c f 等术语 但 字符是英语 英国 分词器组件中的分词器 不能以任何其他方式更改 我发现以下文章提供了不完整的示例 缺少 IWor
  • 在云模式下设置 Apache Solr

    我必须执行以下操作 我必须在 2 个服务器 节点上部署 Solr 在另一台服务器上部署 Zookeeper 将自定义配置上传到 Zookeeper 创建具有 2 个分片和 2 个副本的自定义集合 Solr 7 4 0 和 Zookeeper
  • 为什么我要费心使用全文搜索?

    我是全文搜索新手 我使用了以下查询 Select From Students Where FullName LIKE abc 学生表包含数百万条记录 所有记录都是随机的 如下所示 QZAQHIEK VABCNLRM KFFZJYUU 仅用了
  • MySQL全文停用词问题

    我有一个名为 products 的数据库和一个包含以下列的全文索引 title and description 我所有的产品都是润滑油 油 有工业用和汽车用两种 比例在55 45 如果我在 auto moto 油之后进行搜索 那么它将不会返
  • 在 VS Code 文件搜索中,我可以展开(或折叠)所有结果吗?

    在程序的 搜索 窗格中 按 Enter 键后 会列出所有文件 其中一些文件会展开以显示文件中的结果 而其他文件则会折叠 我首先想知道是什么决定了任何给定文件的扩展 其次我想知道如何一次性扩展所有文件 这个问题似乎最接近我的问题 但它是关于不
  • 测量文档集之间的相似性

    出于说明目的 我们假设这是一个论坛服务 我需要计算每个用户帖子之间的 相似度 结果如下 among posts by user A similarity 60 among posts by user B similarity 20 我正在处
  • mySQL MATCH 跨多个表

    我有一组 4 个表 我想对其进行搜索 每个都有全文索引 查询可以使用每个索引吗 CREATE TABLE categories id int 5 unsigned NOT NULL auto increment display order

随机推荐

  • 如何使窗口移动命令忽略某个窗口?

    所以我通常在 Emacs 中打开 3 个缓冲区 我正在编写的实际代码的一个缓冲区 用于所述代码的单元测试的一个缓冲区 A third buffer that displays the results of the unit test Thi
  • 是否有一种已知的用于电力塔模数管理所有情况的算法?

    我想在 PARI GP 中实施 用于计算 a 1 a 2 a n mod m 它管理所有情况 特别是 phi 链中出现高权力的情况 有谁知道这样的实现吗 这里可以使用中国余数来确保模数是素数幂 这简化了在 gcd x m 不为 1 的痛苦情
  • 仅获取子文件夹的文件夹大小,而忽略任何其他内容?

    我创建了下面的脚本 它管理和维护 RootFolder 中分配的存储 其中存储每日备份 每个备份都存储在其自己的单独文件夹中 并且如果 RootFolder 内容超过预设限制 则最旧的备份文件夹将被删除 到目前为止 一切都很好 我遇到的问题
  • React-markdown 不渲染 Markdown

    我正在使用 React markdown 来呈现输入的值 问题是归约没有得到应有的处理 例如如果我使用这个表达式 hello world 文本应该在h1中显示为文本 但它正常显示 其他表达式也无法显示被执行 setDataForm comi
  • CSS 弹出菜单

    我想在某些菜单项悬停时创建弹出菜单 我的菜单如下所示 项目1 项目2 项目3 当 item2 悬停时 我想在 item2 下方显示弹出窗口 箭头指向上方 我确信使用 javascript 可以很容易地做到这一点 尽管我还没有这样做过 但这里
  • 更改输入 onchange 的值?

    我正在尝试创建一个简单的 JavaScript 函数 当有人在一个数字中插入一个数字时input字段时 另一个字段的值应更改为该值 这是我现在所拥有的 function updateInput ish fieldname value ish
  • Amazon S3s 密钥背后的数据结构(过滤数据结构)

    我想实现一个类似于 Amazon S3 的查找功能的数据结构 就上下文而言 Amazon S3 将所有文件存储在平面命名空间中 但允许您通过文件名中的公共前缀查找文件组 从而复制目录树的功能 但又不那么复杂 问题是 查找和过滤操作都是 O
  • 如果类具有 @XmlElement 属性,则它不能具有 @XmlValue 属性

    我收到以下错误 If a class has XmlElement property it cannot have XmlValue property updated class XmlType propOrder currencyCode
  • 如何在 sqlalchemy 查询中将日期时间更改为字符串? [复制]

    这个问题在这里已经有答案了 这是我的代码 查询Notification create time result session query Notification content cls is read Notification creat
  • Freebase 上 MQL 中的多个查询

    我正在尝试从 Freebase 获取结果列表 我有一系列 MID 有人可以解释一下我如何构建查询并将其传递给 PHP 中的 API 吗 我是 MQL 新手 我什至无法让示例正常工作 simplequery array id gt topic
  • 斯威夫特:“!”的区别和 '?'迅速

    我声明如下 IBOutlet var hw label UILabel 如果我像上面那样写就可以成功运行 但是当我声明如下时 IBOutlet var hw label UILabel and hw label text Hello Wor
  • 如何使用 CSS/Javascript 防止 iOS 上 HTML 上的自动旋转图像

    我正在创建一个照片网站 我上传了一张自己的照片 但实际上方向不正确 图像逆时针旋转 90 度 我从我的 iPhone 上传了这张图片 显然 iPhone 是故意以这种方式存储的 在我的网站上 HTML 页面呈现了一个 JSON 对象 其中包
  • sizeof 运算符的问题

    由于我想在函数中动态查找数组大小 因此我使用了 sizeof 运算符 但我得到了一些意想不到的结果 这是一个演示程序 向您展示我想要做什么 include
  • 如何用 C 语言编写 C 编译器? [复制]

    这个问题在这里已经有答案了 这个问题可能源于我对编译器的误解 但这里是 在 K R 第一版的序言 第 xi 页 中可以找到以下陈述 操作系统 C编译器 并且基本上所有 UNIX 应用程序 包括编写本书所使用的所有软件 都是用 C 编写的 我
  • 同时预增量和后增量或混合预增量[重复]

    这个问题在这里已经有答案了 可能的重复 C 中的前后递增 递减运算符 https stackoverflow com questions 174153 pre and post increment decrement operators i
  • NSImageView 动画

    我是Mac开发新手 我们有类似的方法吗imagev NSArray 数组WithObjects 我需要像我们在 iOS 中所做的事情想要在 mac 中做的事情 imageVie animationImages NSArray arrayWi
  • 调试长时间运行的 PHP 脚本

    我有 php 脚本作为 cron 作业运行 广泛使用第三方代码 脚本本身有几千个LOC 基本上它是数据导入 处理脚本 JSON 到 MySQL 但它也进行大量 HTTP 调用和一些 SOAP 现在 性能随着时间的推移而下降 当测试少量记录
  • 推送到 GitHub 错误:无法在 .netrc 文件中找到主机 github.com;使用默认值

    我不知道发生了什么 我没有得到github的回应 我在一个月左右的时间里第一次尝试了 git Push 并得到了这个 打开导出 GIT CURL VERBOSE 1 并进行推送并得到 localhost send2mobile rails
  • Visual Studio Intellisense 如何工作?

    有人可以解释一下 Visual Studio 中的智能感知究竟是如何工作的吗 智能感知背后的秘密是在后台运行的构建提供程序 本文将进一步阐述这个主题 http aspalliance com 1102 Creating a Custom B
  • 如何查找相似文档

    如何在 Lucene 中找到给定文档的相似文档 我不知道文本是什么 我只知道文档是什么 有没有办法在lucene中找到类似的文档 我是新手 所以我可能需要一些指导 你可能想检查 lucene 的 MoreLikeThis 功能 MoreLi