Lucene 7+中如何通过文档ID获取DocValue？

2024-03-07

我正在将 DocValue 添加到文档中

doc.add(new BinaryDocValuesField("foo",new BytesRef("bar")));

检索具有 ID 的特定文档的值docId, I call

DocValues.getBinary(reader,"foo").get(docId).utf8ToString();

The getBinaryDocValues 中的函数最多支持卢塞恩6.6 https://lucene.apache.org/core/6_6_0/core/org/apache/lucene/index/BinaryDocValues.html，但对于卢塞恩7.0 https://lucene.apache.org/core/7_0_0/core/org/apache/lucene/index/BinaryDocValues.html并且似乎不再可用。

So, 如何在 Lucene 7+ 中通过文档 ID 获取 DocValue（无需迭代BinaryDocValues / DocIdSetIterator，并且无需重新获取BinaryDocValues并使用advanceExact每次）？

Theory

Doc Values是Lucene的column-stride字段值存储。文档值的目的是在查询时快速随机访问以进行分面和排序。以下问题LUCENE-7407 https://issues.apache.org/jira/browse/LUCENE-7407将访问模式从随机访问切换为迭代器。由于迭代器 API 是一种比任意随机访问 API 限制性更强的访问模式，因此这一更改为 Lucene 提供了更多的自由度和能力来使用积极的压缩和其他优化：

在稀疏数据的情况下减少磁盘空间使用
即使在非稀疏情况下，文档值的压缩率和解码速度也更好
删除缺失值的特殊列（getDocsWithField）并线程本地编解码器读取器

您可以在以下博客中了解此更改：

作为迭代器的文档值 http://blog.mikemccandless.com/2017/03/apache-lucene-70-is-coming-soon.html
使用 Apache Lucene 的稀疏与密集文档值 https://www.elastic.co/blog/sparse-versus-dense-document-values-with-apache-lucene

Practice

实际上，这种变化在某些情况下会导致性能下降，例如SOLR-9599 https://issues.apache.org/jira/browse/SOLR-9599。在主要情况下（分面和排序），迭代 API 在正确使用的情况下是可以的，甚至更重要的是，允许执行一些优化。事实上，在很多情况下这个 API 并不是一个好的解决方案。所有这些情况都被视为不正确的用法而被丢弃（与我们在 java word 中使用 sun.misc.Unsafe 遇到的问题相同）。

实际上，org.apache.lucene.index.DocValuesIterator#advanceExact速度相当快，并且在某些实现情况下具有相似的性能和复杂性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Solr

Lucene

Lucene 7+中如何通过文档ID获取DocValue？的相关文章

cursorMark是无状态的以及它如何解决深度分页

作为指定here https cwiki apache org confluence display solr Pagination of Results光标标记是无状态的但我不明白它是如何解决无状态的深度分页问题的 solr 是否按唯一
如何将 Solarium 配置为使用 POST 而不是 GET 请求

我面临的问题是我们发送到 solr jetty 的 uri 变得很长超过 9k 字节超出了 jetty 的默认限制解决方案是从 GET 请求切换到 POST 请求因为我们不想增加 jetty 可以接受的 requestHeaderS
在 Solr 中实现术语关联挖掘的最简单方法是什么？

关联挖矿似乎为检索提供了良好的结果相关术语在文本语料库中有很多关于这个主题的著作其中包括著名的LSA http en wikipedia org wiki Latent semantic analysis方法挖掘关联最直接的方法是构建
Lucene 4.0 中的术语频率

尝试使用 Lucene 4 0 计算词频我的文档频率工作得很好但不知道如何使用 API 来执行术语频率这是我的代码 private static void addDoc IndexWriter writer String conten
如何备份Solr数据库？

我想知道如何备份转储 Solr 数据库如果只是复制一些文件请指定哪些文件文件名位置等 Thanks We use Solr复制 http wiki apache org solr SolrReplication做我们的备份您可以
Elasticsearch：带有停用词消除功能的带状疱疹

我正在尝试实现一个 Elasticsearch 映射来优化大量文本中的短语搜索根据中的建议本文 http www elasticsearch org blog searching with shingles 我使用 shingle 过滤器
Solr 突出显示是否还可以指示返回片段在原始字段内的位置或偏移量？

背景使用Solr 4 0 0 我已经对一组示例文档的文本建立了索引并启用了术语向量以便我可以使用快速向量突出显示
SpatialQuery 使用 Lucene 进行基于位置的搜索

我的 lucene 索引已索引纬度和经度字段如下所示 doc Add new Field latitude latitude ToString Field Store YES Field Index UN TOKENIZED doc Ad
Solr 增量导入不起作用

我使用的是solr 4 2 请注意完全导入有效但增量导入却无效增量导入不会给出任何错误但不会获取任何更改这是数据配置文件
如何统计lucene索引中每个文档的term数？

我想知道 lucene 索引中每个文档的术语数量我一直在 API 和互联网上搜索但没有结果你能帮助我吗 Lucene 的构建是为了回答相反的问题即哪些文档包含给定术语因此为了获取文档的术语数量您必须进行一些修改第一种方法是存
在 Solr 更新中指定多值术语频率？

我有一个包含多值字段的 Solr 模式我正在 Solr 外部解析文档并使用更新索引http wiki apache org solr UpdateJSON http wiki apache org solr UpdateJSON 也可以看
Data-config.xml 和 mysql - 我只能加载“id”列

我在 Windows Server 2012 上安装了 Solr 5 0 0 我想将表中的所有数据加载到 solr 引擎中我的 data config xml 如下所示
如何减少solr内存使用？

我在我的应用程序中使用 solr 只有数百个文档内存占用80M左右如何减少 80M 并不多事实上它几乎是最低限度你不会比这个低很多影响内存使用的一些因素输入文档尺寸多线程文档更新缓存大小分面查询 Sorting 参考 ht
在休眠搜索中使用现有分析器AnalyzerDiscriminator

Entity Indexed AnalyzerDefs AnalyzerDef name en tokenizer TokenizerDef factory StandardTokenizerFactory class filters To
Solr 日期字段 tdate 与 date？

所以我有一个关于 Solr 字段日期类型的问题这个问题非常简单日期字段和 tdate 字段之间有什么区别模式 xml 声称为了更快的范围查询请考虑 tdate 类型和基于 Trie 的日期字段以实现更快的日期范围查询和日期
特定查询出现错误

Lucene 的新手我在 java 客户端中将它与 Hibernate 一起使用并且在特定查询上收到此错误 HSEARCH000146 The query string a applied on field name has no me
solr 不标记受保护的单词

我在 Solr Lucene 3 x 中有一个文档其中有一个特殊的复制字段facet headline 以便有一个用于分面的未词干字段有时两个或以上的单词属于在一起这应该被处理算作一个单词例如 kim jong il 因此标题星
如何增强solr中的字段

我已经事先确定了提升我在 solr 索引中有一个名为boost1 该提升字段的值介于 1 到 10 之间类似于 google PR 排名这是应该应用于 solr 中运行的每个查询的提升这是我的索引中的字段 Id Title Text
CakePHP 与 Lucene

我正在尝试使用 cakephp 实现 Lucene 并遵循本指南http jamienay com 2010 01 zend search lucene datasource for cakephp http jamienay com 20
如何过滤 Solr 中多值字段返回的值

我有一个文档其中包含一个名为 uuid 的字段该字段是一个列表多值每个文档最多可以有 100k 个值例如我想搜索与以 5ff6115e 开头的 uuid 匹配的文档我已经可以通过使用成功做到这一点q uuids 5ff6115

随机推荐

将多维 NumPy 数组的图像旋转 90 度

我有一个形状为 7 4 100 100 的 numpy 数组这意味着我有 7 个 100x100 深度为 4 的图像我想将这些图像旋转 90 度我努力了 rotated numpy rot90 array 1 但它将数组的形状更改为
如何将 JTable 中第一行的颜色设置为任何颜色并保留表中之前设置的颜色

我已经阅读了很多有关 Java 中的 CellRendering 的内容并且还访问了这个优秀网站的其他问答不幸的是我仍然没有找到以下问题的解决方案我想渲染一个显示 StatusEvents 的 JTable 这对于监视正在运行的系统是
使用 load_model 时，keras 内核初始化程序被错误调用

Keras 版本 2 2 4 张量流版本1 13 1 我正在使用 Colab 笔记本我正在尝试制作自定义初始值设定项并使用 model save 保存模型但是当我再次加载模型时出现以下错误类型错误 myInit 缺少 1 个必需的位
是否可以在运行时更改 Qt 上的语言

在我的应用程序中我需要国际化假设我为不同语言创建了多个 ts 文件例如德语法语等以及翻译的短语现在假设用户想要在运行时更改语言使用Qt方法是不可能的吗 Qt 5 10 中引入的函数 QQmlEngine retransla
Rust 泛型中的常量值[重复]

这个问题在这里已经有答案了 Rust 语言是否支持类似于 C 方式的通用代码中的常量值看来语言overview http static rust lang org doc tutorial html generics不做广告在 C 中使
非管理员的图形 API 权限

我想向非管理员用户 Bob 授予一些 Graph API 权限以便它能够读取一些数据without需要管理员同意 If I give the admin consent here every permission is given to
传递到字典中的模型项的类型为“System.Collections.Generic.List”

我是 ASP NET 新手这是我的第一个应用程序我正在开发一个管理保险请求的应用程序模型请求包含文件上传 addDemand 添加请求需要成员遵守者登录每次我尝试运行 addDemande 时都会收到错误传递到字典中的模型项
Angular 测试中 fakeAsync 和 async 有什么区别？

我知道tick 函数利用fakeAsync 我也可以使用fixture whenStable then with async and fakeAsync 以及我想知道它们的确切用例任何人都可以用例子解释这一点注意我想在这两种情况下使
Chart JS：忽略 x 值并将点数据放在第一个可用标签上

我正在 Chart js 中制作折线图并且遇到一个问题我试图在线上绘制点数据但它忽略了我给出的 x 值而是将它们放在第一个可用标签上 this myLineChart new Chart this ctx type line dat
如何从菜单切换到新的活动？

我有一个菜单想在用户单击菜单项时打开一个新的活动 Override public boolean onOptionsItemSelected MenuItem item Handle item selection switch item
使用InnoIDE写入AppData目录？

我需要写信给 C Users 用户 AppData Roaming AppName 安装过程中的文件夹我使用 InnoIDE 程序进行设置非常棒然而它似乎缺少一个 AppData 特殊文件夹来轻松访问该目录例如您可以使用 Des
如何制作本地离线数据库

我正在使用 HTML CSS 和 JavaScript 制作一个待办事项列表应用程序我认为存储数据的最佳方式是本地数据库我知道如何使用localStorage and sessionStorage 而且我也知道如何使用在线MySQL h
使用 Google Compute Engine 默认服务帐户签署 Google Cloud Storage URL

我正在尝试使用 GCE 默认服务帐户签署 GCS URL 我为计算默认服务帐户提供了必要的服务帐户令牌创建者角色当我尝试在以下 Python 代码中签署 url 时出现错误 import google auth import goo
正则表达式匹配除 0 和 1 之外的任何数字，最多由四位数字组成

我尝试了以下方法来匹配除 0 和 1 之外的任何数字例如 2 到 9999 但它似乎没有按预期工作 d 0 9 0 9 0 1 Exclude 0 and 1从字符类中regex 2 9 1 d 0 3 这将匹配所有的数字不开始于 0 a
Rails pages_controller_spec.rb 测试不应该失败，但是错误？

一直在关注 Michael Hart 的 Rails 教程 Mac OS X 10 7 上的 Rails 版本 3 0 rspec 规范 FF Failures 1 PagesController GET help should be su
如何使用 Angular-Cli 在 /src/app 之外的文件夹中创建组件

我希望能够在 src app 外部的文件夹中创建组件模块或服务所以我尝试过 ng g c mco lib 但失败了我希望能够使用 CLI 在 app 外部的文件夹中创建一个组件我怎样才能做到这一点 EDIT 您可以更改 Angula
如何在行（行）而不是列中组织多对多复选框？

我正在创建一个模块其中我有一个Many2many字段我想将其转换为复选框组我已经在我的 XML 视图中编写了这个来实现它
动态重命名 Azure Blob（如果已上传）

我有一组文件未本地保存需要上传到 azure blob 存储并每天更新 1 有一定数量的同名内容不同的文件应保存为单独的 blob 2 更新的文件集应覆盖相应的前一天 blob 有没有办法检查 blob 是否已经存在并通过附加数字动
链接不支持异常处理的代码 (C++/LLVM)

我正在尝试使用 llvm 作为我的软件的代码生成后端并且刚刚意识到 llvm 的编译不支持 C 异常处理为了提高效率然而在我的软件中我广泛使用异常处理如果我将所有回调函数包装在 try catch blocks 中这样就不需要
Lucene 7+中如何通过文档ID获取DocValue？

我正在将 DocValue 添加到文档中 doc add new BinaryDocValuesField foo new BytesRef bar 检索具有 ID 的特定文档的值docId I call DocValues getBina

热门标签