分析 Lucene 文档字段标记后如何读取它们？

2023-12-14

如果我创建一个文档并添加一个既存储又分析的字段，那么我如何将该字段作为标记列表读回？我有以下内容：

            Document doc = new Document();
            doc.add(new Field("url", fileName, Store.YES, Index.NOT_ANALYZED));
            doc.add(new Field("text", fileContent, Store.YES, Index.ANALYZED));
            // add the document to the index
            writer.addDocument(doc);

所以 fileContext 是一个包含大量文本的字符串。当它存储在索引中时，它会被分析并被标记化。然而，我怎样才能获得这些代币呢？我可以在存储文档后从索引中检索文档，并且可以从文档中读取“文本”字段，但这是作为字符串返回的。如果可能的话我想获得代币。我的“writer”是一个 IndexWriter 实例，它使用 StandardAnalyzer。任何指示都将受到非常欢迎。

非常感谢

查看document.getField("name").tokenStreamValue().

编辑：实际上这个问题使用上述内容为您提供完整的解决方案TokenStream.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Lucene

分析 Lucene 文档字段标记后如何读取它们？的相关文章

使用 Apache Lucene 对 MySQL 数据库建立索引，并保持它们同步

当MySQL中添加一个新项目时它也必须被Lucene索引当现有项目从 MySQL 中删除时它也必须从 Lucene 的索引中删除这个想法是编写一个脚本通过调度程序例如 CRON 任务每 x 分钟调用一次这是保持 MySQL
Apache Solr 6.6 替换文档而不是更新

我已配置 solr 6 6 1 进行测试设置在索引了一些文档后我必须更新一些字段我正在使用 python 客户端solr https pythonhosted org solrpy reference html 要更新以下是我的代码
Lucene中SpanQuery的用途是什么？

有人可以解释一下什么是SpanQuery是它的典型用例是什么 The 文档 https lucene apache org core 7 7 3 core org apache lucene search spans SpanQuery
ElasticSearch 全文搜索

我尝试在elasticsearch java api 中使用正则表达式运行全文搜索我的过滤器是这样的 FilterBuilder qFilter FilterBuilders regexpFilter all text 但它只匹配一个单词
将 Nutch 爬虫与 Solr 结合使用

我可以将 Apache Nutch 爬虫程序与 Solr 索引服务器集成吗 Edit 我们的一位开发人员从这些帖子中提出了一个解决方案运行 Nutch 和 Solr http wiki apache org nutch RunningNu
Lucene 上打开的文件太多错误

我正在进行的项目是对一定数量的数据长文本建立索引并将它们与每个时间间隔大约 15 到 30 分钟的单词列表进行比较一段时间后比如说第 35 轮在开始索引第 36 轮的新数据集时发生了此错误 ERROR 2011 06 01
使用 Lucene 进行精确短语搜索？

我正在使用 SpanTerm Query 在 lucene 中搜索确切的短语但这似乎不起作用这是我的代码 Indexing IndexWriter writer new IndexWriter dir new StandardAnaly
Lucene 的 StopFilter 中使用的默认停用词列表是什么？

Lucene 有一个默认的 stopfilter http lucene apache org core 4 0 0 analyzers common org apache lucene analysis core StopFilter h
Lucene 3 上的“令牌”列表

我是 Lucene 的新手我开始学习版本 3 分支但有一件事我不明白显然是因为我在该主题上没有经验在 Lucene 2 9 中如果我想要一个令牌列表我会创建一个 Token 类的 ArrayList 例如 ArrayList 这
Solr 中的多值字段排序

我有一个 Solr 索引将每个产品的价格存储在多值字段中我需要按价格对结果集进行排序其中价格从低到高从高到低我尝试对价格进行排序它显示错误您无法对 multivalued True 字段进行排序下面是我的 solr XML
Elasticsearch 中的嵌套与对象

有人可以解释 Elasticsearch 文档中对象和嵌套字段之间的区别吗我知道默认情况下字段被定义为对象我还知道我可以用这样的点访问对象字段 my field name my field title 等对象的文档 http
如何判断lucene索引版本？

我正在编写一个 shell 脚本 csh 它必须确定 lucene 索引版本然后根据该版本将索引升级到下一个版本所以如果 lucene 索引是 2 x 我必须将索引升级到 3 x 最后索引需要升级到6 x 由于升级索引是一个顺序过程
apache solr：group by 产生的数据总和

我们有一个要求需要按特定字段对记录进行分组并获取相应数字字段的总和前任 select userid sum click count from user action group by userid 我们尝试使用 apache solr
Lucene外来字符问题

我在使用 Zend Lucene 和等外来字符时遇到了一些严重的问题这些问题在创建索引和查询索引时都会出现我已经尝试过 iso 8859 1 和 utf 8 ISO 8859 1 不起作用的查询看起来像 area sk ne 使用 Z
我们可以同时使用拼音标记和同义词吗？

我正在尝试同时启用语音分析器和同义词这似乎不起作用它们一起使用有错吗在下面的实现中我希望使用同义词转换搜索查询然后使用语音分析器来检索结果但我的同义词在这里完全被忽略了如果我在创建索引时删除语音分析器那么同义词就可以正常工作
cursorMark是无状态的以及它如何解决深度分页

作为指定here https cwiki apache org confluence display solr Pagination of Results光标标记是无状态的但我不明白它是如何解决无状态的深度分页问题的 solr 是否按唯一
如何使用 lucene 查询找到空的 Solr 文档字段

我有一些这样的文件
Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行运行了一些测试查询并注意到如果原始术语是单数则复数查询不会返回结果我知道雪球分析器增加了词干支持这听起来不错不过我想知道超过标准的雪球锣是否有任何
Elasticsearch 与 Cassandra 对比 Elasticsearch 与 Cassandra

我正在学习 NoSQL 并正在寻找满足客户要求之一的不同选项在提出这个问题之前我已经查阅了各种资源一个对NoSQL知之甚少的人我需要以更快的速度存储数据并读取数据完全故障安全且易于扩展能够搜索数据进行分析我最终得到了一个简短的清
使用条件查询限制加入休眠搜索查询

我想知道您如何将以下两个查询连接在一起标准条件查询 Criteria result1 session createCriteria Store class add Restrictions eq department name categ

随机推荐

有没有办法将数字转换为整数？

我需要转换one into 1 two into 2等等有没有办法通过图书馆或课程或其他东西来做到这一点此代码的大部分内容是设置 numwords 字典这仅在第一次调用时完成 def text2int textnum numwords
Selenium IDE - 记录右键单击

我使用 Selenium IDE 为我的网络应用程序进行记录测试 Selenium IDE 无法识别我的 div 中的右键单击我已经自定义了我的 div 上的右键单击我想测试相关功能谁能帮我 Thanks Tommaso 使用 con
PHP eval(array_as_string) 返回 null

arr eval array foo gt bar returns null var dump arr 有人可以解释一下为什么我得到的是 null 而不是数组吗你需要return数组来自docs eval 回报NULL unless r
编写将一行输入作为字符串读取并打印字符串中所有元音的位置的程序

我是 Java 初学者我有一个问题loops 我一直在努力完成这个任务它说编写将一行输入读取为string并打印positions of all vowels在字符串中我已经设法打印出输入中的元音数量但在打印它们的位置时我遇到了困
如何在Linux中创建隐藏文件？

在我的程序中我必须隐藏一个文件以避免删除或修改该文件 PATH etc NAME file C 中有一个函数可以让我做到这一点吗您只需添加一个到文件名的前面话虽如此如果您的目标是不允许修改文件请将权限更改为无法修改的内容就像是
JanusGraph .net C#

嘿谁能帮我弄清楚如何使用 C JanusGraph net 连接到托管多个图形的远程 JanusGraph 服务器并查询特定图形按图形名称我可以连接到服务器但无法查询特定图表 var c JanusGraph Net JanusGr
请求 Windows 中 Python 函数的管理员访问权限

我想将文件列表复制到 Windows 系统目录 C Windows 使用Python函数我有一个功能 import shutil def copy list src list dst for file in src list shutil
spring-boot 中存在多个 WebSecurityConfigurerAdapter 的问题

我正在使用 spring boot 1 5 10 和 spring boot starter security 在我的微服务中我将 API 暴露给外部世界和内部微服务所以我想要2种安全性一个用于外部呼叫另一个用于内部呼叫我已经提到
如何附加到文件？

如何附加到文件而不是覆盖它将模式设置为open to a 附加而不是 w 写 with open test txt a as myfile myfile write appended text The 文档列出所有可用模式
ListView 的 ItemsPanelTemplate 明显错误地抛出异常

我创建了一个用户控件其中包含带有自定义 ItemsPanelTemplate 的 ListView
在 for 循环中返回 C

在下面的代码中会返回什么吗 include
为什么内联块元素的边距会影响同级内联块元素

我不明白为什么margin top of the
-[UIViewController _keyboard]：无法识别的选择器发送到实例 0x7b731ac0

我正在编写一个应用程序其中包含一个 MainViewController 内的 3 个 viewController 其中之一是通过故事板控制并显示广告另外两个 viewController 正在显示信息根据按下的菜单按钮和要呈现的视
R中的“累积差异”函数

是否有一个预先存在的函数来计算连续值之间的累积差异上下文这是为了估计一个人在旅程中必须在两个方向上经历的高度变化自行车街网可重现的例子 x lt c 27 24 24 27 28 create the data 方法一 for循环 f
通过python将.mat文件扩展名图像转换为.jpg

我目前正在尝试将图像从 mat文件至 jpg从该网站下载的文件脑肿瘤数据集该目录中包含的所有文件都是 mat文件现在我想转换中的所有文件 jpg通过 python 格式化通过 CNN 制作项目使用深度神经网络进行脑肿瘤分类我在谷
是否可以在 AppsScript 的脚本编辑器中使用自动完成功能来处理自定义类？

如果我在 AppScript 中构造一个类并添加一个方法当我在该类的实例后键入句点时是否可以使用自动完成功能谷歌的文档说如果您希望库用户使用脚本编辑器自动完成功能和自动生成的文档则您的所有函数都必须有 JSDoc 风格的文档我不
在 Firefox 中启用自定义元素

如何在 Firefox 31 32 中启用自定义元素根据我们已经组件化了吗有正在进行的支持但我看不到它谷歌搜索也没有帮助经过一些实验在 Firefox 中使用正在进行的 Web 组件支持的方法似乎是导航到about confi
更新 mongodb 中嵌套数组文档中的第 n 个文档

我需要更新 Mongodb 中另一个文档内的数组中的文档 id ObjectId 51cff693d342704b5047e6d8 author test body sdfkj dsfhk asdfjad comments author t
Python selenium 无法选择下拉菜单[重复]

这个问题在这里已经有答案了我试图从下拉菜单中选择一个选项然后单击搜索但无法获取选择标签我正在抓取的 HTML 如下
分析 Lucene 文档字段标记后如何读取它们？

如果我创建一个文档并添加一个既存储又分析的字段那么我如何将该字段作为标记列表读回我有以下内容 Document doc new Document doc add new Field url fileName Store YES Inde

分析 Lucene 文档字段标记后如何读取它们？

分析 Lucene 文档字段标记后如何读取它们？ 的相关文章

随机推荐

热门标签

分析 Lucene 文档字段标记后如何读取它们？的相关文章