如何从 Lucene TokenStream 获取 Token？

2023-11-22

我正在尝试使用 Apache Lucene 进行标记化，但我对从某个地方获取标记的过程感到困惑TokenStream.

最糟糕的是我正在查看 JavaDocs 中解决我的问题的评论。

http://lucene.apache.org/java/3_0_1/api/core/org/apache/lucene/analysis/TokenStream.html#incrementToken%28%29

不知何故，一个AttributeSource应该使用，而不是Tokens。我完全不知所措。

谁能解释如何从 TokenStream 获取类似令牌的信息？

是的，这有点复杂（与好的方式相比），但这应该可以做到：

TokenStream tokenStream = analyzer.tokenStream(fieldName, reader);
OffsetAttribute offsetAttribute = tokenStream.getAttribute(OffsetAttribute.class);
TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);

while (tokenStream.incrementToken()) {
    int startOffset = offsetAttribute.startOffset();
    int endOffset = offsetAttribute.endOffset();
    String term = termAttribute.term();
}

编辑：new way

根据多诺泰罗的说法，TermAttribute已被弃用，取而代之的是CharTermAttribute。根据 jpountz （和 Lucene 的文档），addAttribute比getAttribute.

TokenStream tokenStream = analyzer.tokenStream(fieldName, reader);
OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);
CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);

tokenStream.reset();
while (tokenStream.incrementToken()) {
    int startOffset = offsetAttribute.startOffset();
    int endOffset = offsetAttribute.endOffset();
    String term = charTermAttribute.toString();
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

attributes

Lucene

Token

tokenize

如何从 Lucene TokenStream 获取 Token？的相关文章

如何使用 Apache POI API 将图像添加到 pptx 中添加的图像占位符？

我已经预定义了带有文本和图像占位符的 pptx 模板我如何从模板访问和修改这些占位符我可以使用 POI pptx API 直接将图像和文本添加到幻灯片中但如何将其添加到模板的占位符中请参阅链接以了解如何添加占位符来创建固定模板 ht
Hibernate注解放置问题

我有一个我认为很简单的问题我见过两种方式的例子问题是为什么我不能将注释放在字段上让我举一个例子 Entity Table name widget public class Widget private Integer id Id G
使用 JPA Criteria API 进行分页的总行数

我正在系统中为实体实现高级搜索功能以便用户可以使用该实体的属性上的多个条件 eq ne gt lt 等来搜索该实体我正在使用 JPA 的 Criteria API 动态生成 Criteria 查询然后使用setFirstResu
Java AES 128 加密方式与 openssl 不同

我们遇到了一种奇怪的情况即我们在 Java 中使用的加密方法会向 openssl 生成不同的输出尽管它们在配置上看起来相同使用相同的键和 IV 文本敏捷的棕色狐狸跳过了懒狗加密为 Base64 字符串 openssl A8cMRI
如何在不超过最大值的情况下增加变量？

我正在为学校开发一个简单的视频游戏程序我创建了一个方法如果调用该方法玩家将获得 15 点生命值我必须将生命值保持在最大值 100 并且由于我目前的编程能力有限我正在做这样的事情 public void getHealed if h
我需要什么库才能在 Java 中访问这个 com.sun.image.codec.jpeg？

我正在用java创建一个图像水印程序并导入了以下内容 import com sun image codec jpeg JPEGCodec import com sun image codec jpeg JPEGEncodeParam im
我可以使用子接口重新编译公共 API 并保持二进制兼容性吗？

我有一个公共 API 在多个项目中多次使用 public interface Process
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
Calendar.getInstance(TimeZone.getTimeZone("UTC")) 不返回 UTC 时间

我对得到的结果真的很困惑Calendar getInstance TimeZone getTimeZone UTC 方法调用它返回 IST 时间这是我使用的代码 Calendar cal Two Calendar getInstance
如何在 C++ 中标记字符串？

Java有一个方便的分割方法 String str The quick brown fox String results str split 在 C 中是否有一种简单的方法可以做到这一点 The 增强分词器 http www boost o
将 SignedHash 插入 PDF 中以进行外部签名过程 -workingSample

遵循电子书第 4 3 3 节 PDF 文档的数字签名 https jira nuxeo com secure attachment 49931 digitalsignatures20130304 pdf 我正在尝试创建一个工作示例其中客
使用 SQLITE 按最近的纬度和经度坐标排序

我必须获得一个 SQLite SQL 语句以便在给定初始位置的情况下按最近的纬度和经度坐标进行排序这是我在 sqlite 数据库中的表的例句 SELECT id name lat lng FROM items EXAMPLE RESUL
普罗米修斯指标 - 未找到

我有 Spring Boot 应用程序并且正在使用 vertx 我想监控服务和 jvm 为此我选择了 Prometheus 这是我的监控配置类 Configuration public class MonitoringConfig Bea
在 Spring 中重构这个的最佳方法？

private final ExecutorService executorParsers Executors newFixedThreadPool 10 public void parse List
我可以创建自定义 java.* 包吗？

我可以创建一个与预定义包同名的自己的包吗在Java中比如java lang 如果是这样结果会怎样这难道不能让我访问该包的受保护的成员如果不是是什么阻止我这样做 No java lang被禁止安全管理器不允许自定义类java
游戏内的java.awt.Robot？

我正在尝试使用下面的代码来模拟击键当我打开记事本时它工作正常但当我打开我想使用它的游戏时它没有执行任何操作所以按键似乎不起作用我尝试模拟鼠标移动和点击这些动作确实有效有谁知道如何解决这个问题我发现这个问题如何在游戏中使用
HQL Hibernate 内连接

我怎样才能在 Hibernate 中编写这个 SQL 查询我想使用 Hibernate 来创建查询而不是创建数据库 SELECT FROM Employee e INNER JOIN Team t ON e Id team t Id t
将 Azure AD 高级自定义角色与 Spring Security 结合使用以进行基于角色的访问

我创建了一个演示 Spring Boot 应用程序我想在其中使用 AD 身份验证和授权并使用 AD 和 Spring Security 查看 Azure 文档我执行了以下操作 package com myapp contactdb c
Java中的Object类是什么？

什么是或什么类型private Object obj Object http download oracle com javase 6 docs api java lang Object html是Java继承层次结构中每个类的最终祖先从
ServletContainer 类未找到异常

我无法再编译我的球衣项目并且出现以下异常 GRAVE Servlet Project API threw load exception java lang ClassNotFoundException com sun jersey spi

随机推荐

python 获取调用函数的当前变量

def foo a 1 b 2 dir prints a b bar der bar foo pointer print dir foo pointer should print a b 我试图使用bar sys modules name
Matplotlib 动画在 PyCharm 中不起作用

我发现了各种使用 matplotlib 生成动画的短文件一般来说它们在从命令行运行时工作正常但在 PyCharm 中我只能得到一个静止帧我问同样的问题Matplotlib 在 IDE PyCharm 中使用时不会更新绘图那里发布了
WPF - FlowDocument - 将表拉伸到整个宽度？

我有一个包含任意数量的列和行的数据表我正在尝试打印它们到目前为止我所拥有的最好的运气是将数据放入表中然后将该表添加到 FlowDocument 中到目前为止一切都很好我现在遇到的问题是表格只想要占据文档宽度的大约一半我已
C语言中变量名是如何存储的？

我想问C中的变量是如何存储在C中的为了更清楚请考虑以下代码 int main int a 1 b b a 2 return 0 例如这里的内存 C 存储变量位置的名称 eg if a 0x12A7 认为 b 0x123B1 那么如何以
将文件转换为 Base64 函数输出

Public Function ConvertFileToBase64 ByVal fileName As String As String Dim ReturnValue As String If My Computer FileSyst
如何清除 pyqt QTableWidget？

我想清除我的 QTableWidget 首先我在 qcombobox 中选择一个用户然后单击 qpushbutton 并从数据库记录中填充它当我选择其他用户并单击 qpushbutton 添加数据时我尝试使用以下方法清除 self
裁剪 UIImage

我有一些调整图像大小的代码这样我就可以获得图像中心的缩放块我用它来拍摄UIImage并返回图像的小方形表示类似于照片应用程序的相册视图中看到的内容我知道我可以使用UIImageView并调整裁剪模式以达到相同的结果但这些图像有时会
在主线程中运行代码

这与许多问题相似但不是rly 我需要类似的东西BeginInvoke适用于 Winforms 但不仅仅适用于 winforms 所以我需要单一方法适用于任何类型的应用程序所以我打电话 void ExecuteInMainContext
cpp 空数组声明

你好我有以下测试代码我对 cpp 感到困惑如果你在library h中声明一个带有空元素子句的数组编译器会选择什么它也没有抱怨我使用 Cygwin 在library cpp中我将值分配给两个元素编译器是否假设一个包含一个元素
Nullable DateTimes 和 AddDays() 扩展

我有一个日期时间变量可以为 null 或日期时间我认为可以为 null 的 DateTime 类型可以工作但我收到一条错误消息告诉我说 Nullable
为整个应用程序应用圆角

如何实现应用于整个视图的圆角如屏幕截图所示请注意导航栏和键盘角都是圆角的我尝试过设置cornerRadius 10 and masksToBounds YES对彼此而言window layer and window rootView
Django - 导入错误：没有名为 *.urls 的模块

我正在努力通过官方 Django 教程并使用 Django 版本 1 6 1 Python 2 7 6 稍微调整以满足我自己的需要我现在正在映射 URL 但当很明显有一个模块内有一个适当命名的文件时我总是收到没有名为customers
使用带有回调函数的 array_filter 删除空数组元素

我正在尝试使用函数 array filter 删除数组中的空元素当我使用这样的外部回调时 function callback a return empty a arr array abc ghi res array filter arr
将实时摄像头视图嵌入 UIView 中

我一直在尝试找出如何在 iPhone 中嵌入一个小型实时摄像头视图UIView无济于事我什至无法在网上找到任何样本我知道这是可行的但我什至不知道从哪里开始似乎有很多例子表明其他人已将视图添加到相机的完整屏幕视图中但反之则不然看起
在 WPF 中制作图表的最佳方法是什么？（或者一般来说这也适用于 WPF）

所以我正在 WPF 中制作一个软件我希望能够根据我存储的数据制作图表只是带有 x 和 y 轴的线图理想情况下我希望它们具有优雅简洁的风格我知道 WPF 没有附带图表并且我在 WinForms 项目中尝试过 ZedGraph 但
如何向现有 CSS 类添加新规则

在下面的代码中我已经说明了我想要实现的目标通过向现有 CSS 类添加新规则来更改它 h4 hello h4 这是针对在不同尺寸的屏幕上运行的站点的预处理
Fortran 中等级（形状）未知的子例程参数

我想知道如何在 Fortran 中最好地处理采用未知等级参数的子例程例如 Real 8 array1 2 2 array2 2 2 3 call mysubroutine array1 call mysubroutine array2 就
如何使用命令提示符运行C程序[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心如果 c 文件的位置与默认位置不同如何在安装了代码块
从函数返回未来值

我最近开始学习 Rust 我不确定如何从应该返回 Result 的函数返回未来值当我尝试仅返回响应变量并删除结果输出时出现错误不能使用返回的函数中的运算符std string String tokio main async fn d
如何从 Lucene TokenStream 获取 Token？

我正在尝试使用 Apache Lucene 进行标记化但我对从某个地方获取标记的过程感到困惑TokenStream 最糟糕的是我正在查看 JavaDocs 中解决我的问题的评论 http lucene apache org java 3

如何从 Lucene TokenStream 获取 Token？

编辑：new way

如何从 Lucene TokenStream 获取 Token？ 的相关文章

随机推荐

热门标签

如何从 Lucene TokenStream 获取 Token？的相关文章