在 Lucene 中使用 WikipediaTokenizer 的示例

2023-12-10

我想在 lucene 项目中使用 WikipediaTokenizer -http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html但我从来没有用过lucene。我只想将维基百科字符串转换为标记列表。但是，我看到这个类中只有四个方法可用，end、incrementToken、reset、reset(reader)。有人可以给我举一个使用它的例子吗？

谢谢。

在 Lucene 3.0 中，next() 方法被删除。现在您应该使用incrementToken 来迭代标记，当您到达输入流末尾时它会返回false。要获取每个令牌，您应该使用属性源班级。根据您想要获取的属性（术语、类型、有效负载等），您需要使用 addAttribute 方法将相应属性的类类型添加到标记生成器中。

以下部分代码示例来自 WikipediaTokenizer 的测试类，如果您下载 Lucene 的源代码，您可以找到它。

...
WikipediaTokenizer tf = new WikipediaTokenizer(new StringReader(test));
int count = 0;
int numItalics = 0;
int numBoldItalics = 0;
int numCategory = 0;
int numCitation = 0;
TermAttribute termAtt = tf.addAttribute(TermAttribute.class);
TypeAttribute typeAtt = tf.addAttribute(TypeAttribute.class);

while (tf.incrementToken()) {
  String tokText = termAtt.term();
  //System.out.println("Text: " + tokText + " Type: " + token.type());
  String expectedType = (String) tcm.get(tokText);
  assertTrue("expectedType is null and it shouldn't be for: " + tf.toString(), expectedType != null);
  assertTrue(typeAtt.type() + " is not equal to " + expectedType + " for " + tf.toString(), typeAtt.type().equals(expectedType) == true);
  count++;
  if (typeAtt.type().equals(WikipediaTokenizer.ITALICS)  == true){
    numItalics++;
  } else if (typeAtt.type().equals(WikipediaTokenizer.BOLD_ITALICS)  == true){
    numBoldItalics++;
  } else if (typeAtt.type().equals(WikipediaTokenizer.CATEGORY)  == true){
    numCategory++;
  }
  else if (typeAtt.type().equals(WikipediaTokenizer.CITATION)  == true){
    numCitation++;
  }
}
...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Lucene 中使用 WikipediaTokenizer 的示例的相关文章

如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
使用 JPA Criteria API 进行分页的总行数

我正在系统中为实体实现高级搜索功能以便用户可以使用该实体的属性上的多个条件 eq ne gt lt 等来搜索该实体我正在使用 JPA 的 Criteria API 动态生成 Criteria 查询然后使用setFirstResu
是什么决定了从 lambda 创建哪个函数式接口？

请考虑这个例子 import java util function Consumer public class Example public static void main String args Example example new
这个函数（for循环）空间复杂度是O(1)还是O(n)？

public void check 10 for string i list Integer a hashtable get i if a gt 10 hashtable remove i 这是 O 1 还是 O n 我猜测 O n 但不是
SAML 服务提供商 Spring Security

当使用预先配置的服务提供者元数据时在 Spring Security 中是否应该有 2 个用于扩展元数据委托的 bean 定义一份用于 IDP 元数据一份用于 SP 元数据
Java：如何从转义的 URL 获取文件？

我收到了一个定位本地文件的 URL 事实上我收到的 URL 不在我的控制范围内 URL 按照 RFC2396 中的定义进行有效转义如何将其转换为 Java File 对象有趣的是 URL getFile 方法返回一个字符串而不是文件
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
wait() 在游戏中如何工作？

在 playframework 的文档中here http www playframework org documentation 1 2 1 asynchronous已写 public static void loopWithoutBlo
JavaFX 中具有自定义内容的 ListView

How i can make custom ListView with JavaFx for my app I need HBox with image and 2 Labels for each line listView 您可以通过查看
如何在不超过最大值的情况下增加变量？

我正在为学校开发一个简单的视频游戏程序我创建了一个方法如果调用该方法玩家将获得 15 点生命值我必须将生命值保持在最大值 100 并且由于我目前的编程能力有限我正在做这样的事情 public void getHealed if h
如何安全地解决这个 Java 上下文类加载器问题？

我的数百名用户中只有一位在启动我的 Java 桌面应用程序时遇到问题他只有大约三分之一的时间开始另外三分之二的时间在启动时抛出 NullPointerException Exception in thread AWT EventQueu
我需要什么库才能在 Java 中访问这个 com.sun.image.codec.jpeg？

我正在用java创建一个图像水印程序并导入了以下内容 import com sun image codec jpeg JPEGCodec import com sun image codec jpeg JPEGEncodeParam im
hibernate锁等待超时超时；

我正在使用 Hibernate 尝试模拟对数据库中同一行的 2 个并发更新编辑我将 em1 getTransaction commit 移至 em1 flush 之后我没有收到任何 StaleObjectException 两个事务已成
如何使用 Maven 打包并运行具有依赖项的简单命令行应用程序？

我对 java 和 Maven 都是全新的所以这可能非常简单如果我遵循maven2hello world此处的说明 http maven apache org guides getting started maven in Five m
使用 SQLITE 按最近的纬度和经度坐标排序

我必须获得一个 SQLite SQL 语句以便在给定初始位置的情况下按最近的纬度和经度坐标进行排序这是我在 sqlite 数据库中的表的例句 SELECT id name lat lng FROM items EXAMPLE RESUL
编辑文件名在 JComboBox 中的显示方式，同时保持对文件的访问

我对 Java 很陌生对堆栈溢出也很陌生我正在尝试利用 JMF API 创建一个用 Java 编码的简单媒体播放器到目前为止我已经能够设置一个简单的队列播放列表来使用JComboBox called playListHolder
Struts 2 + Sitemesh 3 集成 - FreemarkerDecoratorServlet 中的 NPE

我将 Struts 2 版本 2 3 14 3 与 Sitemesh 3 版本 3 0 alpha 2 一起使用并且在某些情况下遇到 NullPointerException 首先这是我的 web xml 中的 struts2 site
Cucumber Java 与 Spring Boot 集成 - Spring @Autowired 抛出 NullPointer 异常

我正在为 Spring boot 应用程序编写 cucumber java 单元测试来测试每个功能当我与 Spring Boot 集成时 Autowired 类抛出 NullPointer 异常 Spring Boot应用程序类 Spri
将 Azure AD 高级自定义角色与 Spring Security 结合使用以进行基于角色的访问

我创建了一个演示 Spring Boot 应用程序我想在其中使用 AD 身份验证和授权并使用 AD 和 Spring Security 查看 Azure 文档我执行了以下操作 package com myapp contactdb c
Java中的Object类是什么？

什么是或什么类型private Object obj Object http download oracle com javase 6 docs api java lang Object html是Java继承层次结构中每个类的最终祖先从

随机推荐

Node.js + Socket.io + Redis 应用程序通过 PM2，内存占用较大

我对 node js 和 socket io 都很陌生但我正在尝试构建一个简单的服务用于侦听 Redis 通知由 PHP 应用程序提供并将它们广播给当前登录连接到套接字的所有用户 io 房间例如站点名称用户用户 ID 我可
Jackrabbit 针对 UUID 运行查询

我正在使用 Jackrabbit 并尝试查询具有 UUID 的现有节点我的代码如下所示问题在于 referenceNode 的 UUID 的格式为 90be246a a17c 445e a5ad 81b064de0bee 并且 Jack
基于Visio数据模型在SQL Server中创建数据库

我在 Visio Professional 2003 中创建了一个数据库模型我知道企业版能够根据Visio中的数据在SQL Server中创建数据库我没有安装 Enterprise 的选项除了一次遍历一个表和关系并从头开始手动创建整个
如何调试“调用者没有权限”

我正在使用 Google Sheets API v4 我已经用一些工作表进行了测试我的代码可以工作但有些则不能我所做的就是交换工作表 ID 我使用这里找到的代码 https developers google com sheets q
原则 2：按字段别名分组（错误：“...”不指向类。）

我收到这个教义查询 select upper substring e name 1 1 first letter from Application Models Exercise e group by first letter order
启动简单 Struts2 应用程序时出现 java.lang.ClassNotFoundException：org.apache.struts2.dispatcher.ng.filter.StrutsPrepareAndExecuteFilter

我正在尝试运行一个简单的 Struts2 应用程序但它总是抛出以下异常 java lang ClassNotFoundException org apache struts2 dispatcher ng filter StrutsPrep
EntityFramework DbContext 生命周期 + Postgres：“操作已在进行中。”

这几天我一直在搞乱以下内容我有一个在 Mono 上运行的 Nancy 应用程序带有带有存储库模式和 UnitOfWork 的 EntityFramework 以及 Postgres Nancy 使用 TinyIoC 作为 IoC 容器
该帐户无权模拟请求的用户

我在尝试访问资源邮箱时收到此错误请任何人帮助我解决这个问题我是 EWS 新手我可以通过OWA Outlook Web应用程序访问资源邮箱但我不是这个邮箱的所有者因为它是共享邮箱 my code ServicePointManag
选择 AD ntSecurityDescriptor 属性作为非管理员

我正在为 Active Directory ACL ACE 开发 SDDL 安全描述符解析器我几乎完成了当我使用管理帐户连接到 LDAP 时一切正常但是当我尝试查询ntSecurityDescriptor作为非管理帐户它不返回任
PHP 获取键在某个范围之间的值

有没有什么有效的方法来获取值关键在范围之间例如我想要一个键为 13 的值或该数组中包含 13 的任何范围如您所见第二个元素的范围是 11 25 所以我应该得到这个值因为11 25还包括13 array array 0 10 gt
Android 版 Javafx 的音频性能（MediaPlayer 和 NativeAudioService）

我使用 JavaFX 创建了一个运行良好的桌面游戏 20000 Java 行由于它是一个游戏实时约束很重要玩家操作的响应时间最终目标是在 Android 上运行该应用程序我几乎已经完成了从PC到Android的 Java代码传输
引用 CSS 文件时，IE 不支持基本元素中的相对路径

我有一个网站使用base tag为相对 URL 设置绝对路径它在我测试过的所有浏览器中运行良好除了 IE 大惊喜根据 IE 对 CSS 文件的请求它似乎没有注意到基本标签它确实承认基本标签以及页面上的其他所有内容为什么会发生这种
pyplot.show() 重新打开旧的 tkinter 对话框

编辑这似乎是 Mac OS 系统上仅限于 Tcl Tk 的问题因此如果您没有这方面的经验这个话题可能没有意义 None
pentaho Spoon/pid：如何每次将文件移动到不同名称的文件夹？

我每个月都会有新的文本文件从中提取数据并进行一些转换在每个月底我需要将这些文件移动到名称为当前日期的文件夹中这意味着目标文件夹的名称每次都不同我之前迈出了一步move files创建一个文件夹其名称为当前日期 exp 2019
将 uint8_t 数据与字符串进行比较

这听起来可能有点奇怪或者问题可能是一个微不足道的问题但在我一生的大部分时间里我都在使用 PHP 编程是的我知道这听起来如何所以当我转向 C 时有些东西对我来说非常陌生由于 php 习惯所以我使用 struct 加载 wav
如何从用户输入中打印单个单词

如何从java中的用户输入中打印出单个单词例子用户输入我们爱妈妈她是最好的该程序假设打印 mom 因为第一个和最后一个字符是相同的我的代码最后没有打印任何内容这是我的代码 Scanner s new Scanner Syste
如何将 javascript (js) Map 传递给 Spring Boot Controller？

我有一个包含键值对的 Java 脚本映射我需要将其发送到 spring boot 控制器例子 var myMap new Map myMap set 1 value1 myMap set 2 value2 我无法在 Spring Boo
如何为暴露多个端口的服务配置 Istio 的虚拟服务？

我有一个暴露多个端口的容器因此为部署配置的 kubernetes 服务如下所示 kind Service apiVersion v1 metadata name myapp labels app myapp spec selector
Angular 2 AOT 不像我的组件中的 moduleId

我该如何解决这个问题据我所知 JIT 需要组件上的 moduleId 来查找模板和样式如果组件有但是 AOT 不使用模块并且在编译 AOT 时会出现找不到名称模块错误我不想检查所有模块并删除 AOT 的 Id 因为我仅使用
在 Lucene 中使用 WikipediaTokenizer 的示例

我想在 lucene 项目中使用 WikipediaTokenizer http lucene apache org java 3 0 2 api contrib wikipedia org apache lucene wikipedia

在 Lucene 中使用 WikipediaTokenizer 的示例

在 Lucene 中使用 WikipediaTokenizer 的示例 的相关文章

随机推荐

热门标签

在 Lucene 中使用 WikipediaTokenizer 的示例的相关文章