Lucene 4.0 中的术语频率

2024-05-21

尝试使用 Lucene 4.0 计算词频。我的文档频率工作得很好，但不知道如何使用 API 来执行术语频率。这是我的代码：

private static void addDoc(IndexWriter writer, String content) throws IOException {
    FieldType fieldType = new FieldType();
    fieldType.setStoreTermVectors(true);
    fieldType.setStoreTermVectorPositions(true);
    fieldType.setIndexed(true);
    fieldType.setIndexOptions(IndexOptions.DOCS_AND_FREQS);
    fieldType.setStored(true);
    Document doc = new Document();
    doc.add(new Field("content", content, fieldType));
    writer.addDocument(doc);
}

public static void main(String[] args) throws IOException, ParseException {
    Directory directory = new RAMDirectory();  
    Analyzer analyzer = new WhitespaceAnalyzer(Version.LUCENE_40);
    IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_40, analyzer);
    IndexWriter writer = new IndexWriter(directory, config);
    addDoc(writer, "Lucene is stupid");
    addDoc(writer, "Java is great");
    writer.close();
    IndexReader reader = DirectoryReader.open(directory);
    System.out.println(reader.docFreq(new Term("content", "Lucene")));
    reader.close();
}

我尝试过做类似的事情reader.getTermVector(0, "content")...但找不到一种方法来获取该文档中特定术语的频率。

Thanks!

K，明白了。你可以获得一个DocsEnum对象来自MultiFields，然后迭代它。

private static void addDoc(IndexWriter writer, String content) throws IOException {
    FieldType fieldType = new FieldType();
    fieldType.setStoreTermVectors(true);
    fieldType.setStoreTermVectorPositions(true);
    fieldType.setIndexed(true);
    fieldType.setIndexOptions(IndexOptions.DOCS_AND_FREQS);
    fieldType.setStored(true);
    Document doc = new Document();
    doc.add(new Field("content", content, fieldType));
    writer.addDocument(doc);
}

public static void main(String[] args) throws IOException, ParseException {
    Directory directory = new RAMDirectory();  
    Analyzer analyzer = new WhitespaceAnalyzer(Version.LUCENE_40);
    IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_40, analyzer);
    IndexWriter writer = new IndexWriter(directory, config);
    addDoc(writer, "bla bla bla bleu bleu");
    addDoc(writer, "bla bla bla bla");
    writer.close();
    DirectoryReader reader = DirectoryReader.open(directory);
    DocsEnum de = MultiFields.getTermDocsEnum(reader, MultiFields.getLiveDocs(reader), "content", new BytesRef("bla"));
    int doc;
    while((doc = de.nextDoc()) != DocsEnum.NO_MORE_DOCS) {
          System.out.println(de.freq());
    }
    reader.close();
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Lucene

Lucene 4.0 中的术语频率的相关文章

行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
从通用对象访问字段变量

我有两节课ClassOne and ClassTwo 更新公共字段data i e public class ClassOne public byte data new byte 10 Thread that updates data an
MySQL 和 Hibernate 之间的主键自增由谁负责？

MySQL CREATE TABLE role id role INT 11 unsigned NOT NULL AUTO INCREMENT PRIMARY KEY id role AUTO INCREMENT 1 休眠 Entity p
Spring Security 中 Web 忽略和 Http 允许之间的区别？

这两种方法有什么区别 Override protected void configure HttpSecurity http throws Exception http authorizeRequests antMatchers api p
“错误：无法找到或加载主类 org.apache.hadoop.util.RunJar”是什么意思？

我正在尝试运行一个示例因为它指出 Hadoop 实践一书 http www manning com lam 第 15 页这是需要运行的命令 bin hadoop jar hadoop examples jar 但我收到这个错误 Err
在 Java 中对多语言环境字符串进行排序

我正在尝试按字符串字段国家地区对对象列表进行排序每个国家地区都使用其母语阿根廷澳大利亚奥地利例如我想要做的是让出现在 A 国家之后因为字母对应于拉丁语 B 我正在尝试使用默认的 Collat er 但非拉丁名称仍然
Java 应用程序可以检测到调试器已连接吗？

我知道 jvm 启动选项可以让 jvm 等待附加调试器这不是我在这里的意思是否有可能从 Java 代码中也检测调试器的附件以便我可以例如编写一个正在执行某些操作的脚本然后在某个时刻让我的应用程序等待调试器不会这些选项是 JVM
Java 正则表达式中 \w 和 \b 的 Unicode 等效项？

许多现代正则表达式实现解释 w字符类简写为任何字母数字或连接标点符号通常下划线这样正则表达式就像 w 匹配像这样的词hello l ve GO 432 or gefr ig 不幸的是 Java 没有在爪哇 w仅限于 A Za
从 Java 中的泛型类型推断泛型类型（编译时错误）

我有一个带有以下泛型类型签名的静态函数T public static
如何在首次运行时填充大型 SQLite 数据库

我正在开发一个基于 SQLite 数据库的字典应用程序该数据库包含超过 300 000 行问题在于最终形式的数据库文件由全文索引表组成并且重量远远超过150Mb 我通过创建无内容的 fts4 表设法将 db 文件大小降至最低数据库
Java 相当于 C# 的 async/await？

我是一名普通的 C 开发人员但偶尔也会使用 Java 开发应用程序我想知道 Java 中是否有相当于 C async await 的东西简单来说 java 相当于 async Task
如何在使用 Web 服务时获取会话对象？

如何在使用 Web 服务时获取会话对象服务在两个程序之间调用如何在使用 Web 服务时获取用户会话对象不可能使用请求对象获取会话因为当我们谈论服务时不会有请求或响应如果您正在与JAX WS https jax ws dev jav
使用 TestRestTemplate 和 MockRestServiceServer 时，解析异常而不是实体列表不起作用

我有一个简单的控制器 CODE https github com joergi tryouts blob main kotlin mockrestserver src main kotlin io joergi kotlinmockrest
使用电子邮件、用户名和密码进行 Firebase 身份验证

我想知道是否可以使用电子邮件和用户 ID 密码登录我有一个项目我希望用户添加一个唯一的号码实际上是我们公司提供的工作识别号码以便能够签名参与该计划的人员将继续留在公司就业即使电子邮件和密码正确但用户 ID 错误我也需要 fire
Spring Boot 中的外部化配置，多个应用程序在同一容器中运行

我正在构建多个 Spring Boot 应用程序这些应用程序将部署在同一个 servlet 容器上但我很难让 Spring Boot 按照我想要的方式使用外部化配置文件而不是像框架想要的那样情况多个 Spring Boot 应用程
在java中的super调用之前创建一个对象

考虑到简单的java代码是行不通的 public class Bar extends AbstractBar private final Foo foo new Foo bar public Bar super foo 我需要在之前创建一个
从流中过滤/删除无效的 xml 字符

首先我无法更改 xml 的输出它是由第三方生成的他们在 xml 中插入无效字符我得到了 xml 字节流表示形式的 InputStream 除了将流消耗到字符串中并对其进行处理之外是否有一种更干净的方法来过滤掉有问题的字符我找到了
在Android中创建自定义按钮类

我正在尝试为我的 Android 应用程序创建自定义按钮类 public class TicTacButton extends Button 我已经在里面设置了所有构造函数TicTacButton并创建了自定义方法和属性在我的主要活动中
Eclipse IDE - 错误：构建路径指定执行环境 Java SE 1.7

在 Eclipse 中我收到一个错误构建路径指定执行环境Java SE 1 7 工作区中没有安装与此环境严格兼容的 JRE 尝试这个 In Eclipse your project gt properties gt java build
无法使用 Struts 2 重定向 JSP 文件并显示值

我创建了一个简单的程序使用文本字段获取用户的名字和姓氏但问题是当我单击提交按钮时我无法将其重定向到另一个显示用户名字和姓氏的 jsp 文件这是我的HelloAction class package com novamsc trai

随机推荐

has_many 关系中的 Active Record 对象何时保存？

我正在使用 Rails 1 2 3 是的我知道并且对如何使用感到困惑has many适用于对象持久性为了举例我将使用它作为我的声明 class User lt ActiveRecord Base has many assignmen
'numpy.float64'对象没有属性'translate'在Python中将值插入Mysql

import dataset db dataset connect table db 当我尝试向 Mysql 表中插入一些值时发生了此错误我插入表中的示例值 print Buy ticker price date OType OSize
在代码中旋转按钮（或其中的文本）

我必须通过编码随机旋转按钮或里面的文本它是相同的 API级别低于11是否有button setRotate x 好吧看了一下答案是很复杂您可以使用旧的动画框架旋转按钮例如像这样 Button button Button fin
运行“npm install”：Node-gyp 错误 - MSBUILD.exe 失败，退出代码：1

我在跑npm install在 Windows 上安装我的项目中的所有软件包然后我收到有关 MSBUILD exe 的错误 gyp ERR stack Error C Program Files x86 Microsoft Visual
php exec 返回的结果比直接进入命令行要少

我有一个 exec 命令它的行为与通过 Penguinet 给 linux 的相同命令不同 res exec cd mnt mydirectory zcat log file gz echo res 当将命令直接放入命令行时我在日志文件
限制分页页数

objConnect mysql connect localhost root or die mysql error objDB mysql select db Test strSQL SELECT FROM UserAddedRecord
如何减去两个 gettimeofday 实例？

我想减去两个 gettimeofday 实例并以毫秒为单位给出答案这个想法是 static struct timeval tv gettimeofday tv NULL static struct timeval tv2 gettime
导航组件参数默认值

在导航组件中将参数从第一个片段发送到第二个片段时默认值不会从导航图中获取哪个集合这是我的代码导航图 xml
如何使用 Cucumber 和 Rspec 测试 Rails 3 引擎？

如果这个问题有点主观我深表歉意我正在尝试找出使用 Cucumber 和 Rspec 测试 Rails 3 引擎的最佳方法为了测试引擎需要 Rails 3 应用程序这是我目前正在做的事情通过运行以下命令将 Rails 测试应用程序
如何使用 HTML5 + Javascript 或服务器端语言仅裁剪某些区域？

在提出我的问题之前我有一个测试页以便每个人都能更好地理解我的问题网址是http iamthemoon com crop http iamthemoon com crop 您可以移动红色选区我喜欢只裁剪红色选区的区域我认为这可以在
Tensorflow 对 Python3.11 的支持

我在 Windows10 PC 上安装了 Python3 11 0 尝试使用以下命令安装张量流 pip install tensorflow 给出错误访问tensorflow网站后我意识到它仅支持3 7 3 10 我应该降级 pytho
heroku 上的 bitbucket 私有存储库

我有一个需要 gem 的 Rails 应用程序我将这个 gem 托管在私有存储库的 bitbucket 上在我的 Gemfile 中我添加了 gem 如下所示 gem my gem git gt gi email protected
Bootstrap 4 具有 d-flex 类的列表项不响应 .hide()？

当我添加课程时d flex我的引导程序 4 ul 列表项不响应 hide 不再尽管style display none 被添加到 DOM 中 The d flex用于Bootstrap 4 列表徽章 https getbootstrap
如何在 Laravel 5 中的视图模板上显示会话数据

我正在尝试在 Laravel 5 中的视图模板上显示会话数据但是它似乎没有显示任何内容这是我用来设置会话的代码 Session set bookingConfirmed BookingDates where id Session get
使用操作按钮在闪亮的 R 中添加包含现有数据框的新行

我正在构建一个闪亮的表单它将从 textInput 字段获取数据并将这些输入与文本文件将通过文件输入上传组合起来并在主面板中显示输出有一个操作按钮用于第一次更新数据从文本输入中获取数据并与处理后的文本文件合并我添加了另一个操
寻找 HttpServletResponseWrapper 的捕获实现

JavaEE API 附带了 HttpServletResponseWrapper 引用 javadoc 的话提供了 HttpServletResponse 接口的便捷实现希望适应 Servlet 响应的开发人员可以对其进行子类化如果
创建一个包含 UIViewController 的 UIViewController

我有一个UIViewController这允许我在视图中显示一些文本我想添加一个输入法而不将其直接添加到此视图控制器中此输入法将是一个按钮或一个UITextField 这个输入法会很多但是每次都会用一个从设置中选择它所以我不会有一
使用 Windows 网络共享目录时 Hg 存储库损坏

我希望我能在这里得到一些帮助因为 SO UX 比 Mercurial 邮件列表更好多年来我一直在家里愉快地使用 Mercurial 我还将它与 Bitbucket Cloud 一起用于一些更严肃但仍然是爱好的项目去年我将我的团队
“以管理员身份运行”时的 Windows 批处理文件起始目录

我有一个位于目录中的批处理文件也必须从那里运行因为它会更新该目录中的文件这工作得很好除非用户以管理员身份运行批处理文件 Vista 上需要那么起始目录是C Windows System32 有什么办法仍然能够知道批处理文件是从哪个
Lucene 4.0 中的术语频率

尝试使用 Lucene 4 0 计算词频我的文档频率工作得很好但不知道如何使用 API 来执行术语频率这是我的代码 private static void addDoc IndexWriter writer String conten

Lucene 4.0 中的术语频率

Lucene 4.0 中的术语频率 的相关文章

随机推荐

热门标签

Lucene 4.0 中的术语频率的相关文章