使用 Lucene 和 Java 进行分词、删除停用词

2024-02-10

我正在尝试使用 Lucene 从 txt 文件中标记并删除停用词。我有这个：

public String removeStopWords(String string) throws IOException {

Set<String> stopWords = new HashSet<String>();
    stopWords.add("a");
    stopWords.add("an");
    stopWords.add("I");
    stopWords.add("the");

    TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_43, new StringReader(string));
    tokenStream = new StopFilter(Version.LUCENE_43, tokenStream, stopWords);

    StringBuilder sb = new StringBuilder();

    CharTermAttribute token = tokenStream.getAttribute(CharTermAttribute.class);
    while (tokenStream.incrementToken()) {
        if (sb.length() > 0) {
            sb.append(" ");
        }
        sb.append(token.toString());
    System.out.println(sb);    
    }
    return sb.toString();
}}

我的主要看起来像这样：

    String file = "..../datatest.txt";

    TestFileReader fr = new TestFileReader();
    fr.imports(file);
    System.out.println(fr.content);

    String text = fr.content;

    Stopwords stopwords = new Stopwords();
    stopwords.removeStopWords(text);
    System.out.println(stopwords.removeStopWords(text));

这给了我一个错误，但我不明白为什么。

我有同样的问题。要删除停用词，请使用Lucene您可以使用以下方法使用默认止损设置EnglishAnalyzer.getDefaultStopSet();。否则，您可以创建自己的自定义停用词列表。

下面的代码显示了您的正确版本removeStopWords():

public static String removeStopWords(String textFile) throws Exception {
    CharArraySet stopWords = EnglishAnalyzer.getDefaultStopSet();
    TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_48, new StringReader(textFile.trim()));

    tokenStream = new StopFilter(Version.LUCENE_48, tokenStream, stopWords);
    StringBuilder sb = new StringBuilder();
    CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
    tokenStream.reset();
    while (tokenStream.incrementToken()) {
        String term = charTermAttribute.toString();
        sb.append(term + " ");
    }
    return sb.toString();
}

要使用自定义停用词列表，请使用以下命令：

//CharArraySet stopWords = EnglishAnalyzer.getDefaultStopSet(); //this is Lucene set 
final List<String> stop_Words = Arrays.asList("fox", "the");
final CharArraySet stopSet = new CharArraySet(Version.LUCENE_48, stop_Words, true);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Lucene

NLP

tokenize

stopwords

使用 Lucene 和 Java 进行分词、删除停用词的相关文章

如何让 BlazeDS 忽略属性？

我有一个 java 类它有一个带有 getter 和 setter 的字段以及第二对 getter 和 setter 它们以另一种方式访问该字段 public class NullAbleId private static final
Mockito：如何通过模拟测试我的服务？

我是模拟测试新手我想测试我的服务方法CorrectionService correctPerson Long personId 实现尚未编写但这就是它将执行的操作 CorrectionService将调用一个方法AddressDAO这将
如何循环遍历所有组合，例如48 选择 5 [重复]

这个问题在这里已经有答案了可能的重复如何在java中从大小为n的集合中迭代生成k个元素子集 https stackoverflow com questions 4504974 how to iteratively generate k
.properties 中的通配符

是否存在任何方法我可以将通配符添加到属性文件中并且具有所有含义例如a b c d lalalala 或为所有以结尾的内容设置一个正则表达式a b c anything 普通的 Java 属性文件无法处理这个问题不请记住它实际上是
动态选择端口号？

在 Java 中我需要获取端口号以在同一程序的多个实例之间进行通信现在我可以简单地选择一些固定的数字并使用它但我想知道是否有一种方法可以动态选择端口号这样我就不必打扰我的用户设置端口号这是我的一个想法其工作原理如下有一个固定
Spring AspectJ 在双代理接口时失败：无法生成类的 CGLIB 子类

我正在使用Spring的
如何在java中将一个数组列表替换为另一个不同大小的数组列表

我有两个大小不同的数组列表如何从此替换 ArrayList
如何在 Spring 中禁用使用 @Component 注释创建 bean？

我的项目中有一些用于重构逻辑的通用接口它看起来大约是这样的 public interface RefactorAwareEntryPoint default boolean doRefactor if EventLogService wa
从最终实体获取根证书和中间证书

作为密码学的菜鸟我每天都会偶然发现一些简单的事情今天只是那些日子之一我想用 bouncy castle 库验证 java 中的 smime 消息我想我几乎已经弄清楚了但此时的问题是 PKIXparameters 对象的构建假设我
Eclipse Maven Spring 项目 - 错误

I need help with an error which make me crazy I started to study Java EE and I am going through tutorial on youtube Ever
jdbc mysql loginTimeout 不起作用

有人可以解释一下为什么下面的程序在 3 秒后超时因为我将其设置为在 3 秒后超时 12秒我特意关闭了mysql服务器来测试mysql服务器无法访问的这种场景 import java sql Connection import java
内部类的构造函数引用在运行时失败并出现VerifyError

我正在使用 lambda 为内部类构造函数创建供应商ctx gt new SpectatorSwitcher ctx IntelliJ建议我将其更改为SpectatorSwitcher new反而 SpectatorSwitcher 是我正
Java ResultSet 如何检查是否有结果

结果集 http java sun com j2se 1 4 2 docs api java sql ResultSet html没有 hasNext 方法我想检查 resultSet 是否有任何值这是正确的方法吗 if resultS
Cucumber 0.4.3 (cuke4duke) 与 java + maven gem 问题

我最近开始为 Cucumber 安装一个示例项目并尝试使用 maven java 运行它我遵循了这个指南 http www goodercode com wp using cucumber tests with maven and ja
我如何在java中读取二进制数据文件

因此我正在为学校做一个项目我需要读取二进制数据文件并使用它来生成角色的统计数据例如力量和智慧它的设置是让前 8 位组成一个统计数据我想知道执行此操作的实际语法是什么是不是就像读文本文件一样这样 File file new Fi
org.apache.solr.common.SolrException 流主体已禁用

我已经设置了 apache solr 7 1 并使用 postman 工具来查询它但是当我尝试使用邮递员删除索引数据时出现以下错误 Request GET http localhost 8983 solr solr sample3 up
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
包 javax.el 不存在

我正在使用 jre6 eclipse 并导入 javax el 错误包 javax el 不存在 javac 导入 javax el 过来这不应该是java的一部分吗谁能告诉我为什么会这样谢谢米 EL 统一表达语言是 Java
CamcorderProfile.videoCodec 返回错误值

根据docs https developer android com reference android media CamcorderProfile html 您可以使用CamcorderProfile获取设备默认视频编解码格式然后将其
使用 svn 1.8.x、subclise 1.10 的 m2e-subclipse 连接器在哪里？

我读到 m2e 的生产商已经停止生产 svn 1 7 以外的任何版本的 m2e 连接器 Tigris 显然已经填补了维护 m2e subclipse 连接器的空缺 Q1 我的问题是使用 svn 1 8 x 的 eclipse 更新 url

随机推荐

IndexAxisValueFormatter 未按预期工作

我正在使用MPAndroid图表 https github com PhilJay MPAndroidChart创建条形图我的配置
Magento：如何获取属于属性集的属性？

有了属性集如何获取它包含的属性列表或者更好的是仅获取不属于默认属性集的自定义属性属性集本身可以通过多种方式获取例如 entityTypeId Mage getModel eav entity gt setType catalog
`const_iterator` 真的需要是与 `iterator` 不同的类吗？

假设我定义了某种容器A struct A iterator begin return iterator this 0 const iterator cbegin const return iterator this last 假设现在我想声
Lisp 中无重复数字的随机列表

我有这个函数可以创建一个包含其他问题中的初始元素的列表Lisp 中带有初始元素的列表从 99 开始到 0 https stackoverflow com questions 59039638 list with initial elemen
尝试在 azure 存储帐户/Blob 上设置 cors 时出现无尽错误

我正在尝试在 azure 存储 blob 帐户上设置 cors 我已向该帐户添加了 CDN 原因是这样我可以从那里提供网络字体并获取缓存我已经安装了 nuget 的最新软件已成功将 Microsoft Data Services Cli
创建具有多个页面的 Apex 表单

我正在尝试制作一个包含多个页面的顶点表单以便我可以实现漂亮的布局例如第 1 页个人详细信息 gt gt 第 2 页职业 gt gt 第 3 页职业经历 gt gt 提交有没有一种方法可以在不一次提交一页的情况下执行此操作
读取 Storm 集群中的 AWS SQS 队列时，导致这些 ParseError 异常的原因是什么

我正在使用 Storm 0 8 1 从 Amazon SQS 队列中读取传入消息并且在执行此操作时遇到一致的异常 2013 12 02 02 21 38 executor ERROR java lang RuntimeException
jetty升级到9后无法运行项目

我升级到 jetty 9 并在尝试运行该项目时出现以下错误 WARNING Error injecting org eclipse jetty maven plugin JettyRunMojo java lang TypeNotPrese
count(distinct) over（按...范围函数分区）

我想计算不同的yyyydd超过mm 日期 2 天但是 distinct 函数不能与 over 一起使用如果我删除不同的它会给我总计数yyyydd but yyyydd可以有很多重复的这就是为什么我想添加不同的这有点类似于count
iOS 的 AudioContext.createMediaStreamSource 替代品？

我使用 Cordova 和 Web Audio API 开发了一个应用程序允许用户插入耳机将手机按在心脏上然后听到自己的心跳它通过使用音频过滤器节点来实现这一点 Setup userMedia context new window
env 在 Bash 中到底做了什么？

使用 Bash 在 Cygwin 下时出现此行为 printf u00d5 u00d5 env printf u00d5 This results in the behavior I want 我在终端中使用 UTF 8 或 ISO 88
gcc 的自动矢量化消息是什么意思？

我有一些代码想要快速运行所以我希望我可以说服 gcc g 对我的一些内部循环进行矢量化我的编译器标志包括 O3 msse2 ffast math ftree vectorize ftree vectorizer verbose 5 但是
如何在wpf中通过行和列获取网格子项？
如何解析单个 TFrecord 文件

读取 tfrecords reader tf TFRecordReader serialized example reader read filename queue features tf parse single example TFR
抛出异常时获取堆栈跟踪

我现在正在调试一个使用许多不同线程的程序有时会抛出异常问题是无法知道哪个线程导致了问题有没有一种简单的方法可以在抛出异常后获取堆栈跟踪我想过简单地编写一条调试消息但这将是一个巨大的我想有比这个更好的技术我正在使用 Visual
如何将 BigQuery 脚本上传到 Github？

需要一些帮助因为 bigquery 脚本没有保存在本地并且无法将其上传到 Github 您可以使用支持 GitHub 的 BigQuery 第三方 IDE这是歌利亚一部分Potens io https potensio zendesk
如何在flask应用程序的同一页面上发布输出结果？

我有一个 Flask 应用程序它接受一些文本作为输入运行 python 脚本并在同一 html 页面上输出输出但它会转到一个新页面我不明白为什么它会转到新页面这是我的 app py 文件 usr bin env python3 f
如何确定 Pandas/NumPy 中的列/变量是否为数字？

有没有更好的方法来确定变量是否在Pandas and or NumPy is numeric或不我有一个自定义的dictionary with dtypes作为钥匙和numeric not作为价值观 In pandas 0 20 2你可以
Errno 13 运行 virtualenv 时权限被拒绝

当尝试在 Mac OS X 上使用brew安装的 Python 2 7 创建 virtualenv 时出现以下错误 Could not install packages due to an EnvironmentError Errno 1
使用 Lucene 和 Java 进行分词、删除停用词

我正在尝试使用 Lucene 从 txt 文件中标记并删除停用词我有这个 public String removeStopWords String string throws IOException Set

使用 Lucene 和 Java 进行分词、删除停用词

使用 Lucene 和 Java 进行分词、删除停用词 的相关文章

随机推荐

热门标签

使用 Lucene 和 Java 进行分词、删除停用词的相关文章