如何从 NLTK 导入和使用停用词列表？

2024-01-04

我已经导入了stopwords from nltk.corpus，但我得到STOPWORDS is not defined错误。下面是我的代码：

import nltk
from nltk.corpus import stopwords
#Create stopword list:
stopwords = set(STOPWORDS)

上面给出了以下错误：

NameError: name 'STOPWORDS' is not defined

第一次使用stopwords来自NLTK包中，您需要执行以下代码，以便download列表到您的设备：

import nltk
nltk.download('stopwords')

然后，每次需要使用时stopwords，你可以简单地load从包装中取出它们。例如，加载英文stopwords列表，您可以使用以下内容：

from nltk.corpus import stopwords
stop_words = list(stopwords.words('english'))

你甚至可以extend如果您愿意，可以查看列表，如下所示（Note: if stopwords.words()返回一个对象set类型，然后转换为list- 如上所示 - 是必需的，以便调用extend()方法上的stop_words目的）：

stop_words.extend(["best", "item", "fast"])

To remove从文本中停止单词，您可以使用以下内容（看看各种可用的标记器here https://www.nltk.org/api/nltk.tokenize.html and here https://www.nltk.org/howto/tokenize.html):

from nltk.tokenize import word_tokenize
word_tokens = word_tokenize(text)
clean_word_data = [w for w in word_tokens if w.lower() not in stop_words]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

NLP

NLTK

stopwords

如何从 NLTK 导入和使用停用词列表？的相关文章

Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar

随机推荐

Gunicorn默认使用多少个worker？

我似乎无法在gunicorn 文档中找到答案当您使用gunicorn运行flask应用程序而不指定工作线程和线程的数量时它们的默认值是多少 Command gunicorn b PORT main app 根据Gunicorn http
C++ 中的时间计数器 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想用 C 编写一段代码在等待用户输入例如我们想要看到的整数结果时同时进行时间计数例如我们希望用户输入两个整数并选择其中一个四次
如何在 Prolog 中从另一个谓词调用一个谓词？

所以我刚开始 Prolog 我想知道两件事 1 是否有内置函数或者它们都称为谓词用于简单的事情例如最多2个数字或数字的正弦等如果有我如何访问它们 2 如何从另一个谓词调用谓词我写了两个谓词称为 car 和 cdr car 返
JavaFX ComboBox CSS 样式

我正在使用 JavaFX FXML 构建一个小型应用程序并尝试实现一些简单的 CSS 以获得特定的样式我对组合框元素有疑问事实上默认情况下它的颜色是灰色的我想将其设置为白色或透明并保留边框以匹配与文本字段相同的样式所以我尝
iPhone 在 UITextField touch 上显示日期选择器

我关注了这个线程通过单击文本字段来选择日期 https stackoverflow com questions 7308754 datepicker by clicking on textfield 我导入了以下两个协议 interfac
Visual Studio 2022 TypeScript IntelliSense 在 17.2 中损坏

我有几个 TypeScript 项目其中 IntelliSense 不再正常工作我怀疑它可能在 17 2 中被破坏因为我昨天更新了版本 F12 去定义大部分已经不再起作用了如果我搜索所有引用它会找到一堆引用但实际的类定义被分类
强制更新 Accurev 中的工作区

Accurev中有没有命令可以强制更新我的工作区直接用备份文件替换本地文件并且不关心冲突文件修改文件等我真的很怀念 cvs 命令 cvs update C d 根据提问我也有类似的问题通常我只使用以下命令 accurev upd
Kafka 对同一主题和分区的多个生产者进行排序

假设我有两个生产者 ProducerA 和 ProducerB 使用单个分区写入同一主题每个制作人都在连续编写自己独特的事件因此如果 ProducerA 触发了 3 个事件然后 ProducerB 触发了 3 个事件我的理解是 K
在 angularjs 中使用 json 漂亮的打印

我怎样才能使用这个 json 漂亮的打印 http jsfiddle net KJQ9K http jsfiddle net KJQ9K 与 AngularJS 假设我的 JsonValue 是 a 1 b foo c false fals
PredicateBuilder 如何工作

C in a Nutshell 有一个名为 PredicateBuilder 的免费类它可以逐个构建可用的 LINQ 谓词here http www albahari com nutshell predicatebuilder aspx
如何从命令行从闪存驱动器运行包中包含类的java程序？

我有一项任务必须在闪存驱动器中提交我的代码我在 eclipse 中完成了所有编码并获取了所有输出我尝试通过命令行运行它并且它有效我将所有 java 文件和类文件复制到闪存驱动器并通过命令行再次尝试它在我的笔记本电脑上运行但是当
如何将 arrayformula 与似乎不支持 arrayformula 的公式一起使用？

如果提供数组作为某些函数的正常标量参数的输入例如 INDEX GCD GOOGLETRANSLATE OFFSET QUERY IMPORTRANGE AND 它不返回数组即使由 ARRAYFORMULA 包装它只获取数组中第一项的值
这种线程间通信的方法安全吗？

我有3个对象继承自QObject 每个都包含一个单独的std list 每个对象都是在主 gui 线程没有父线程中创建的然后被推送到它自己的线程使用 Qt 的QObject moveToThread 每个线程都连接到一个 GUI
Google 在 Github 页面上找不到 Analytics 代码片段 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案一段时间以来我一直无法让 Google Analytics 在我生成的 Github 页面上正常工作我使用了 Google 提供的默认代码段但我
pandas ols 导入损坏？

我试图在 pandas 0 9 1 中执行 OLS 但出现此错误 ipdb gt foo ols y df y var 1 x df x var pool False ImportError No module named scikits
如何使SQL Server 2008表的检查约束仅允许某些字符？

我想在 SQL 2008 中为表创建一个检查约束该约束允许使用 A Z 字符不区分大小写数字连字符点空格和下划线下面是我现在的表情 company code 不像 A Za z0 9 它满足除连字符之外的所有上述要求我怎样才
Apache Tika 无法正确检测 MIME 类型

我试图在使用inn上传文件时检测文件类型Apache Tika如下所示 static final List
在 iframe 中设置 cookie - 不同的域

我们将我们的网站作为 iframe 集成到在不同域上运行的另一个网站中看来我们不能设置cookie 以前有人遇到过这个问题吗有任何想法吗由于您的内容是从远程域加载到 iframe 中因此它被归类为第三方cookie 绝大多数第三方
Dexie 数据库超时变慢

我正在将 Dexie DB 版本 2 0 4 与 Angular 8 和 Electron 一起使用我意识到在数据库中输入的数据越多对其进行的查询越多数据库调用就会变得越慢我是一个 Dexie 菜鸟不确定在发出某些请求后是否有办
如何从 NLTK 导入和使用停用词列表？

我已经导入了stopwords from nltk corpus 但我得到STOPWORDS is not defined错误下面是我的代码 import nltk from nltk corpus import stopwords Cr

如何从 NLTK 导入和使用停用词列表？

如何从 NLTK 导入和使用停用词列表？ 的相关文章

随机推荐

热门标签

如何从 NLTK 导入和使用停用词列表？的相关文章