NLTK

在 MAC OS X 10.9 上安装 NLTK 确实很困难

我是 Python Mac OS 新手我正在寻找 NLTK 教科书但我在安装它时遇到了一些问题我一直在寻找解决方案但不幸的是所有解决方案似乎都不适合我或者我误解了如何使用它们我遇到的基本问题是尽管按照说明进行操作 NLTK

python MacOS NLTK

如何从 Python 列表中删除日期

我有一个标记化文本列表 list of words 看起来像这样 list of words 08 20 2014 10 04 27 pm complet vendor per mfg recommend 08 20 2014 10 04

python regex NLTK

如何使用NLTK pos标签获得更好的结果

我正在使用Python学习nltk 我尝试在各种句子上做 pos tag 但得到的结果并不准确我如何即兴创作结果 broke NN flimsy NN crap NN 此外我还收到了很多被归类为 NN 的额外单词我怎样才能过滤掉这些以

python NLTK postagger

为文件中的每个单词创建字典并计算其后面的单词的频率

我正在尝试解决一个难题却迷失了方向这就是我应该做的 INPUT file OUTPUT dictionary Return a dictionary whose keys are all the words in the file br

python Dictionary NLTK Counter NGram

Spacy提取特定名词短语

我可以在 python 中使用 spacy 来查找具有特定邻居的 NP 吗我想要文本中前后都有动词的名词短语您可以合并名词短语这样它们就不会单独标记化分析依存解析树查看相邻标记的 POS gt gt gt import spacy

python NLP NLTK spacy

如何改进 NLTK 中的荷兰语 NER 词块划分器

感谢这个伟大的答案我使用 NLTK 和 Conll2002 语料库训练自己的荷兰语 NE 词块划分器有了一个良好的开端 NLTK 荷兰语命名实体识别 https stackoverflow com questions 11293149

python NLP NLTK namedentityrecognition

使用 NLTK 生成字典以将推文分类为预定义类别

我有一个 Twitter 用户 screen names 列表我需要根据他们的兴趣领域将他们分为 7 个预定义类别教育艺术体育商业政治汽车技术我用 Python 提取了用户的最后 100 条推文并在清理推文后为每个用户创

python machinelearning NLP NLTK textclassification

导入 nltk 时 Flask WSGI 应用程序挂起

我按照说明进行操作here https beagle whoi edu redmine projects ibt wiki Deploying Flask Apps with Apache and Mod WSGI在 ubuntu 上使用

python Flask WSGI NLTK

NLTK 无法找到 stanford-postagger.jar！设置CLASSPATH环境变量

我正在开发一个项目需要我使用 nltk 和 python 来标记令牌所以我想用这个但遇到了一些问题我浏览了很多其他已经提出的问题和其他论坛但我仍然无法解决这个问题问题是当我尝试执行以下命令时 from nltk tag impo

python NLTK stanfordnlp postagger

使用 NLP 进行句子压缩 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案使用机器翻译我可以获得一个句子的非常压缩的版本例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖

NLP NLTK stanfordnlp opennlp

在Python中清理属于不同语言的文本

我有一个文本集合其中的句子要么完全是英语印地语或马拉地语每个句子附加的 id 为 0 1 2 分别代表文本的语言无论任何语言的文本都可能有 HTML 标签标点符号等我可以使用下面的代码清理英语句子 import HTMLPars

python python27 Unicode NLTK

将 Readability 公式转换为 python 函数

我得到了一个名为 FRES Flesch 阅读轻松测试的公式用于衡量文档的可读性我的任务是编写一个返回文本 FRES 的 python 函数因此我需要将这个公式转换成Python函数我已经根据我必须展示的答案重新实现了我的代码以

python regex NLTK tokenize fleschkincaid

Python NLP 英式英语与美式英语

我目前正在用Python 进行NLP 工作然而在我的语料库中既有英式英语也有美式英语实现实现我正在考虑将英式英语转换为美式英语但是我没有找到一个好的工具包来做到这一点有什么建议么我也找不到包但试试这个请注意我必须

python NLP NLTK gensim linguistics

NLTK 可用的停用词语言

我想知道在哪里可以找到 NLTK 停用词支持的语言及其键的完整列表我找到一个列表https pypi org project stop words https pypi org project stop words 但它不包含每个国家

python NLP NLTK stopwords

对法语文本进行词形还原[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一些法语文本需要以某种方式进行处理为此我需要首先将文本标记为单词然后对这些单词进行词形还原以避免多次处理相同的词根据我

python NLTK lemmatization

NLTK、搭配问题：需要解包的值太多（预期为 2）

我尝试使用 NLTK 检索搭配但出现错误我使用内置的古腾堡语料库 I wrote alice nltk corpus gutenberg fileids 7 al nltk corpus gutenberg words alice al

python NLTK

手动安装开放多语言世界网 (NLTK)

我正在使用一台只能访问专用网络并且无法从命令行发送指令的计算机因此每当我必须安装 Python 包时我都必须手动安装我什至不能使用 Pypi 幸运的是 NLTK 允许我手动下载语料库从here https www nltk org

python NLTK WordNet

如何在解析网页时摆脱所有智能引号？

这是我的代码 name namestr decode utf 8 name replace u u2018 replace u u2019 replace u u201c replace u u201d 这似乎不起作用我还是发现 ldqu

python beautifulsoup NLTK smartquotes

nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究

python NLP NLTK

在 NLTK Python 的朴素贝叶斯分类器中使用文档长度

我正在使用 Python 中的 NLTK 构建垃圾邮件过滤器现在我检查单词的出现情况并使用 NaiveBayesClassifier 其准确度为 0 98 垃圾邮件的 F 测量值为 0 92 非垃圾邮件的 F 测量值为 0 98 然而

python NLTK spamprevention featuredetection