【NLTK】安装和使用NLTK分词和去停词

2023-11-14

黄聪:Python+NLTK自然语言处理学习(一):环境搭建 

http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html

 

安装NLTK可能出现的问题:
1. pip install ntlk
2. 如果遇到缺少stopwords报错如下:(http://johnlaudun.org/20130126-nltk-stopwords/
LookupError:
**********************************************************************
  Resource u'corpora/stopwords' not found. Please use the
  NLTK Downloader to obtain the resource: >>> nltk.download()
  Searched in:
    - 'C:\\Users\\Tree/nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - 'F:\\Program Files (x86)\\python\\nltk_data'
    - 'F:\\Program Files (x86)\\python\\lib\\nltk_data'
    - 'C:\\Users\\Tree\\AppData\\Roaming\\nltk_data'
**********************************************************************
则有一下输入:
In[3]: import nltk
In[4]: nltk.download()
showing info http://www.nltk.org/nltk_data/
弹出窗口:

选择Corpora 然后找到stopword list确认,刷新
Out[4]: True

3.如果遇到缺少punkt报错如下:
LookupError:
**********************************************************************
Resource u'tokenizers/punkt/english.pickle' not found. Please
use the NLTK Downloader to obtain the resource:

    >>>nltk.download()

  Searched in:
    - 'C:\\Users\\Tree/nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - 'F:\\Program Files (x86)\\python\\nltk_data'
    - 'F:\\Program Files (x86)\\python\\lib\\nltk_data'
    - 'C:\\Users\\Tree\\AppData\\Roaming\\nltk_data'
**********************************************************************
解决方法
In[5]: nltk.download('punkt')
[nltk_data] Downloading package punkt to
[nltk_data] C:\Users\Tree\AppData\Roaming\nltk_data...
[nltk_data] Unzipping tokenizers\punkt.zip.
Out[5]: True

文章:http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%89 文章: http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%89
详细讲述了如何使用NLTK进行英文分词、去除停用词、词干化、训练LSI、等等文本预处理的步骤。

 

在使用sumy demo时候出错:

C:\Python27\python.exe D:/Python/jieba/demo/sklearn/sumy_demo1.py
Traceback (most recent call last):
  File "D:/Python/jieba/demo/sklearn/sumy_demo1.py", line 20, in <module>
    parser = HtmlParser.from_url(url, Tokenizer(LANGUAGE))
  File "C:\Python27\lib\site-packages\sumy\nlp\tokenizers.py", line 33, in __init__
    self._sentence_tokenizer = self._sentence_tokenizer(tokenizer_language)
  File "C:\Python27\lib\site-packages\sumy\nlp\tokenizers.py", line 45, in _sentence_tokenizer
    "NLTK tokenizers are missing. Download them by following command: "
LookupError: NLTK tokenizers are missing. Download them by following command: python -c "import nltk; nltk.download('punkt')"

 

转载于:https://my.oschina.net/mickelfeng/blog/840864

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【NLTK】安装和使用NLTK分词和去停词 的相关文章

随机推荐

  • Odoo Wizard界面显示带有复选框列表及勾选数据获取 Python

    Odoo Wizard界面显示带有复选框列表及勾选数据获取 Python 在Odoo应用程序中 Wizard 向导 是一种常用的界面元素 用于引导用户完成特定任务 在这篇文章中 我们将学习如何在Odoo的Wizard界面中显示带有复选框列表
  • GoFrame带你从0-1快速入门

    文章目录 GoFrame 带你从 0 1 快速入门 一 GoFrame介绍 1 1GF基本介绍 1 2GF特点 1 3GF地址 1 4GF框架 二 GoFrame基础环境搭建 2 1环境搭建 1 安装golang 2 安装goland 3
  • Java源码分析(二)Double

    本篇是源码分析的第二篇 上篇我们一起分析了Integer类的源码 本篇一起学习下Double类的源码 看下其实现 一 Double类图 首先 相比Integer Double类的源码只有1000 行代码 如下是Integer及其关联类 接口
  • Ubuntu 安装、卸载JDK

    JDK 介绍 Open JDK 和 Oracle JDK区别 OpenJDK是Java开发工具包的开源实现 Oracle JDK是Java开发工具包的官方Oracle版本 尽管OpenJDK已经足够满足大多数的案例 但是许多程序比如Andr
  • 【Java预科】CH01 MarkDown语法

    1 标题 空格 标题名字 空格 二级标题 越多字体越小 最多只到六级 一级标题 二级标题 三级标题 四级标题 五级标题 六级标题 七级标题不存在 2 文字 加粗 在目标文字前后加 斜体 在目标文字前后加 斜体 加粗 在目标文字前后加 删除线
  • IOException parsing XML document from ServletContext resource [/<NONE>]; closed - call ‘refresh‘

    问题描述 SpringMVC项目添加ContextLoaderListener后无法启动
  • Qt事件(Event)

    事件Event 1 事件的概述 2 通过QLabel了解事件的操作 3 重写事件 4 重写鼠标按下事件 5 获取鼠标按下或移动的坐标 6 查看的QMouseEvent的信息 7 判断button的返回值 8 判断鼠标的哪个按键按下 9 判断
  • java中的throwable异常和错误

    Java中有个java lang Throwable类 这个类是Java中所有异常和错误的基类 Throwable下有两个大类那就是异常 Exception 和错误 Error Throwable 有两个重要的子类 Exception 异常
  • mysql的docker镜像数据库初始化踩坑记

    一 制作docker镜像 在当前目录新建子目录script 将数据库初始化脚本拷贝进去 后缀名为 sql 脚本执行顺序是按字母大小排序 建议可以按 1 xxx sql 2 xxx sql这样命令 Dockerfile如下 FROM mysq
  • aps和php撒意思?,aps-c画幅是什么意思

    aps c画幅是指数码相机的CCD CMOS 的尺寸与APS的C型画幅大小相仿 在25mmX17mm左右 差不多是全画幅CCD CMOS 面积的一半 也称半幅机 本文演示环境 Windows7系统 Dell G3电脑 APS C画幅意思 A
  • Android前端音视频数据接入GB28181平台意义

    技术背景 在我们研发Android平台GB28181前端音视频接入模块之前 业内听到最多的是 如何用Android或者Windows端 在没有国标IPC设备的前提下 模拟GB28181的信令和媒体流交互流程 实现GB28181整体方案的测试
  • 头文件string与string.h的区别

    头文件string与string h的区别 在C 中 include
  • wayland与linux_Linux最让人叹息的地方

    这两天有空 试了试Sway 作为一直以来的i3用户 自己的使用环境各项配置基本也是该配的都配齐了 本来不以为然 没想到真正去到Sway却发现Wayland确实流畅很多 折腾了1天 满心想着终于来到了一个Tear free的Linux环境 结
  • 表完整性约束

    介绍 认识 约束条件和数据类型宽度一样 都是可选类型 作用 用于保证数据的完整性 一致性 有哪几种约束 primary key PK 标识该字段为该表的主键 可以唯一标识的记录 foreign key FK 标识该字段为该表的外键 not
  • JDBC的URL详解

    文章目录 JDBC的URL详解 1 jdbc的格式 2 例如 3 参数详解 JDBC的URL详解 1 jdbc的格式 jdbc mysql host failoverhost port database propertyName1 prop
  • 计算机网络的认识知乎,【知乎】计算机网络这门课为何如此之难

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 操作系统和计算机网络的共同点 在于它们都是相当复杂的体系结构 如果觉得难 也许是因为自己没能产生足够的求知欲 你也说了 无聊 晦涩 而无聊感其实是没治的 对课程的热情和对女生的爱慕感其实差不多
  • Texstudio的学习(一)

    一 入门知识 1 三要素 documentclass option class usepackage option package begin 环境名称 内容 end 环境名称 2 命令符号 1 documentclass option c
  • 东北大学c++实验(第二周)

    include
  • vim教程

    文章目录 1 移动光标 2 进入和退出 3 删除 4 插入 5 撤销 7 定位及文件状态 8 搜索类 9 匹配括号的查找 10 将文本里的某个字符串全部替换 11 在 VIM 内执行外部命令的方法 12 关于保存文件的更多信息 13 一个具
  • 【NLTK】安装和使用NLTK分词和去停词

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 黄聪 Python NLTK自然语言处理学习 一 环境搭建 http www cnblogs com huangcong archive 2011 08 29 215743