NLTK 中的 FreqDist 未对输出进行排序

2024-04-08

我是 Python 新手，我正在尝试自学语言处理。 python 中的 NLTK 有一个名为 FreqDist 的函数，可以给出文本中单词的频率，但由于某种原因它无法正常工作。

这是教程让我写的：

fdist1 = FreqDist(text1)
vocabulary1 = fdist1.keys()
vocabulary1[:50]

所以基本上它应该给我一个文本中 50 个最常见单词的列表。但是，当我运行代码时，结果是 50least常用词按最不常见到最常见的顺序排列，而不是相反。我得到的输出如下：

[u'succour', u'four', u'woods', u'hanging', u'woody', u'conjure', u'looking', u'eligible', u'scold', u'unsuitableness', u'meadows', u'stipulate', u'leisurely', u'bringing', u'disturb', u'internally', u'hostess', u'mohrs', u'persisted', u'Does', u'succession', u'tired', u'cordially', u'pulse', u'elegant', u'second', u'sooth', u'shrugging', u'abundantly', u'errors', u'forgetting', u'contributed', u'fingers', u'increasing', u'exclamations', u'hero', u'leaning', u'Truth', u'here', u'china', u'hers', u'natured', u'substance', u'unwillingness...]

我完全复制了教程，但我一定做错了什么。

这是教程的链接：

http://www.nltk.org/book/ch01.html#sec-computing-with-language-texts-and-words http://www.nltk.org/book/ch01.html#sec-computing-with-language-texts-and-words

该示例位于“图 1.3：计算文本中出现的单词数（频率分布）”标题下

有谁知道我该如何解决这个问题？

From NLTK 的 GitHub https://github.com/nltk/nltk/issues/390#issuecomment-53171900:

NLTK3中的FreqDist是collections.Counter的包装器；专柜提供most_common()方法按顺序返回项目。FreqDist.keys()方法由标准库提供；它没有被覆盖。我认为我们与 stdlib 变得更加兼容是件好事。

googlecode 上的文档非常旧，是 2011 年的。更多最新文档可以在http://nltk.org http://nltk.org网站。

因此对于 NLKT 版本 3，而不是fdist1.keys()[:50], use fdist1.most_common(50).

The tutorial http://www.nltk.org/book/ch01.html#frequency-distributions也已更新：

fdist1 = FreqDist(text1)
>>> print(fdist1)
<FreqDist with 19317 samples and 260819 outcomes>
>>> fdist1.most_common(50)
[(',', 18713), ('the', 13721), ('.', 6862), ('of', 6536), ('and', 6024),
('a', 4569), ('to', 4542), (';', 4072), ('in', 3916), ('that', 2982),
("'", 2684), ('-', 2552), ('his', 2459), ('it', 2209), ('I', 2124),
('s', 1739), ('is', 1695), ('he', 1661), ('with', 1659), ('was', 1632),
('as', 1620), ('"', 1478), ('all', 1462), ('for', 1414), ('this', 1280),
('!', 1269), ('at', 1231), ('by', 1137), ('but', 1113), ('not', 1103),
('--', 1070), ('him', 1058), ('from', 1052), ('be', 1030), ('on', 1005),
('so', 918), ('whale', 906), ('one', 889), ('you', 841), ('had', 767),
('have', 760), ('there', 715), ('But', 705), ('or', 697), ('were', 680),
('now', 646), ('which', 640), ('?', 637), ('me', 627), ('like', 624)]
>>> fdist1['whale']
906

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

NLTK

NLTK 中的 FreqDist 未对输出进行排序的相关文章

熊猫按 n 最大总和分组

我正在尝试使用groupby nlargest and sum在 Pandas 中一起运行但在运行时遇到困难 State County Population Alabama a 100 Alabama b 50 Alabama c 40
Vimeo API：获取下载所有视频文件的链接列表

再会我正在尝试从 Vimeo 帐户获取所有视频文件的列表直接下载的链接有没有办法在 1 GET 请求中做到这一点好的如果是API限制的话就100倍我有硬编码脚本我在其中发出 12 个 GET 请求 1100 多个视频根据文
从所有数据帧列中删除子字符串

我有一个单词列表大约 1000 个单词我称之为负面单词 CAST ARTICLES SANITARY JAN CLAUSES SPECIAL ENDORSEMENT 我很快就会用这个单词列表制作一个数据框我还有一个数据框看起来像 F
如何通过 python 中的函数运行列表？

我试图通过我创建的函数运行我的列表但不断收到错误我不知道出了什么问题温度 F temp f 19 21 21 21 23 功能 def fahrToCelsius tempFahrenheit return tempFahrenhei
动态字段取决于 WTForms 的先前字段

我正在使用 WTForms 制作表格目前我有这个 class UploadForm flask wtf Form fichier wtforms fields FileField u Fichier description wtform
Python3将模块从文件夹导入到另一个文件夹

我的结构字典是 mainFolder folder1 init py file1 py file2 py folder2 init py file3 py file4 py setup py init py 我需要将 file4 py 从f
如何用函数记录一个文件？

我有一个带有函数 lib py 但没有类的python 文件每个函数都有以下样式 def fnc1 a b c This fonction does something param a lalala type a str param b
如何知道python运行脚本的路径？

sys arg 0 给我 python 脚本例如 python hello py 返回 sys arg 0 的 hello py 但我需要知道 hello py 位于完整路径中的位置我怎样才能用Python做到这一点 os path a
multiprocessing.Queue 中的 ctx 参数

我正在尝试使用 multiprocessing Queue 模块中的队列实施 https docs python org 3 4 library multiprocessing html exchang objects Between p
Python在没有pandas的情况下解码excel表

我正在尝试在 python 中读取 excel 文件而不使用pandas or xlrd 我一直在尝试将结果转换为bytes to utf 8没有任何成功 xls 文件中的数据 colA colB colC spc 1D0 20190705
pandas groupby 操作缺少数据

在 pandas 数据框中我有一列如下所示 0 M 1 E 2 L 3 M 1 4 M 2 5 M 3 6 E 1 7 E 2 8 E 3 9 E 4 10 L 1 11 L 2 12 M 1 a 13 M 1 b 14 M 1 c 15
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
Python脚本从字母和两个字母组合生成单词

我正在编写一个简短的脚本它允许我使用我设置的参数生成所有可能的字母组合例如 b a 参数单词 5 个字母第三第五个字母 b a 第一个字母 ph sd nn mm 或 gh 第二第四个字母任意元音 aeiouy 和 rc 换句
如何将 URL 添加到 Telegram Bot 的 InlineKeyboardButton

我想制作一个按钮可以从 Telegram 聊天中在浏览器中打开 URL 外部超链接目前我只开发了可点击的操作按钮 update message reply text Subscribe to us on Facebook and Te
数据损坏 C++ 和 Python 之间的管道

我正在编写一些代码从 Python 获取二进制数据将其通过管道传输到 C 对数据进行一些处理在本例中计算互信息度量然后将结果通过管道传输回 Python 在测试时我发现如果我发送的数据是一组尺寸小于 1500 X 1500 的 2
如何创建增量加载网页

我正在编写一个处理大量数据的页面它会永远持续到我的结果页面加载几乎无限因为返回的数据太大了因此我需要实现一个增量加载页面例如 url 中的页面 http docs python org http docs python org
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
AWS 将 MQTT 消息存储到 DynamoDB

我构建了一个定期发送 MQTT 消息的 python 脚本这是发送到后端的 JSON 字符串 Id 1234 Ut 1488395951 Temp 22 86 Rh 48 24 在后端我想将 MQTT 消息存储到 DynamoDB 表中
从 Django 运行 shell 命令

我正在 Django 中开发一个网页使用 apache 服务器需要调用 shell 命令来启用禁用一些守护进程我尝试这样做 os system service httpd restart 1 gt HOME out 2 gt HOM
超过两个点的Python相对导入

是否可以使用路径中包含两个以上点的模块引用就像这个例子一样 Project structure sound init py codecs init py echo init py nix init py way1 py way2 py w

随机推荐

使用 Javascript 覆盖或禁用元刷新标记

我有一个网站我尝试使用 Ajax 更新页面上的一些内容而不重新加载它但是我的许多用户很可能会使用不支持 Javascript 的移动浏览器因此我尝试使用元刷新标记设计页面该标记仅适用于没有 Javascript 的用户有什么办法
使用后端 NDB 的 GAE put_multi() 实体

我正在使用后端来编写多个实体ndb put multi list of entities 我遇到的问题是在那之后如果我进行查询则不会得到任何结果如果我设置一个睡眠定时器例如 1 秒我就可以读取我刚刚编写的实体 So eg cla
如何组合两个媒体查询？

如何组合两个媒体查询一种适用于较小的设备一种适用于较大的设备但仅限纵向模式 media only screen and min device width 320px and max device width 480px and ori
如何在 Mono 中运行 MVC3 或更新的应用程序

默认 ASP NET MVC 3 应用程序是使用 Microsoft Web Developer Express 2010 创建的应用程序发布到文件系统并复制到安装了 mono 2 10 8 Apache 和 mod mono 的 Deb
DatabaseError：没有这样的列错误

所以我有一个模型想要添加 ImageField 所以我输入图片 models ImageField upload to 媒体图像然后我运行syncdb并进入shell python2 manage py syncdb python2
Hibernate Search + Spring Boot：java.lang.IllegalStateException：没有可用的事务 EntityManager

我正在尝试在 Spring Boot 应用程序中设置 Hibernate Search 如下所示本教程 https www mkyong com spring boot spring boot hibernate search exampl
如何将带有查找值的记录插入到 SQL 中？

Scenario 我需要每天通过电子表格更新 SQL 2008 数据库唯一可用的选项格式非常基本但可能有数百万条记录 Column1 和 Column3 将具有许多预定义的重复值这些值已提取到单独的表中电子表格样本 Column1
当 S Pen 在 android note 中分离时，将您的应用程序置于最前面吗？

我想在 S Pen 分离时立即打开我的应用程序如果仅在再次打开我的应用程序时调用 onSPenDetached 下的方法您该怎么做谢谢昌杜以下内容适用于我的配备 S Pen SM P550 运行 Android 5 0 2 的 G
Swift 陀螺仪偏航、俯仰、横滚

我正在为我的学校做一个编程主题的项目我正在 Swift 中使用 Xcode 我想制作一个使用陀螺仪的应用程序我不知道但不知怎的它不会在我的 iPhone 上运行因为 Xcode 中存在一些我不知道如何修复的错误当我运行程序时显
Android 对话框透明

我想去掉对话框中的边框并使其看起来绝对透明就像图像位于屏幕顶部一样我的对话框 xml 是
VBA有一个子程序运行另一个子程序

如何运行sub存储在另一个工作表的模块中工作表1 sub endDay something here end sub 工作表2 sub reCalc something here end sub I want recalc能够独立运行但
Android Studio 更新到 2.2.2 时无法识别应用程序名称

我最近将 Android Studio 更新到版本 2 2 2 并遇到了一些问题其中我的应用程序名称在清单中不再被识别我还根据位于的文档迁移到新的 Firebase SDKhere https firebase google com s
Python 将 DXF 文件转换为 PDF、PNG 或 JPEG

有谁知道将 DXF 文件转换为 PNG 或 PDF 的方法吗我有一个巨大的 DXF 文件列表我想将它们转换为图像以便更快地查看它们如果可能的话如何提取 DXF 文件值例如 DXF 文件中绘图的厚度或尺寸 https github
按下 Control 键时 RichTextBox 选择错误

我在文本选择方面遇到了一个非常奇怪的错误富文本框我创建了以下简单的表格 public partial class Form1 Form public Form1 InitializeComponent private void Form1
Dotnet 隔离的 Azure Functions - 如何访问 HttpContext

我有一个由 HTTP 调用触发的 dotnet 5 Azure 函数 dotnet isolated 该函数将由不同的 Azure 函数应用程序调用我想使用 Azure AD 保护目标并使用客户端凭据 OAuth2 流我在以下位置找到
HighCharts 全宽问题

我试图让渲染的图表填充 100 的父 div 但没有成功有什么办法可以消除左右两侧的缝隙吗 http jsfiddle net sKV9d http jsfiddle net sKV9d var chart new Highcharts
终止应用程序：无法加载捆绑包中的 NIB：“NSBundle ...”，名称为“7bK-jq-Zjz-view-r7i-6Z-zg0”

该应用程序在运行时运行良好iphone模拟器但在ipad视网膜模拟器我看到这个崩溃 2015 04 15 18 39 13 814 17308 2881892 由于未捕获的异常 NSInternalInconsistencyExcept
.HTACCESS 文件导致内部服务器错误

我已经复制了文件和数据库BradPPresents com http BradPPresents com to BradP com http BradP com 由于 joomla 启用了漂亮 URL 因此需要 htaccess 文件才能
占位符中有两种不同的文本样式

输入框占位符可以有两种样式吗这是我正在寻找的示例 https i stack imgur com 7OH9A png https i stack imgur com 7OH9A png 选项是使用包含文本的背景图像或者使用与文本重叠的元
NLTK 中的 FreqDist 未对输出进行排序

我是 Python 新手我正在尝试自学语言处理 python 中的 NLTK 有一个名为 FreqDist 的函数可以给出文本中单词的频率但由于某种原因它无法正常工作这是教程让我写的 fdist1 FreqDist text1 vo

NLTK 中的 FreqDist 未对输出进行排序

NLTK 中的 FreqDist 未对输出进行排序 的相关文章

随机推荐

热门标签

NLTK 中的 FreqDist 未对输出进行排序的相关文章