如何从 nltk 分类器获得精度和召回率？

2024-04-24

import nltk
from nltk.corpus import movie_reviews
from nltk.tokenize import word_tokenize

documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]


all_words = []

for w in movie_reviews.words():
    all_words.append(w.lower())

all_words = nltk.FreqDist(all_words)

word_features = list(all_words.keys())[:3000]

def find_features(document):
    words = set(document)
    features = {}
    for w in word_features:
        features[w] = (w in words)

    return features

featuresets = [(find_features(rev), category) for (rev, category) in documents]

training_set = featuresets[500:1500]
testing_set = featuresets[:1500]

classifier = nltk.DecisionTreeClassifier.train(training_set)

print "Classifier accuracy percent:",(nltk.classify.accuracy(classifier, testing_set))*100 , "%"

string = raw_input("Enter the string: ")
print (classifier.classify(find_features(word_tokenize(string))))

此代码将显示分类器的准确性，然后获取用户的输入。它返回用户输入的字符串的极性。

但这是我的问题：因为我可以通过使用获得准确性nltk.accuracy()，是否也能得到它的精确率和召回率？

如果您使用的是 nltk 软件包，那么您似乎可以使用recall and precision函数来自nltk.metrics.scores (请参阅文档 http://www.nltk.org/api/nltk.metrics.html).

调用后函数应该可用

from nltk.metrics.scores import (precision, recall)

然后你需要打电话给他们reference（已知标签）和test（测试集上分类器的输出）集。

像下面的代码这样的东西应该产生这些集合refsets and testsets

refsets = collections.defaultdict(set)
testsets = collections.defaultdict(set)

for i, (feats, label) in enumerate(testing_set):
    refsets[label].add(i)
    observed = classifier.classify(feats)
    testsets[observed].add(i)

然后，您可以使用类似的内容查看正面预测的精确度和召回率

print( 'Precision:', nltk.metrics.precision(refsets['pos'], testsets['pos']) )
print( 'Recall:', nltk.metrics.recall(refsets['pos'], testsets['pos']) )
# `'pos'` is for the "positive" (as opposed to "negative") label

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

NLTK

如何从 nltk 分类器获得精度和召回率？的相关文章

如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数

随机推荐

php 访问 json 中的属性

我已将以下已解码的 json 存储在 response result gt response object stdClass 6 5 EmailAddress gt string 18 email protected cdn cgi l e
从 HashRouter 中删除 #

我在用着react router dom对于我的路由由于我也在使用 GitHub Pages 所以我需要使用HashRouter in my Router jsx like so import React from react impor
如何制作一条曲线来连接 HTML 和 CSS 中的两个节点？

我有两个 div 我想使用曲线图连接它们知道我怎样才能实现这一目标吗如果运行下面提到的代码您会看到有一个名为命令序列启动的标签和两个 div 分别是 W SCMadl refresh 和 WIN64 MCCMon 现在我想使用曲
NSBundle pathForResource 为 NULL

我正在使用 xcode 和 objc 创建一个简单的应用程序我需要从文件加载 NSDictionary 但我无法使用 NSBundle 获取文件的路径 NSString l NSBundle mainBundle pathForResou
在 T-SQL 中将日期时间截断为秒（删除毫秒）

缩短包含毫秒的日期时间以仅包含秒的最佳方法是什么例如2012 01 25 17 24 05 784 to 2012 01 25 17 24 05 这将截断毫秒 declare X datetime set X 2012 01 25 17
如何通过 terraform 将 alb 注册为目标组的目标

我有一个目标组想通过 terraform 将 alb 注册为目标组的目标 https aws amazon com blogs networking and content delivery application load balanc
1071 - 指定的密钥太长；最大密钥长度为 1000 字节 [重复]

这个问题在这里已经有答案了当我导入 Sqlbackup 时出现以下错误 SQL Befehl CREATE TABLE jos hikashop zone link zone parent namekey VARCHAR 255 NOT
我遇到“文件无法写入磁盘”的情况。文件大小为 2MB 及以上时，ExpressionEngine 中出现错误

有人遇到过这个问题吗文件无法写入磁盘 ExpressionEngine v2 9 2 上出现错误我注意到我只在 2MB 及以上的文件中遇到此问题并且在下面的其他帖子中我已经关闭了 XSS 过滤而没有任何帮助如果这意味着什么的话我在
将 PHP 的不同变量输入接收到 C++ 中

我有一个程序需要发送以下变量 Bool int string vector
升级到 Ubuntu 13.10 后，Apache 不再使用 DocumentRoot（使用显示“It Works！”的默认页面）

我有各种虚拟主机用于我的网络开发工作包括 cnm 这 sites available cnm 我的文件说得很简单
Web 服务器可以处理多少个套接字连接？

假设我要获得共享虚拟或专用托管我在某处读到服务器计算机一次只能处理 64 000 个 TCP 连接这是真的吗无论带宽如何任何类型的托管可以处理多少个我假设 HTTP 通过 TCP 工作这是否意味着只有 64 000 个用户可
如何合并两个 Git 存储库？

考虑以下场景我在自己的 Git 存储库中开发了一个小型实验项目 A 它现在已经成熟了我希望 A 成为更大的项目 B 的一部分该项目有自己的大存储库我现在想将 A 添加为 B 的子目录如何将 A 合并到 B 中而不丢失任何一方的历史
Django：简单的速率限制

我的许多视图都获取外部资源我想确保在重负载下我不会炸毁远程站点和或被禁止我只有 1 个爬行器所以有一个中央锁就可以了我希望每秒最多允许对主机进行 3 次查询并让其余的块最多持续 15 秒我怎样才能做到这一点简单 Use d
Jquery Onchange 事件没有被触发 - Primefaces - inputText

未调用以下事件 inputTxt的代码如下
commit失败是否需要回滚？

这似乎是一个足够简单的问题但我找不到任何特定于 MySQL 的明确答案看这个 mysqli gt autocommit false Start the transaction success true do a bunch of ins
MS Access 和 ODBC。过滤器对话框不显示

我的 Microsoft Access 数据库有问题通过 ODBC 连接到 Postgresql 数据库过滤器对话框用于使用多个可选复选框过滤数据不起作用编辑不起作用我的意思是没有可供选择的复选框仅提供用于 A Z 和 Z A
作为后台进程/服务运行命令

我有一个 Shell 命令我想在后台运行并且我读到这可以通过添加后缀来完成到导致它作为后台进程运行的命令但我需要一些更多的功能并且想知道如何去做我希望每次系统重新启动时该命令都在后台启动并运行我希望能够像人们一样在需要时启动和
停止 Intellij / Android Studio Preview 在格式化匿名内部类参数时添加换行符

我试图阻止 Android Studio Preview 即 IntelliJ 在匿名内部类定义为方法参数时在其后添加换行符回车符它改变了这一点 runOnUiThread new Runnable Override public vo
Service Worker 是否持续向服务器请求、响应？

我正在使用服务器发送事件来显示通知我创建了一个服务工作线程并在运行项目后使用 EventSource 与服务器连接在我的例子中我使用了 servlet 一切正常但事件内的内容会被多次执行我想知道为什么我的另一个问题是一旦我关
如何从 nltk 分类器获得精度和召回率？

import nltk from nltk corpus import movie reviews from nltk tokenize import word tokenize documents list movie reviews w

如何从 nltk 分类器获得精度和召回率？

如何从 nltk 分类器获得精度和召回率？ 的相关文章

随机推荐

热门标签

如何从 nltk 分类器获得精度和召回率？的相关文章