使用scikit-learn分类为多个类别

2023-11-27

我正在尝试使用 scikit-learn 的监督学习方法之一将文本片段分类为一个或多个类别。我尝试过的所有算法的预测函数都只返回一个匹配项。

例如我有一段文字：

"Theaters in New York compared to those in London"

我已经训练了算法来为我提供的每个文本片段选择一个位置。

在上面的例子中我希望它返回New York and London，但它只返回New York.

是否可以使用 scikit-learn 返回多个结果？或者甚至返回具有下一个最高概率的标签？

感谢您的帮助。

- -更新

我尝试使用OneVsRestClassifier但我仍然只能在每段文本中得到一个选项。下面是我正在使用的示例代码

y_train = ('New York','London')


train_set = ("new york nyc big apple", "london uk great britain")
vocab = {'new york' :0,'nyc':1,'big apple':2,'london' : 3, 'uk': 4, 'great britain' : 5}
count = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=2),vocabulary=vocab)
test_set = ('nice day in nyc','london town','hello welcome to the big apple. enjoy it here and london too')

X_vectorized = count.transform(train_set).todense()
smatrix2  = count.transform(test_set).todense()


base_clf = MultinomialNB(alpha=1)

clf = OneVsRestClassifier(base_clf).fit(X_vectorized, y_train)
Y_pred = clf.predict(smatrix2)
print Y_pred

结果：['纽约''伦敦''伦敦']

你想要的是所谓的多标签分类。 Scikits-learn 可以做到这一点。看这里：http://scikit-learn.org/dev/modules/multiclass.html.

我不确定你的例子出了什么问题，我的 sklearn 版本显然没有 WordNGramAnalyzer。也许这是使用更多训练示例或尝试不同分类器的问题？但请注意，多标签分类器期望目标是元组列表/标签列表。

以下对我有用：

import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.svm import LinearSVC
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.multiclass import OneVsRestClassifier

X_train = np.array(["new york is a hell of a town",
                    "new york was originally dutch",
                    "the big apple is great",
                    "new york is also called the big apple",
                    "nyc is nice",
                    "people abbreviate new york city as nyc",
                    "the capital of great britain is london",
                    "london is in the uk",
                    "london is in england",
                    "london is in great britain",
                    "it rains a lot in london",
                    "london hosts the british museum",
                    "new york is great and so is london",
                    "i like london better than new york"])
y_train = [[0],[0],[0],[0],[0],[0],[1],[1],[1],[1],[1],[1],[0,1],[0,1]]
X_test = np.array(['nice day in nyc',
                   'welcome to london',
                   'hello welcome to new york. enjoy it here and london too'])   
target_names = ['New York', 'London']

classifier = Pipeline([
    ('vectorizer', CountVectorizer(min_n=1,max_n=2)),
    ('tfidf', TfidfTransformer()),
    ('clf', OneVsRestClassifier(LinearSVC()))])
classifier.fit(X_train, y_train)
predicted = classifier.predict(X_test)
for item, labels in zip(X_test, predicted):
    print '%s => %s' % (item, ', '.join(target_names[x] for x in labels))

对我来说，这会产生输出：

nice day in nyc => New York
welcome to london => London
hello welcome to new york. enjoy it here and london too => New York, London

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Classification

scikitlearn

使用scikit-learn分类为多个类别的相关文章

如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d

随机推荐

如何在单击第 3 方按钮时设置断点？

我正在尝试调试第 3 方小部件 1按钮准确地说具体来说我想在 Chrome 中设置一个断点当单击小部件中的按钮时该断点会停止我想打破处理的第 3 方代码click事件是否有 Chrome 扩展或其他我没有想到的东西来帮助我在代
为什么 System.Convert 有接受 DateTime 的 ToDateTime？

Summary Returns the specified System DateTime object no actual conversion is performed Parameters value A date and time
Codeigniter 2.1 - 插入批次后返回 ids

如何返回 insert bunch 之后的所有 ID 功能 public function insert slike id slike folder polje tabela slike explode slike i 1 data arr
Mathematica 中的错误：正则表达式应用于很长的字符串

在下面的代码中如果字符串 s 附加到大约 10 或 20 000 个字符 Mathematica 内核段错误 s This is the first line MAGIC STRING Everything after this line
使用内联汇编在 C 中添加值

我试图掌握 C 中内联汇编 ATT 汇编的基础知识所以我通过添加 2 个变量进行练习好的这按预期工作这src变量被复制到dst变量然后是dst变量加 5 的值src and dst分别为1和6 int src 1 int dst
IOS 5 如何更改导航栏中后退按钮的颜色？

I want to change the color of back button of a navigation bar to make it look like this Set the backBarButtonItem s tint
Javascript 中与 64 位整数的按位 AND

我正在寻找一种在 JavaScript 中对 64 位整数执行按位 AND 的方法 JavaScript 会将其所有双精度值转换为带符号的 32 位整数以执行按位运算详细信息在这里 Javascript 将所有数字表示为 64 位双精度
在 QMake 中设置 RPATH 顺序

我有一个 Linux Qt 程序我希望它优先使用可执行文件目录中的动态 Qt 库如果存在否则使用系统的 Qt 库 RPATH 来救援我将此行添加到qmake的 pro 文件 QMAKE LFLAGS Wl rpath ORIGIN
Visual Studio 2010 无法识别 .cshtml 文件

我最近重新安装了 Visual Studio 2010 因为这样做我不知道如何让它再次识别 cshtml 文件我尝试安装 MVC 3 但它说它已经安装了基本上当我打开 cshtml 文件时Visual Studio 它们没有代码高亮或智
DRF：如何将 django-rest-framework-jwt 集成到 Djoser

我计划构建一个应用程序Django 休息框架我更感兴趣的是使用Django Rest Framework JWT认证机制比Session or Token认证机制但所有其他包都喜欢Django Rest Auth and Djoser
如何获取URI的最后一个路径段

我有一个字符串作为输入URI 如何获得最后一个路径段在我的例子中是一个 id 这是我输入的网址 String uri http base path some segment id 我必须获得我尝试过的 id String strId ht
如何在iOS中获取CSRF令牌？

因此我尝试将表单数据发布到我同事的网站以便从我的 iPhone 应用程序登录简单的用户名和密码但是我似乎需要 CSRF 令牌才能发帖我对此做了很多研究并且从中我可以从csrftoken cookie 我在这里读到 https
在 Windows/Apache 上设置 Python？

我想要一个简单的 Python hello world 网页脚本在 Windows Vista Apache 上运行但遇到了不同的障碍我用的是WAMP 我已经安装了mod python并且模块显示但我不太确定我应该做什么例如http
反应式表单数组 - 推送新元素时避免验证错误

我有一个由单个表单数组组成的表单组 ngOnInit this deviceDetailsFormGroup this formBuilder group deviceDetails this formBuilder array this
如何禁用纸浆的计算日志

我在 python 中使用 pulp 和 GUROBI 来解决一些优化问题例如 GUROBI的计算日志是 Optimize a model with 12 rows 25 columns and 39 nonzeros Coefficie
从地址字符串中提取邮政编码

我有一些完整的地址例如 addr1 5285 KEYES DR KALAMAZOO MI 49004 2613 addr2 PO BOX 35 COLFAX LA 71417 35 addr3 64938 MAGNOLIA LN APT
如何避免 wkhtmltopdf 表格行内分页

我正在从 html 页面生成 pdf 报告一张桌子我在用wkhtml转pdf为目的当pdf生成时在 tr 标记中的任意位置中断我想避免它 2015 年 9 月 17 日更新检查您正在使用的版本据说 wkhtmltopdf 0 12
dispatchEvent 不触发 jQuery.on() 事件监听器

我有以下触发自定义命名事件的代码 elem addEventListener click function event event preventDefault Do some processing stuff var event new
警告：类加载器在 Android Studio 2.1.2 中引用了未知路径

我是 Android 和 Android Studio 的新手我在 Android Studio 中创建了一个 HelloWorld 项目当我在设备上运行该应用程序时我收到以下警告如何修复这些警告 6 15 11 21 22 287
使用scikit-learn分类为多个类别

我正在尝试使用 scikit learn 的监督学习方法之一将文本片段分类为一个或多个类别我尝试过的所有算法的预测函数都只返回一个匹配项例如我有一段文字 Theaters in New York compared to those in

使用scikit-learn分类为多个类别

使用scikit-learn分类为多个类别 的相关文章

随机推荐

热门标签

使用scikit-learn分类为多个类别的相关文章