将词袋 scikits 分类器与任意数字字段合并

2024-01-03

你会如何合并 scikits-learn分类器 http://scikit-learn.org/stable/modules/svm.html一个对词袋进行操作的词袋，一个对任意数字字段进行操作的词袋？

我知道这些在幕后基本上是相同的事情，但我很难弄清楚如何通过现有的库方法来做到这一点。例如，我的词袋分类器使用管道：

classifier = Pipeline([
    ('vectorizer', HashingVectorizer(ngram_range=(1,4), non_negative=True)),
    ('tfidf', TfidfTransformer()),
    ('clf', OneVsRestClassifier(LinearSVC())),
])
classifier.fit(['some random text','some other text', ...], [CLS_A, CLS_B, ...])

而我的其他用法是这样的：

classifier = LinearSVC()
classifier.fit([1.23, 4.23, ...], [CLS_A, CLS_B, ...])

我如何构建一个可以同时使用两组数据进行训练的 LinearSVC 分类器？例如

classifier = ?
classifier.fit([('some random text',1.23),('some other text',4.23), ...], [CLS_A, CLS_B, ...])

最简单的方法：

import scipy.sparse

tfidf = Pipeline([
    ('vectorizer', HashingVectorizer(ngram_range=(1,4), non_negative=True)),
    ('tfidf', TfidfTransformer()),
])
X_tfidf = tfidf.fit_transform(texts)

X_other = load_your_other_features()

X = scipy.sparse.hstack([X_tfidf, X_other])

clf = LinearSVC().fit(X, y)

原则性的解决方案，让您将一切都集中在一起Pipeline，将把散列、tf-idf 和其他特征提取方法包装在一些简单的转换器对象中，并将它们放入FeatureUnion，但是很难从您提供的信息中判断代码是什么样子。

（P.S.正如我在邮件列表和其他地方一直说的那样，OneVsRestClassifier(LinearSVC())是没用的。LinearSVCOvR 是开箱即用的，所以这只是拟合 OvR SVM 的一种较慢的方法。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将词袋 scikits 分类器与任意数字字段合并的相关文章

如何在保留矩阵维度的同时序列化 numpy 数组？

numpy array tostring似乎没有保留有关矩阵维度的信息请参阅这个问题 https stackoverflow com q 30697769 1156707 要求用户发出调用numpy array reshape 有没有办法
当参数为 0 与任何其他整数时，如何为返回不同类型的函数创建重载注释？

是否可以为当参数为时返回不同类型的函数创建重载注释0与任何其他整数 def foo val int gt MyObjectA MyObjectB if val 0 return MyObjectA return MyObjectB 有没有办
如何选择单选按钮？

我在用mechanize我正在尝试从单选按钮列表中选择一个按钮该列表有 5 项如何选择第一项文档没有帮助我 gt gt gt br form
如何将 Jupyter Notebook 的代码片段与 VSCode 结合使用？

我已经使用 VSCode 一段时间了目前我正在尝试设置代码片段来工作它们似乎适用于简单的 Python py 文件但不适用于 Jupyter Notebook ipynb 文件有什么办法可以让他们一起工作吗片段就在这里 Creat
time.sleep - TypeError：需要一个浮点[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案 time sleep 2 TypeError a float is required 我该如何解决我不确定我应该在这里做什么您
Python 中字典的合并层次结构

我有两本词典而我想做的事情有点奇怪基本上我想合并它们这很简单但它们是字典的层次结构我想以这样的方式合并它们如果字典中的项目本身就是字典并且存在于两者中我也想合并这些字典如果它不是字典我希望第二个字典中的值覆盖第一个字典中
如何检查Docker中是否安装了python包？

我使用Dockerfile成功构建了一个容器但是我的代码在容器中不起作用如果我手动安装所有软件包它确实有效我假设我搞砸了一些导致 docker 没有正确安装软件包的事情所以我想检查Docker容器中是否安装了python包最
Pandas系列矢量化文本处理

我想使用矢量化操作改进我的 Pandas 代码假设我有一个简单的 DataFrame 其中有一个文本列其中可能包含 url Column1 0 hello http www google com 1 bye www mail com w
如何使用列表理解从列表中删除重复的项目？ [复制]

这个问题在这里已经有答案了如何使用列表理解从列表中删除重复的项目我有以下代码 a 1 2 3 3 5 9 6 2 8 5 2 3 5 7 3 5 8 b b item for item in a if item not in b 但它不
使用 ruamel.yaml，如何使带有 NEWLINE 的变量成为不带引号的多行

我正在生成用作协议的 YAML 其中包含一些生成的 JSON import json from ruamel import yaml jsonsample id 123 type customer account other myyamel
将多个 csv 文件连接成具有相同标头的单个 csv

我目前正在使用以下代码导入 6 000 个 csv 文件带标题并将它们导出到单个 csv 文件带单个标题行 import csv files from folder path r data US market merged data
python 从字典中获取唯一值

我想从我的字典中获取唯一的值 Input 320 167 316 0 319 167 401 167 319 168 380 167 265 166 期望的输出 167 0 168 166 我的代码 unique values sorted
有没有比 ` except: pass` 更简洁的替代方案？

我有一个函数可以按偏好顺序返回多个组的随机成员事情是这样的 def get random foo or bar I d rather have a foo than a bar if there are foos return get
如何在 django-rest-framework 查询集响应中添加注释数据？

我正在为查询集中的每个项目生成聚合 def get queryset self from django db models import Count queryset Book objects annotate Count authors
为什么使用 LAMP 托管时避免使用 CGI for Python？

我已经使用 PHP 多年了最近我在论坛上看到很多帖子说PHP 已经过时了现代编程语言更简单更安全等等所以我决定开始学习Python 由于我习惯使用 PHP 因此我刚刚开始通过上传 htaccess 文件来构建页面 addtype
通过 Selenium 和 python 切换到 iframe

我如何在硒中切换到这个 iframe 只知道您可以使用 XPath 来定位 iframe driver find element by xpath iframe name Dialogue Window Then switch to th
当没有 main 函数时，为什么 sys.settrace 不触发？

import sys def printer frame event arg print frame event arg return printer sys settrace printer x 1 sys settrace None 上
Python 中的否定

如果路径不存在我尝试创建一个目录但是不运算符不起作用我不知道如何在 Python 中进行否定正确的方法是什么 if os path exists usr share sounds blues proc subprocess Po
我可以在某些网格中打印带有颜色的 pandas 数据框吗？

我有一个 pandas DataFrame 我想突出显示一些数据例如 In 1 import pandas as pd In 2 import numpy as np In 3 df pd DataFrame np reshape ran
网站可以检测您何时将 Selenium 与 chromedriver 结合使用吗？

我一直在使用 Chromedriver 测试 Selenium 我注意到有些页面可以检测到您正在使用 Selenium 即使根本没有自动化即使我只是通过 Selenium 使用 Chrome 手动浏览 Xephyr https en wi

随机推荐

Web.config 转换在发布时运行两次

我有一个包含三个 Web 项目以及许多类库项目的解决方案 Web 项目都使用 Web config 转换来指定每个环境的配置我有多个构建配置文件的 Web config 转换名为 Web UAT config Web Staging
如何修复：对于不返回任何键列信息的 SelectCommand，不支持为 DeleteCommand 生成动态 SQL

我的代码有效复制大约 10 个表后出现错误 Dynamic SQL generation for the DeleteCommand is not supported against a SelectCommand that does
查看heroku上的数据库

我正在尝试查看我的 heroku 实例上的数据我希望能够查看他们服务器上的数据库我不想将其拉到我的本地系统中更重要的是我不想等待那么长时间来查看数据假设我将当前包含 800 万本书的数据库以及所有相关元数据推送到 Heroku
unlocked_ioctl 与普通 ioctl

在我的驱动程序的 file operations 结构中我有 struct file operations Fops read device read write device write unlocked ioctl device io
如果 checkSelfPermission() 提取到方法，则仍显示检查权限的警告

我明白为什么 Android Studio 显示MissingPermission警告调用需要可能被用户拒绝的权限代码应显式检查权限是否可用使用 checkPermission 或显式处理潜在的 SecurityException l
提交 Google 表单后如何发送电子邮件？

提交表格后如何发送通知电子邮件我有一个 Google 表单我打开它并进入菜单更多 gt 脚本编辑器并添加一个脚本 function OnSubmit e MailApp sendEmail email protected cdn cgi
使用最新版本的“json4s-jackson”，Spark 单元测试因“ExceptionInInitializerError”而失败

我们在下面的框架中编写了一些 Spark scala 单元测试用例 https github com holdenk spark testing base https github com holdenk spark testing bas
如何针对不同的屏幕尺寸设置不同的自动布局约束

我有一个带有静态单元格的 tableView 该单元格包含一个完全填充它的 ImageView 我在上面还有另一个较小的 ImageView 我用约束来定位这个 ImageView 我有一个关于调整约束大小的问题如何在不编写 if els
为什么 File.copy 有效但 File.OpenRead 提示访问被拒绝？

我想复制另一个进程正在使用的加密文件这有效 System IO File Copy path1 path2 true 但下面的代码不起作用提示文件访问被拒绝错误 using FileStream fileStream new Fil
我可以使用 Javascript 获取文件目录列表吗？

我正在使用客户端 Javascript 并且想要获取我认为与 html 文件托管在同一服务器上的文件夹中的所有文件的列表我对这些术语非常不熟悉所以如果我不准确或完全错误我提前道歉我目前使用d3 text js data nodes
TestNG：如何以编程方式运行自定义 TestNG.XML 文件

我浏览了几个不同的线程和网站以及 TestNG API 寻找如何运行和创建自定义测试我还没有找到或不明白如何以编程方式运行自定义 testng xml 测试套件我创建了一个 testng xml 文件如下所示
RShiny 中的 actionButton ：重置值的替代方案

我读过有关不可能使用 Shiny Package 重置 actionButton 值的主题但我找不到任何技巧来解决我的问题我想使用以下代码删除主面板中的文本和按钮 library shiny shinyUI fluidPage titl
Rails 6 Active Storage：无法找到或构建 blob：预期可附加，但为零

刚刚创建了一个新的 Rails 6 应用程序我试图通过使用 Rails 脚手架生成的表单将图像添加到 active storage blob 而不是替换它们遵循文档 https guides rubyonrails org active
在 Google Colab 中导入 Cats-vs-Dogs 数据集时出错

尝试使用以下命令下载 Cats vs Dogs TensorFlow 数据集时tfds模块我收到以下错误 DownloadError Traceback most recent call last
如何从WAV样本数据中提取频率？

我正在用 c 开发一个应用程序来读取简单的 PCM WAV 文件我的问题是我应该如何解释数据块中的样本以便提取样本的频率给定一个 WAV 示例原始数据如何表示频率例如这个数据块 24 17 1e f3 对于立体声 16 位左
使用 tox 在 Windows 上设置多个 python 安装

我正在尝试设置tox http tox testrun org latest 在 Windows 上对多个 python 安装运行测试我已将每个 python 安装在名为的文件夹中 C Python PythonXX YY XX是 pyt
有没有办法加速 AngularJS 量角器测试？

我已经为我的应用程序创建了测试一切正常但运行速度很慢即使只测试了 1 3 的应用程序 protrator 仍然需要大约十分钟来创建测试数据填写字段单击提交按钮等我正在使用 Google Chrome 进行测试当我看着量角器一一
如果行中的任何值等于零，则删除 pandas 数据框中的行

如果行中的任何值为零如何删除该行我通常会使用 df dropna 表示 NaN 值但不确定如何使用 0 值我认为最简单的方法是查看所有值不等于 0 的行 df df 0 all 1
Entity Framework Core 1.0.1 添加迁移

自从 EF Core 迁移到Microsoft EntityFrameworkCore 代替EntityFramework 看来添加数据库迁移的推荐命令行又回到了add migration来自包管理器 ef core 添加迁移文档 http
将词袋 scikits 分类器与任意数字字段合并

你会如何合并 scikits learn分类器 http scikit learn org stable modules svm html一个对词袋进行操作的词袋一个对任意数字字段进行操作的词袋我知道这些在幕后基本上是相同的事情但我很

将词袋 scikits 分类器与任意数字字段合并

将词袋 scikits 分类器与任意数字字段合并 的相关文章

随机推荐

热门标签

将词袋 scikits 分类器与任意数字字段合并的相关文章