在 scikit-learn 中保存新数据的特征向量

2023-12-11

为了创建机器学习算法，我创建了一个字典列表，并使用 scikit 的 DictVectorizer 为每个项目创建一个特征向量。然后，我使用部分数据进行训练，从数据集中创建了一个 SVM 模型，然后在测试集上测试该模型（您知道，这是典型的方法）。一切都很顺利，现在我想将模型部署到野外，看看它如何处理新的、未标记的、看不见的数据。如何保存特征向量，以便新数据具有相同的大小/特征并适用于 SVM 模型？例如，如果我想训练单词的存在：

[{
 'contains(the)': 'True',
 'contains(cat)': 'True',
 'contains(is)': 'True',
 'contains(hungry)': 'True'
 }...
]

我用一个列表进行训练，该列表具有相同的句子和数千种动物变体。当我对列表进行矢量化时，它会考虑提到的所有不同动物，并在向量中为每个动物创建一个索引（“the”、“is”和“hungry”不会改变）。现在，当我尝试在新句子上使用该模型时，我想预测一个项目：

[{
 'contains(the)': 'True',
 'contains(emu)': 'True',
 'contains(is)': 'True',
 'contains(hungry)': 'True'
 }]

如果没有原始训练集，当我使用 DictVectorizer 时它会生成：(1,1,1,1)。这比用于训练模型的原始向量少了几千个索引，因此 SVM 模型无法使用它。或者，即使向量的长度是正确的，因为它是在大量句子上训练的，但特征可能与原始值不对应。如何获得新数据以符合训练向量的维度？特征永远不会多于训练集，但不能保证所有特征都出现在新数据中。

有没有办法使用pickle来保存特征向量？或者我考虑过的一种方法是生成一个字典，其中包含值为“False”的所有可能特征。这会强制新数据采用适当的向量大小，并且仅计算新数据中存在的项目。

我觉得我可能没有充分描述问题，所以如果有不清楚的地方我会尝试更好地解释。先感谢您！

编辑：感谢拉斯曼的回答，解决方案非常简单：

from sklearn.pipeline import Pipeline
from sklearn import svm
from sklearn.feature_extraction import DictVectorizer

vec = DictVectorizer(sparse=False)
svm_clf = svm.SVC(kernel='linear')
vec_clf = Pipeline([('vectorizer', vec), ('svm', svm_clf)])
vec_clf.fit(X_Train,Y_Train)
joblib.dump(vec_clf, 'vectorizer_and_SVM.pkl')

管道和支持向量机根据数据进行训练。现在，所有未来的模型都可以取消管道并在 SVM 中内置特征向量化器。

如何获得新数据以符合训练向量的维度？

通过使用transform方法而不是fit_transform。后者从您提供的数据集中学习新词汇。

有没有办法使用pickle来保存特征向量？

Pickle 经过训练的矢量化器。更好的是，制作一个Pipeline矢量化器和 SVM 的一部分并对其进行腌制。您可以使用sklearn.externals.joblib.dump以实现高效酸洗。

（旁白：如果将布尔值传递给矢量化器，它会更快True而不是字符串"True".)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 scikit-learn 中保存新数据的特征向量的相关文章

Flask-SocketIO redis 订阅

我在用着https github com miguelgrinberg Flask SocketIO https github com miguelgrinberg Flask SocketIO实现 WebSocket 服务器我需要从另一
GUI 测试工具 PyUseCase 与 Dogtail 相比如何？

GUI测试工具如何Py用例 http pypi python org pypi PyUseCase重命名为故事文本 http pypi python org pypi StoryText 相比于Dogtail http en wikiped
从所有数据帧列中删除子字符串

我有一个单词列表大约 1000 个单词我称之为负面单词 CAST ARTICLES SANITARY JAN CLAUSES SPECIAL ENDORSEMENT 我很快就会用这个单词列表制作一个数据框我还有一个数据框看起来像 F
如何替换Python字符串中的正确字母

任务是您的任务是纠正数字化文本中的错误您只需处理以下错误 S 被误解为 5 O 被误解为 0 I 被误解为 1 我的代码 def correct string for i in string if 5 in string string
如何同时运行多个功能[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有以下代码 my func1 my func2 my func3 my func4 my func5 是否可以同时计算函数的数据而
从内存地址创建python对象（使用gi.repository）

有时我需要调用仅存在于 C 中的 gtk gobject 函数但返回一个具有 python 包装器的对象之前我使用过基于 ctypes 的解决方案效果很好现在我从 PyGtk import gtk 切换到 GObject intro
DynamodB：如何更新排序键？

该表有两个键 filename 分区键和eventTime 排序键我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
使用管理员权限打开cmd（Windows 10）

我有自己的 python 脚本来管理我的计算机上的 IP 地址它主要在命令行 Windows 10 中执行netsh命令您必须具有管理员权限这是我自己的计算机我是管理员运行脚本时我已经使用管理员类型的用户 Adrian 登录我无
如何在 Pandas Python 中按 id 对行进行排名

我有一个像这样的数据框 id points1 points2 1 44 53 1 76 34 1 63 66 2 23 34 2 44 56 我想要这样的输出 id points1 points2 points1 rank points2
使用 Python 和 lmfit 拟合复杂模型？

我想适合椭偏仪 http en wikipedia org wiki Ellipsometry使用 LMFit 将数据转换为复杂模型两个测量参数 psi and delta 是复杂函数中的变量rho 我可以尝试将问题分离为实部和虚部共享参
Python Requests 库重定向新 url

我一直在浏览 Python 请求文档但看不到我想要实现的任何功能在我的脚本中我设置allow redirects True 我想知道该页面是否已重定向到其他内容新的 URL 是什么例如如果起始 URL 为 www google c
动态字段取决于 WTForms 的先前字段

我正在使用 WTForms 制作表格目前我有这个 class UploadForm flask wtf Form fichier wtforms fields FileField u Fichier description wtform
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
哪种方式最适合Python工厂注册？

这是一个关于这些方法中哪一种被认为是最有效的问题 Pythonic 我不是在寻找个人意见而是在寻找惯用的观点我的背景不是Python 所以这会对我有帮助我正在开发一个可扩展的 Python 3 项目这个想法类似于工厂模式只不过它是
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
AttributeError: 'super' 对象没有属性 '__getattr__' 在 Kivy 中使用带有多个 kv 文件的 BoxLayout 时出错

我很清楚这个问题已经被问过好几次了但尝试以下解决方案后 Python Kivy AttributeError 尝试获取 self ids 时 super 对象没有属性 getattr https stackoverflow com qu
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
tf.print() vs Python print vs tensor.eval()

看来在Tensorflow中至少有三种方法可以打印出张量的值我一直在读here https www freecodecamp org news debugging tensorflow a starter e6668ce72617 an
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
如何有效地比较 pandas DataFrame 中的行？

我有一个 pandas 数据框其中包含雷击记录以及时间戳和全球位置格式如下 Index Date Time Lat Lon Good fix 0 1 20160101 00 00 00 9962692 7 1961 60 7604 1

随机推荐

MediaWiki 会话和 cookie 无法在 CloudFlare 背后的多服务器上运行

我有一个 MediaWiki 在多个 AWS 实例上运行但登录和注册已损坏 session save path 设置为 tmp 任何人都可以写入和读取我使用 Apache2 和 PHP5 以及 MEMCACHED 每当您尝试登录时您要
使用 Linq 查询和过滤对象数组

我想这是我的一系列问题中的另一个条目但我再次陷入困境这次我在使用 JObjects 的 JArray 并确定 JArray 中每个元素的 Property Value 类型时遇到了麻烦我的代码在这里 https dotnetfidd
route('home') vs.redirect()->home()？' aria-label='何时使用：redirect('/') vs.redirect()->route('home') vs.redirect()->home()？'> 何时使用：redirect('/') vs.redirect()->route('home') vs.redirect()->home()？

当我有这个命名路线时 Route get IndexController index gt name home 然后在任意Controller的任意action方法中当我需要重定向到指定路由时home 这些语句中的任何一个都会正确重定向到
JavaScript 中的 str_shuffle() 等效项？

像str shuffle PHP中的函数是否有类似的函数在javascript中打乱字符串请帮忙不存在这样的函数你自己写一个这是一个例子 function shuffle string var parts string split
无线直连 Android

我想通过 Wi Fi Direct 在两台设备之间传输文件我想做与 WifiDirectDemo 中相同的操作但我无法将数据从组所有者传输到其他设备所以我尝试了以下操作每次其中一个设备单击连接时另一个设备就会设置为组所有者因
三元组损失的softmax版本的梯度计算

我一直在尝试在Caffe中实现softmax版本的三元组损失描述于霍弗和艾隆使用三元组网络进行深度度量学习 ICLR 2015 我已经尝试过这个但我发现很难计算梯度因为指数中的 L2 不是平方的有人可以帮我吗使用现有的 caf
CSS @font-face - “src: local('☺')”是什么意思？

我在用着 font face第一次从fontsquirrel下载了字体包他们建议插入我的 CSS 的代码是 font face font family junctionregularRegular src url Junction web
在基于 JTable 面板的单元格编辑器中丢失第一个字符

我有一个单元格编辑器其中包含一个小按钮然后是一个可用于内联编辑值的文本字段我使用 setSurrendersFocusOnKeyrinkle true 和焦点侦听器以便允许用户立即从键盘开始编辑但问题是按下的第一个键似乎被消耗而不
WPF 淡入/淡出仅运行一次

我有一个带有故事板和触发器的样式动画效果很好但只有一次我有 2 个故事板淡入和淡出在 EnterActions 中我启动 FadeIn 动画在 ExitActions 中启动 FadeOut 动画我用代码开始整个动画 TextB
优化捕获出勤数据模式的最佳方法是什么

我们有一个体育训练营该市的各个团队定期参加该训练营我们每天有一次持续 2 小时上午 9 点至 11 点的会议不同团队的时间段可能有所不同我们希望了解每天参加训练营的人员情况我们采用以下模型来捕获出席率 id user id 日
获得使用Python3的spotipy修改Spotify播放列表的授权

我目前正在尝试使用spotipy 一个 python3 模块来访问和编辑我的个人 Spotify 高级帐户我已经按照教程进行了操作https github com plamere spotipy blob master docs ind
简单的C scanf 不起作用？ [复制]

这个问题在这里已经有答案了如果我尝试这样的事情 int anint char achar printf nEnter any integer scanf d anint printf nEnter any character scanf
NET Framework 4.7.2 应用程序可以在运行时加载 NET Core 5.0 库 DLL吗？

我开始将一些 NET Framework 4 7 2 类库移植到 NET Core 5 0 主机框架应用程序动态发现并运行Assembly Load在 NET Core 库上就可以了但是当我尝试做一个Assembly GetType NE
Foundry Transform 在重新分区、配置单元分区和分桶的各种组合中输出了多少个文件？

我想我了解重新分区配置单元分区和分桶如何影响输出文件的数量但我不太清楚各种功能的交互有人可以帮助填写以下每种情况下我留空的输出文件的数量吗目的是了解对于以下情况正确的代码是什么我需要混合使用高基数列和低基数列来进行分区存储桶
将两个类的参数化转换为一个类的参数化

下面的代码有点令人不愉快 include
从乐器中提取音频以查找音符

我正在尝试开发一个从乐器中提取音频的 Android 应用程序我正在使用带有 Jtransforms 的快速傅里叶变换方法这是我到目前为止所拥有的 public class MainActivity extends Activity O
64 位堆栈驻留缓冲区溢出？

我正在研究一些与安全相关的东西现在我正在研究自己的堆栈我所做的应该是非常微不足道的我什至没有尝试执行堆栈只是为了表明我可以控制 64 位系统上的指令指针我已经关闭了所有我知道的保护机制只是为了能够使用它 NX 位 ASLR 还使
当存在 ngModel 时，检查 Angular 2 中的单选按钮

在我的 Angular 2 项目中有ngModel并且单选按钮没有检查它
在 mule esb 中从 JSON 中提取数组

我正在使用 Mule 3 4 CE 并且我有一个通过 HTTP 传输的 JSON 数据格式如下 People Details Name John Smith Email email protected Details Name Tim S
在 scikit-learn 中保存新数据的特征向量

为了创建机器学习算法我创建了一个字典列表并使用 scikit 的 DictVectorizer 为每个项目创建一个特征向量然后我使用部分数据进行训练从数据集中创建了一个 SVM 模型然后在测试集上测试该模型您知道这是典型的方

在 scikit-learn 中保存新数据的特征向量

在 scikit-learn 中保存新数据的特征向量 的相关文章

随机推荐

热门标签

在 scikit-learn 中保存新数据的特征向量的相关文章