使用 SciKit-learn 和大型数据集进行文本分类

2024-05-22

首先，我昨天开始学习Python。我正在尝试使用 SciKit 和大型数据集（250.000 条推文）进行文本分类。对于该算法，每条推文都将表示为 4000 x 1 向量，因此这意味着输入为 250.000 行和 4000 列。当我尝试在 python 中构建这个时，我在 8500 条推文之后耗尽了内存（当使用列表并附加它时），当我预分配内存时，我得到了错误：MemoryError(np.zeros(4000,2500000))。 SciKit 无法处理这些大型数据集吗？我做错了什么吗（因为这是我使用 python 的第二天）？是否有另一种方式来表示这些特征，以便它能够适合我的记忆？

edit：我想要伯努利 NB

edit2：也许在线学习是可能的？阅读一条推文，让模型使用该推文，将其从内存中删除，再阅读另一条推文，让模型学习......但我不认为 Bernoulli NB 允许在 scikit-learn 中进行在线学习

如果您使用 scikits 的矢量化器（CountVectorizer or TfidfVectorizer作为第一次尝试是很好的）你会得到一个稀疏矩阵表示。从文档中：

vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english')
X_train = vectorizer.fit_transform(data_train.data)
#initialize your classifier
clf.fit(X_train, y_train)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 SciKit-learn 和大型数据集进行文本分类的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

如何将 glob 表达式分配给 Bash 脚本中的变量？

当在 bash 脚本中执行以下两行代码时 ls 会抱怨文件不存在 dirs content dev01 dev02 ls l dirs 当我使用 x 选项运行脚本时它似乎在单引号内传递变量这将防止通配 dirs content dev0
管理一堆具有依赖关系的 NSOperation

我正在开发一个创建内容并将其发送到现有后端的应用程序内容是标题图片和位置没有什么花哨后端有点复杂所以这是我必须做的让用户拍照输入标题并授权地图使用其位置为帖子生成唯一标识符在后台创建帖子上传图片刷新用户界面我使用了几
在 PHP 中从 URL 斜杠后获取两个单词

我需要从 URL 中获取两个单词例如我有以下 URL http mydomain com alrajhi invoice 108678645541 http mydomain com alrajhi invoice 10867864554
如何在 React js 上使用历史记录重定向到另一个页面？

我在前端使用 Reactjs 并在后端使用 Laravel 开发了一个注册页面我希望当我单击注册按钮时它将被重定向到我的登录页面我的注册组件是 handleSubmit event gt event preventDefault co
AWS S3 预签名 URL 的 IAM 角色

我正在 EC2 实例中部署一个服务器程序该实例需要能够为 s3 创建预签名 URL 到目前为止我已将 AWS 凭证放在环境变量中进行测试但我现在想切换到 IAM 角色策略但是我不确定该角色也应该有权访问哪些策略我最初的猜测是拥有
流口水中的无状态与有状态会话行为

我是新来的流口水我试图了解 Drools 提供的无状态会话和有状态会话之间的区别据我初步了解在无状态会话的情况下如果在任何规则的操作执行期间修改了事实则不会重新提交给推理引擎来查找与修改的事实相匹配的新规则在有状态会话的情况下
用教义 2 DBAL 连接子查询

我正在重构 Zend 框架2应用程序使用学说 2 5 DBAL 而不是 Zend DB ZF1 我有以下 Zend Db 查询 subSelect db gt select gt from user survey status entrie
如何在 Angular 中的 chrome 浏览器中捕获控制台日志

这是我为日志错误警告和调试编写的代码片段如何查看浏览器中存储的值 let defaultLog console log bind console let defaultError console error bind console
C++ 模板似乎破坏了访问说明符

由于明显的原因以下代码无法编译即 Foo 正在尝试访问 Bar 的私有成员但是如果您取消注释注释标记的行使 Foo 成为模板它会编译并输出 42 我在这里缺少什么为什么这有效在我看来不应该感谢您的帮助 include
如何以编程方式向 DRF 3 中的 PrimaryKeyRelatedField 提供“queryset”

为了有一个非只读PrimaryKeyRelatedField 您需要提供包含有效选项的查询集如何根据当前请求用户正确填充该查询集关键是子类化PrimaryKeyRelatedField并超载get queryset方法使用请求上下
R 中的卡方拟合优度检验

我有一个观察值向量还有一个用模型计算的值向量 actual lt c 1411 439 214 100 62 38 29 64 expected lt c 1425 3 399 5 201 6 116 9 72 2 46 3 30 4 6
连接两个表而不返回不需要的行

我的表结构如下所示 tbl users tbl issues userid real name issueid assignedid creatorid 1 test 1 1 1 1 2 test 2 2 1
C++ GUI 桌面 Windows 应用程序的测试自动化工具/库/框架

不幸的是我有一个在 Windows 上运行的 GUI 桌面应用程序并使用 Borland C 编译器进行编译我知道这是一项非常古老的技术但这就是生活我工作的公司有很多免费的 QTP 许可证但说实话我不喜欢这个工具我想用一些开
在 Google App Engine 上连接 Mongoose

我已在 Google App Engine 上成功部署了自定义 Node js 应用程序但是我在启动应用程序时遇到问题因为猫鼬在尝试连接时超时令人沮丧的是猫鼬在我的本地计算机上以完全相同的参数连接得很好我的 MongoDb UR
“gulp”不被识别为内部或外部命令

我正在尝试使用Gulp http gulpjs com and Node Js https nodejs org en 流式传输我的生产过程中缩小和连接 CSS JS 文件的过程这是我所做的我安装了Node Js https nodej
标记上存在语法错误，需要 AnnotationName - 查询错误

我收到了令牌语法错误 AnnotationName 预期出现在以下行 query findInBackground new FindCallback
使用 scipy 的solve_bvp 求解 BVP

我有一个由 3 个微分方程组成的系统我相信从代码中可以明显看出具有 3 个边界条件我设法在 MATLAB 中用一个循环来解决这个问题一点一点地改变最初的猜测而不会在程序即将返回错误时终止程序然而关于scipy s solve
ASP.Net MVC 3 JSON 模型绑定和服务器端模型验证与客户端验证混合

我一直在使用新的 MVC3 Json 模型绑定它非常好目前我可以将 JSON 发布到控制器并绑定它模型验证也进展顺利但如果模型无效怎么办我想返回 JSON 并让客户端通知用户就像在 mvc 中执行正常客户端验证的方式一样有谁
C# 从字符串中删除制表符，制表符识别

我想从字符串中删除制表符我正在使用这段代码但它不起作用 string strWithTabs here is a string with a tab tab character char tab u0009 String line st
使用 SciKit-learn 和大型数据集进行文本分类

首先我昨天开始学习Python 我正在尝试使用 SciKit 和大型数据集 250 000 条推文进行文本分类对于该算法每条推文都将表示为 4000 x 1 向量因此这意味着输入为 250 000 行和 4000 列当我尝试在

使用 SciKit-learn 和大型数据集进行文本分类

使用 SciKit-learn 和大型数据集进行文本分类 的相关文章

随机推荐

热门标签

使用 SciKit-learn 和大型数据集进行文本分类的相关文章