Python 的 tfidf 数据框

2024-01-31

我必须对一些情绪进行分类我的数据框是这样的

Phrase                      Sentiment    
is it  good movie          positive    
wooow is it very goode      positive    
bad movie                  negative

我做了一些预处理，如标记化、停止词词干等……我得到了

Phrase                      Sentiment    
[ good , movie  ]        positive    
[wooow ,is , it ,very, good  ]   positive 
[bad , movie ]            negative

我最终需要获得一个数据框，其中行是文本，值是 tf_idf，列是这样的单词

good     movie   wooow    very      bad                Sentiment
tf idf    tfidf_  tfidf    tf_idf    tf_idf               positive
(same thing for the 2 remaining lines)

I'd use sklearn.feature_extraction.text.TfidfVectorizer http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html，它是专门为此类任务设计的：

Demo:

In [63]: df
Out[63]:
                   Phrase Sentiment
0       is it  good movie  positive
1  wooow is it very goode  positive
2               bad movie  negative

解决方案：

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

vect = TfidfVectorizer(sublinear_tf=True, max_df=0.5, analyzer='word', stop_words='english')

X = vect.fit_transform(df.pop('Phrase')).toarray()

r = df[['Sentiment']].copy()

del df

df = pd.DataFrame(X, columns=vect.get_feature_names())

del X
del vect

r.join(df)

Result:

In [31]: r.join(df)
Out[31]:
  Sentiment  bad  good     goode     wooow
0  positive  0.0   1.0  0.000000  0.000000
1  positive  0.0   0.0  0.707107  0.707107
2  negative  1.0   0.0  0.000000  0.000000

UPDATE:节省内存解决方案：

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

vect = TfidfVectorizer(sublinear_tf=True, max_df=0.5, analyzer='word', stop_words='english')

X = vect.fit_transform(df.pop('Phrase')).toarray()

for i, col in enumerate(vect.get_feature_names()):
    df[col] = X[:, i]

UPDATE2: 内存问题最终解决的相关问题 https://stackoverflow.com/questions/41916560/pandas-dataframe-memory-python

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

textmining

tfidf

Python 的 tfidf 数据框的相关文章

如何在Python中循环并存储自变量中的值

我对 python 很陌生所以这听起来可能很愚蠢我进行了搜索但没有找到解决方案我在 python 中有一个名为 ExcRng 的函数我可以对该函数执行什么样的 for 循环以便将值存储在独立变量中我不想将它们存储在列表中而是
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
Tensorflow 可变图像输入大小（自动编码器、放大......）

Edit WARNING不建议使用不同图像大小的图像因为张量需要具有相同的大小才能实现并行化我一直在寻找解决方案了解如何使用不同大小的图像作为神经网络的输入 Numpy 第一个想法是使用numpy 然而由于每个图像的大小不同我无法
python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
为什么 Python 中的“pip install”会引发语法错误？

我正在尝试使用 pip 安装软件包我试着跑pip install从Python shell 但我得到了SyntaxError 为什么我会收到此错误如何使用 pip 安装软件包 gt gt gt pip install selenium
sudo pip install python-Levenshtein 失败，错误代码 1

我正在尝试在 Linux 上安装 python Levenshtein 库但每当我尝试通过以下方式安装它时 sudo pip install python Levenshtein 我收到此错误命令 usr bin python c 导入
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
如何通过双击在浏览器中打开 ipynb 文件

以前我安装了 Canopy 当时我只需双击 ipynb 文件并在浏览器中打开它们即可但是后来我需要Anaconda 一旦我安装了它这个功能就没有了现在我只希望能够简单地双击 ipynb 文件然后该文件就会在 Firefox 中
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
如何在与应用程序初始化文件不同的文件中迭代 api 路由

我有一个 apiroutes py 文件其中定义了许多路由例如 api route api read methods GET api route api write methods POST 其中 api 是导入 from import
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
检查字符串是否只有字母和空格 - Python

试图让 python 返回一个字符串仅包含字母和空格 string input Enter a string if all x isalpha and x isspace for x in string print Only alphabe

随机推荐

将单元格中的值范围转换为逗号分隔列表

我可以在单元格 B1 中使用一个公式来查看 A1 并创建一个基于逗号的列表吗所以下面我可以输入 A1 B1是一个公式这可能吗我会让 A1 始终遵循与 XXX XXX 范围相同的格式 TABLE A Input B Result 1 1
网站图标-MVC3 ASP.NET

favicon ico 需要什么我正在尝试使用 MVC 错误处理但它抱怨文件丢失如何摆脱此错误 Thanks 前往RegisterRoutes的方法全局 asax cs文件并将其添加为第一行之一 routes IgnoreRoute
MATLAB脚本代码和函数代码在同一个文件中？ [复制]

这个问题在这里已经有答案了可能的重复在 MATLAB 中我可以在同一个文件中包含脚本和函数定义吗 https stackoverflow com questions 5363397 in matlab can i have a scr
通过网络（FTP、HTTP、RSync 等）传输文件的最快方法是什么[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我试图找出通过网络在两个系统之间传输大量数据的最佳方法我目前正在研究 FTP HTTP 或 RSync 我想知道哪一个最快我在网上寻找
获取 SQLalchemy Instrumentedattribute 的值

我怎样才能获取a的值InstrumentedAttributeSQLalchemy 中的对象 Pdb ResultLine item reference 1
如何删除所有神秘的“index on”和“WIP on”提交？

我刚刚被要求修复我的应用程序中的一个错误我收藏了我当前的工作并查看了我的最新版本标签我立即注意到这是一个错误因为 Git 消息告诉我我的提交不会被保存所以我检查了master反而但在我这样做之前我已经打开了我的藏品重新藏起来的
在一个事务 SQL 中删除和插入

我只是想问封装到事务时是否总是第一个查询被执行例如我有50万条记录要删除 50万条记录要插入是否有可能锁定实际上我已经测试了这个查询并且它工作正常但我想确定我的假设是否正确注意这将删除并插入相同的记录并可能更新其他列 BEGI
下拉选择控件 - Windows 8 Metro - XAML

我想要如下图所示的下拉菜单我不知道如何得到它们我想这些是某种组合框但我不确定任何人都可以帮助我并提供 xaml 代码吗谢谢我想你正在寻找组合框 Windows 8 商店控件列表 MSDN http msdn microsoft
ng-click 在 MVC 部分视图中不起作用

我有一个使用 angular js 和 MVC 的单页面应用程序该页面调用两个部分视图 Menu Accounts 菜单加载良好当用户单击菜单项时我使用角度 ng click 调用另一个部分视图并将部分视图结果注入主页中问题是我的
LAMP 显示 php 错误

我已经安装了开发人员的 LAMP 服务器并在 php ini 上进行了更改显示错误打开显示启动错误打开但它没有显示任何错误甚至没有一点警告问题出在哪里出了什么问题请记住大多数系统都有两个 php ini 文件一个用于网络服
在 matplotlib 中绘制黑白二值图

我使用 python 来模拟一些自动化模型并在 matplotlib 的帮助下生成如下所示的图我目前正在使用以下命令进行绘图 ax imshow self g cmap map interpolation nearest where s
使用maven scm插件提交多个文件

我想使用 maven scm 插件 v1 9 4 在不同的文件夹中 git 提交两个文件例如 abc p json and xyz p json 我不想提交任何其他文件例如other p json 根据文档 http maven apa
Ninject：将多种类型绑定到同一个单例实例

interface IService
将 JSON 数组发布到 Android 中的 Web 服务

我在执行一项相当简单的任务时遇到了一些问题我只需要一个 JSON 数组其中包含一个 JSON 对象即可发布到我的 Web 服务整个 URL 请求的格式需要如下所示 http www myserver com myservice php
Instagram 用户对象中每个个人简介的空字符串

我已经尝试过通过 Python 中的 API 库以及 Instagram 和 apigee com 提供的 API 控制台我使用请求 GET tags tag name media recent 我试过ferrari tag 所有结果都
奇怪的 lxml 行为

我手动创建 xml 然后尝试使用 xsd 方案验证它验证一开始没有通过但如果我将 xml 转换为字符串并返回那么新的 xml 将通过验证 from lxml import etree xsd etree fromstring
如何合并TypeScript中没有导出接口的命名空间

我在 TypeScript 中使用队列 lib Bull 它的定义是 node modules types bull index d ts declare const Bull queueName string opts Bull Queu
如何更改 Sublime Text 3 for MacOS 中的首选编码

我想在 Yosemite 上的 Sublime Text 3 中将首选编码从 US ASCII 更改为 UTF 8 bash 中的首选编码设置为 UTF 8 因此当 python 在终端中运行时 import locale print lo
隐藏运算符以避免 AST 中出现歧义

我正在尝试伊莎贝尔官方教程中的列表示例我更换了 with 和 with 具有与 Haskell 相同的语法现在我收到有关 AST 中含糊之处的警告我知道我可以隐藏功能hide const但这对于中缀表示法的运算符不起作用如何在伊莎贝
Python 的 tfidf 数据框

我必须对一些情绪进行分类我的数据框是这样的 Phrase Sentiment is it good movie positive wooow is it very goode positive bad movie negative 我做了一

Python 的 tfidf 数据框

Python 的 tfidf 数据框 的相关文章

随机推荐

热门标签

Python 的 tfidf 数据框的相关文章