scipy.sparse.coo_matrix 如何快速找到全零列，填充 1 并标准化

2023-12-09

对于矩阵，我想找到全为零的列并用 1 填充，然后按列对矩阵进行归一化。我知道如何使用 np.arrays 做到这一点

[[0 0 0 0 0]
 [0 0 1 0 0]
 [1 0 0 1 0]
 [0 0 0 0 1]
 [1 0 0 0 0]]      
     |
     V
[[0 1 0 0 0]
 [0 1 1 0 0]
 [1 1 0 1 0]    
 [0 1 0 0 1]
 [1 1 0 0 0]]
     |
     V
[[0   0.2 0 0 0]
 [0   0.2 1 0 0]
 [0.5 0.2 0 1 0]   
 [0   0.2 0 0 1]
 [0.5 0.2 0 0 0]]

但是，当矩阵采用 scipy.sparse.coo.coo_matrix 形式时，我该如何做同样的事情，而不将其转换回 np.arrays 。我怎样才能实现同样的目标？

这会容易得多lil格式，并使用行而不是列：

In [1]: from scipy import sparse
In [2]: A=np.array([[0,0,0,0,0],[0,0,1,0,0],[1,0,0,1,0],[0,0,0,0,1],[1,0,0,0,0]])
In [3]: A
Out[3]: 
array([[0, 0, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [1, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0]])
In [4]: At=A.T                # switch to work with rows

In [5]: M=sparse.lil_matrix(At)

现在很明显哪一行全为零

In [6]: M.data
Out[6]: array([[1, 1], [], [1], [1], [1]], dtype=object)
In [7]: M.rows
Out[7]: array([[2, 4], [], [1], [2], [3]], dtype=object)

And lil格式允许我们填充该行：

In [8]: M.data[1]=[1,1,1,1,1]
In [9]: M.rows[1]=[0,1,2,3,4]
In [10]: M.A
Out[10]: 
array([[0, 0, 1, 0, 1],
       [1, 1, 1, 1, 1],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0]], dtype=int32)

我也可以用M[1,:]=np.ones(5,int)

The coo格式非常适合从以下位置创建数组data/row/col数组，但不实现索引或数学。它必须转变为csr为了那个原因。和csc对于面向列的东西。

我填写的行在 csr 格式中并不那么明显：

In [14]: Mc=M.tocsr()
In [15]: Mc.data
Out[15]: array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)
In [16]: Mc.indices
Out[16]: array([2, 4, 0, 1, 2, 3, 4, 1, 2, 3], dtype=int32)
In [17]: Mc.indptr
Out[17]: array([ 0,  2,  7,  8,  9, 10], dtype=int32)

另一方面，这种格式的标准化可能更容易。

In [18]: Mc.sum(axis=1)
Out[18]: 
matrix([[2],
        [5],
        [1],
        [1],
        [1]], dtype=int32)
In [19]: Mc/Mc.sum(axis=1)
Out[19]: 
matrix([[ 0. ,  0. ,  0.5,  0. ,  0.5],
        [ 0.2,  0.2,  0.2,  0.2,  0.2],
        [ 0. ,  1. ,  0. ,  0. ,  0. ],
        [ 0. ,  0. ,  1. ,  0. ,  0. ],
        [ 0. ,  0. ,  0. ,  1. ,  0. ]])

请注意，它将稀疏矩阵转换为稠密矩阵。这sum是稠密的，涉及稀疏和稠密的数学通常会产生稠密。

我必须使用更全面的计算来保留稀疏状态：

In [27]: Mc.multiply(sparse.csr_matrix(1/Mc.sum(axis=1)))
Out[27]: 
<5x5 sparse matrix of type '<class 'numpy.float64'>'
    with 10 stored elements in Compressed Sparse Row format>

这是一种使用以下方法执行此操作的方法csc格式（在A)

In [40]: Ms=sparse.csc_matrix(A)
In [41]: Ms.sum(axis=0)
Out[41]: matrix([[2, 0, 1, 1, 1]], dtype=int32)

Use sum找到全零列。显然，如果列有负值并且总和为 0，这可能是错误的。如果这是一个问题，我可以看到使用所有内容制作矩阵的副本data值替换为 1。

In [43]: Ms[:,1]=np.ones(5,int)[:,None]
/usr/lib/python3/dist-packages/scipy/sparse/compressed.py:730: SparseEfficiencyWarning: Changing the sparsity structure of a csc_matrix is expensive. lil_matrix is more efficient.
  SparseEfficiencyWarning)
In [44]: Ms.A
Out[44]: 
array([[0, 1, 0, 0, 0],
       [0, 1, 1, 0, 0],
       [1, 1, 0, 1, 0],
       [0, 1, 0, 0, 1],
       [1, 1, 0, 0, 0]])

如果您反复进行此类更改，则警告会更重要。请注意，我必须调整 LHS 数组的尺寸。根据全零列的数量，此操作可以显着改变矩阵的稀疏性。

=================

我可以搜索col of coo缺失值的格式为：

In [69]: Mo=sparse.coo_matrix(A)
In [70]: Mo.col
Out[70]: array([2, 0, 3, 4, 0], dtype=int32)

In [71]: Mo.col==np.arange(Mo.shape[1])[:,None]
Out[71]: 
array([[False,  True, False, False,  True],
       [False, False, False, False, False],
       [ True, False, False, False, False],
       [False, False,  True, False, False],
       [False, False, False,  True, False]], dtype=bool)

In [72]: idx = np.nonzero(~(Mo.col==np.arange(Mo.shape[1])[:,None]).any(axis=1))[0]
In [73]: idx
Out[73]: array([1], dtype=int32)

然后我可以在此处添加一列 1idx with:

In [75]: N=Mo.shape[0]
In [76]: data = np.concatenate([Mo.data, np.ones(N,int)])
In [77]: row = np.concatenate([Mo.row, np.arange(N)])
In [78]: col = np.concatenate([Mo.col, np.ones(N,int)*idx])
In [79]: Mo1 = sparse.coo_matrix((data,(row, col)), shape=Mo.shape)
In [80]: Mo1.A
Out[80]: 
array([[0, 1, 0, 0, 0],
       [0, 1, 1, 0, 0],
       [1, 1, 0, 1, 0],
       [0, 1, 0, 0, 1],
       [1, 1, 0, 0, 0]])

正如所写，它仅适用于一列，但它可以推广到几列。我还创建了一个新矩阵而不是更新Mo。但这就地似乎也有效：

Mo.data,Mo.col,Mo.row = data,col,row

正常化仍需csr转换，虽然我认为sparse可以为你隐藏它。

In [87]: Mo1/Mo1.sum(axis=0)
Out[87]: 
matrix([[ 0. ,  0.2,  0. ,  0. ,  0. ],
        [ 0. ,  0.2,  1. ,  0. ,  0. ],
        [ 0.5,  0.2,  0. ,  1. ,  0. ],
        [ 0. ,  0.2,  0. ,  0. ,  1. ],
        [ 0.5,  0.2,  0. ,  0. ,  0. ]])

即使当我承担维持稀疏性质的额外工作时，我仍然得到csr matrix:

In [89]: Mo1.multiply(sparse.coo_matrix(1/Mo1.sum(axis=0)))
Out[89]: 
<5x5 sparse matrix of type '<class 'numpy.float64'>'
    with 10 stored elements in Compressed Sparse Row format>

See

查找 pandas 稀疏矩阵中的全零列

了解查找 0 列的更多方法。事实证明Mo.col==np.arange(Mo.shape[1])[:,None]大的时候太慢Mo。测试使用np.in1d好多了。

1 - np.in1d(np.arange(Mo.shape[1]),Mo.col)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

scipy

linearalgebra

sparsematrix

scipy.sparse.coo_matrix 如何快速找到全零列，填充 1 并标准化的相关文章

InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

数据框中连续出现的情况

我有上面的数据框包含不同的测量值我想确定连续测量值长度大小大于或等于 6 w一次拍摄t 例如在以下情况id 1 from t3 t8有6连续的w记录的措施我想将结果保存到2个数据框中 df1 At least 6 consecuti
iOS NSDateFormatter 需要 NSLocale 即使它是 UTC

我怀疑我无法理解为什么会这样我向这个网站的诸神求助我有一个约会是这样的 1982 01 01T00 00 00Z 当我显示服务器发送的任何内容时我知道客户要求不是好的做法我强制设备使用以下方法具有该时区在没有错误检查的情况下进
很困惑将代码放入 AsyncTask 中

我有这个代码来接收聊天消息但当我试图把它放进去时我很困惑AsyncTask 我有警告read cannot be resolved for read readline 当我把它放进去时postexecute 我想让这段代码在后台工作以检
不可能将对象添加到可变数组

我正在尝试将 Song 对象添加到可变数组中但我很困惑因为尽管添加了对象但数组的计数并未增加 Song h import
Python 中的 cURL 帮助

我必须向服务器发送请求在该网站的 API 文档中有一个在 PHP 中使用 cURL 的示例 ch curl init curl setopt ch CURLOPT URL http api website com curl setopt
在 HTML 中呈现任意 JSON

我正在编写一个数据查看器页面来呈现从服务器作为 JSON 发送的对象 JSON 对象的内容和复杂性各不相同从具有少量属性的平面对象到具有多层嵌套和数组字段的较大结构我想做的是渲染对象的简单表示可能作为 ul 从那里我可以添加一些东西来
将两个 Unity 项目导入 Android Studio 无法按预期工作

我目前正在接受培训制作使用 Unity 添加一些功能 AR VR 等的应用程序目前我一直在使用 Android Studio 开发 Android 一旦完成我将在 iOS 上进行训练我的目标很简单我的MainActivity显示
在 Jupyter 实验室中以深色主题绘制 R 几乎不可见

我尝试在 Jupyter 实验室中使用 R 内核进行绘图并将 Jupyter 实验室主题设置为 Jupyterlab dark 下面是我的代码 options repr plot width 20 repr plot height 5 p
使用三元表达式返回会在第一次迭代时中断 foreach 循环

好的我测试了以下内容我会让您知道我的发现 echo 1 lt 0 true false will echo true echo 1 gt 0 true false will echo true Notice that 1 and 1 a
在armeabi-v7a中，streqh导致“无效指令，您的意思是：strexh，strh？”。 “eq”去哪儿了？

我在尝试为 armeabi v7a 编译的一些 ARM 代码中遇到此错误显然是 v7a 之前的内容 jni 6502asm arm S 108 2 error invalid instruction did you mean strexh
每次列中字符串值发生变化时如何拆分数据框？

我有一个以下形式的数据框 time value label 0 2020 01 01 0 556014 high 1 2020 01 02 0 185451 high 2 2020 01 03 0 401111 medium 3 2020
if 语句如何工作？

我正在用 Python 制作一款基于文本的俄罗斯轮盘游戏但我还没有完成只需查看我的代码就可以看出 usr bin env python print The maximum number of bullets is 3 bulletcou
错误“相机已取消” - App Sencha with PhoneGap

我正在开发一个应用程序您可以用手机拍照并将其发送到社交网络我的应用程序是使用 sencha touch 2 和 Phonegap 开发的当我尝试拍照时我的应用程序重新启动并给出错误相机已取消我尝试查看 console logs
Perl 相当于 (Postgresql BETWEEN 运算符?

有这样的事吗相当于a lt expr lt b 或者用 SQL 术语来说expr BETWEEN a AND b where expr只评估一次或者只是要求这个变得愚蠢在 Perl 中有多种方法可以做到这一点 if a lt x a
如何在设定的时间后自动保存并退出工作表？（Excel VBA）

如果超过 5 分钟没有任何活动是否有办法让打开的工作表自行关闭举例来说我在一张工作表上工作了一段时间然后打开该工作表走开 20 分钟网络上的某人需要访问该工作表但无法访问因为我正在其中我希望这样在我离开办公桌超过 5 分钟后
将函数从递归转换为迭代

我写的这个函数非常慢因为 php 不能很好地处理递归我正在尝试将其转换为 while 循环但我无法理解如何做到这一点谁能给我一些建议吗 public function findRoute curLoc distanceSoFar e
验证输入框中的用户输入

当我运行以下代码片段并输入可接受的值时我得到了所需的结果 do while len strselect 0 or strselect lt gt 1 or strselect lt gt 2 or strselect lt gt 3 st
如何使用 node.js（Firefox 或 Chrome）在 Heroku 上运行 Selenium-Webdriver

我想在 Heroku 上使用 Selenium 和 Firefox 或其他能够显示视频的浏览器不幸的是 PhantomJS 不起作用因为浏览器无法播放视频我已经通过使用这些构建包在 Firefox 中进行了尝试 https githu
如何使用 Python 中的 Plotly Express 向每个条形图添加可点击的链接？

所以基本上我希望用户在单击条形图中的条形时被定向到特定网站但我不知道该怎么做也找不到这方面的资源您可以在以下位置使用 HTML注释 import pandas as pd import plotly express as px df
scipy.sparse.coo_matrix 如何快速找到全零列，填充 1 并标准化

对于矩阵我想找到全为零的列并用 1 填充然后按列对矩阵进行归一化我知道如何使用 np arrays 做到这一点 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 1 1 0 0 0 0 V 0 1 0 0 0

scipy.sparse.coo_matrix 如何快速找到全零列，填充 1 并标准化

scipy.sparse.coo_matrix 如何快速找到全零列，填充 1 并标准化 的相关文章

随机推荐

热门标签

scipy.sparse.coo_matrix 如何快速找到全零列，填充 1 并标准化的相关文章