Scipy.sparse.csr_matrix：如何获取前十个值和索引？

2024-04-06

我有一个大csr_matrix我对前十个值及其每行的索引感兴趣。但我没有找到一个合适的方法来操纵矩阵。

这是我当前的解决方案，主要思想是逐行处理它们：

row = csr_matrix.getrow(row_number).toarray()[0].ravel()
top_ten_indicies = row.argsort()[-10:]
top_ten_values = row[row.argsort()[-10:]]

通过这样做，优点是csr_matrix没有被充分利用。它更像是一个蛮力解决方案。

没看出有什么优点csr格式是在这种情况下。当然，所有非零值都收集在一个值中.data数组，对应的列索引在.indices。但它们是不同长度的块。这意味着它们不能并行处理或与numpy数组步幅。

一种解决方案是将这些块填充为公共长度块。就是这样.toarray()做。然后你可以找到最大值argsort(axis=1) or withargpartition`。

另一种方法是将它们分成行大小的块，并处理每个块。这就是你正在做的.getrow。另一种分解它们的方法是转换为lil格式化并处理子列表.data and .rows arrays.

第三种可能的选择是使用ufunc reduceat方法。这可以让您申请ufunc reduction数组的连续块的方法。有设立ufunc like np.add利用这一点。argsort不是这样的函数。但有一种方法可以构建ufunc来自 Python 函数，并比常规 Python 迭代获得一定的速度。 [我需要查找最近的一个 SO 问题来说明这一点。]

我将用一个更简单的函数“行求和”来说明其中的一些内容。

If A2是一个企业社会责任矩阵。

A2.sum(axis=1)  # the fastest compile csr method
A2.A.sum(axis=1)  # same, but with a dense intermediary
[np.sum(l.data) for l in A2]  # iterate over the rows of A2
[np.sum(A2.getrow(i).data) for i in range(A2.shape[0])]  # iterate with index
[np.sum(l) for l in A2.tolil().data]  # sum the sublists of lil format
np.add.reduceat(A2.data, A2.indptr[:-1])  # with reduceat

A2.sum(axis=1)被实现为矩阵乘法。这与排序问题无关，但仍然是看待求和问题的一种有趣的方式。记住csr格式是为了有效乘法而开发的。

对于我当前的样本矩阵（为另一个稀疏问题创建）

<8x47752 sparse matrix of type '<class 'numpy.float32'>'
     with 32 stored elements in Compressed Sparse Row format>

一些比较时间是

In [694]: timeit np.add.reduceat(A2.data, A2.indptr[:-1])
100000 loops, best of 3: 7.41 µs per loop

In [695]: timeit A2.sum(axis=1)
10000 loops, best of 3: 71.6 µs per loop

In [696]: timeit [np.sum(l) for l in A2.tolil().data]
1000 loops, best of 3: 280 µs per loop

其他都是 1ms 或更长。

我建议专注于开发单行函数，例如：

def max_n(row_data, row_indices, n):
    i = row_data.argsort()[-n:]
    # i = row_data.argpartition(-n)[-n:]
    top_values = row_data[i]
    top_indices = row_indices[i]  # do the sparse indices matter?
    return top_values, top_indices, i

然后看看 if 如何适合这些迭代方法之一。tolil()看起来最有前途。

我还没有解决如何收集这些结果的问题。它们应该是列表的列表、具有 10 列的数组、另一个每行 10 个值的稀疏矩阵等等？

对大型稀疏数据的每一行进行排序并保存前 K 值和列索引 https://stackoverflow.com/questions/20297071/sorting-each-row-of-a-large-sparse-saving-top-k-values-column-index- 几年前有类似的问题，但没有答案。

scipy稀疏矩阵中每行或每列的Argmax https://stackoverflow.com/questions/30742572/argmax-of-each-row-or-column-in-scipy-sparse-matrix- 最近寻求问题argmax对于行csr。我讨论了一些相同的问题。

如何加快 numpy 中的循环速度？ https://stackoverflow.com/questions/31622801/how-to-speed-up-loop-in-numpy/31623674#31623674- 如何使用的示例np.frompyfunc创建一个ufunc。我不知道结果函数是否具有.reduceat method.

增加稀疏矩阵中前 k 个元素的值 https://stackoverflow.com/questions/24868129/increasing-value-of-top-k-elements-in-sparse-matrix/24868338#24868338- 获取 csr 的前 k 个元素（不是按行）。案例argpartition.

行求和实现为np.frompyfunc:

In [741]: def foo(a,b):
    return a+b  
In [742]: vfoo=np.frompyfunc(foo,2,1)
In [743]: timeit vfoo.reduceat(A2.data,A2.indptr[:-1],dtype=object).astype(float)
10000 loops, best of 3: 26.2 µs per loop

这是令人尊敬的速度。但我想不出一种编写可以实现的二元函数（需要两个参数）的方法argsort通过减少。所以这可能是这个问题的死胡同。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scipy.sparse.csr_matrix：如何获取前十个值和索引？的相关文章

如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

如何将两个STL向量的元素相加？

这个问题很愚蠢但我需要以一种非常有效的方式来做它将在我的代码中一遍又一遍地执行我有一个返回向量的函数我必须将返回的值逐个元素添加到另一个向量中非常简单 vector
两个不同流上的operator<<(ostream&, obj) 线程安全吗？

include
为什么我不能使用 KVC 从 Objective-C 对象到 Swift 属性？

我的团队决定新文件应该用 swift 编写并且我在 Objective C 对象中使用 KVC 在 Swift 对象上设置属性时发现了一个奇怪的问题我的 Objective C 设置如下属性 textObject setValue 0
LUIS 给出 403 错误“通话量配额”。使用创作资源 F0 在门户中进行测试时

当我尝试测试 LUIS 应用程序时它抛出 403 错误并显示以下消息 LUIS 的未通话量配额正在编写 F0 定价等级请在 9 天后重试要增加通话量请切换到付费等级我正在使用 Azure 创作资源密钥层 F0 它有一个limit
在单独的 TypeScript 项目之间共享接口

tl 博士在底部我有一个用 TypeScript 编写的网络服务器和一个用 TypeScript 编写的客户端 SPA 我的想法是共享请求和响应数据的接口以充分利用类型安全我的大问题是客户端和服务器是同级文件夹每个文件夹都有自己的
子查询返回超过 1 个值。当子查询时这是不允许的

我正在尝试使用 SQL 从 SCCM 返回 Windows 更新合规性数据我已从内置 SSRS 报告中提取了查询我没有为每个 colname 计算机组运行单独的查询而是尝试通过将 colname 声明为表并插入多个值来合并为一个查询
FSGetVolumeInfo 是 NSWorkspace 已弃用的 MountedLocalVolumePaths 方法的推荐替代方法吗？

我需要获取 Mac OS X 上已安装的本地卷的列表以前 Cocoa 类NSWorkspace had a mountedLocalVolumePaths method https developer apple com library
下载弹出窗口中的内容

下面是点击打开窗口时弹出窗口的 html 代码我添加了下载按钮在其中一旦用户单击它就应该下载该表我在这里缺少一些东西谁能帮我我已经快到最后阶段了唯一悬而未决的是下载内容 table border 1 tr th th t
VS Code 无法打开终端

由于某种原因 vscode 停止打开集成终端现在每次尝试打开终端时都会出现错误我已经尝试过重新安装 Git 但到目前为止还没有任何想法这里我留下了配置和错误的图片我什至尝试将 bash 终端更改为 powershell 但仍然没有任
数据类型的数据模板 - 如何在特定列表框中覆盖此数据模板？

我为我的宠物项目中的一些数据类型创建了几个数据模板这些数据模板非常酷因为它们像魔法一样工作无论何时何地出现在 UI 中都会神奇地改变数据类型实例的外观现在我希望能够在一个特定的列表框中更改这些数据类型的数据模板这是否意味着我必须
这个格式字符串有什么问题？

我有一个像这样的字符串
Cygwin 中的 vim 在打开文件时将第一个字符替换为“g”

我在 Cygwin 终端中使用 vim 一切正常最近我在 Cygwin 中添加了一个包导致 vim 和其他一些组件的更新现在当我在 vim 中打开任何文件时文件中的第一个字符将被替换为字符 g 我尝试删除 vimrc 以及我的主
Chrome 扩展程序弹出窗口不再显示

我正在创建一个新的 Chrome 扩展程序一切都很好然而今天我正在编写一个新函数然后我看到我的扩展图标变成了灰色当我单击该图标时不会显示弹出窗口有趣的一点是该扩展正在运行没有错误日志我把自己写的代码都注释掉了但是没有效果
NHibernate：更改父级 - “删除的对象将通过级联重新保存”

正如标题所说基本上我想做的是改变孩子的父母但是当我尝试这样做时出现异常 ObjectDeletedException 已删除的对象将由级联重新保存从关联中删除已删除的对象我已经在谷歌上搜索了几个小时但我找到的解决方案都不适合我
在新文本文件中打印替换行

我正在尝试编辑 matlabfile 并替换某些特定行中的一些编码部分 init 但是使用下面的格式进行更改根本不会更改行上下文它将打印相同的旧行知道我做错了什么吗 replaceAll 不适合将行中的某些单词替换为其他单词提前致谢
参考 UWP 类库中的 ResourceDictionary

我们有一个使用模板 10 的 UWP 应用资源位于同一解决方案的 UWP 类库中当我们运行应用程序时我们收到错误 Windows UI Xaml Markup XamlParseException 无法从 ms resource Fi
在 React 中的图表 js-2 的圆环图中添加文本

i want to add a text message inside my doughnut pie chart To be more specific i want something like this 我在堆栈溢出中遇到了同样的问题
RecyclerView延迟加载（通用图像加载器）

Using Android 通用图像加载器 https github com nostra13 Android Universal Image Loader和 RecyclerView 异步加载图像我遇到了与其他人相同的错误图像混合在一
mrjob组合器不工作python

简单的映射组合reduce程序映射column 1与值column 3并追加在相同键和附加的每个映射器输出中减少相同密钥的输出后 input 1 and input 2两个文件都包含 a 1 2 3 a 4 5 6 Code is f
Scipy.sparse.csr_matrix：如何获取前十个值和索引？

我有一个大csr matrix我对前十个值及其每行的索引感兴趣但我没有找到一个合适的方法来操纵矩阵这是我当前的解决方案主要思想是逐行处理它们 row csr matrix getrow row number toarray 0 rav

Scipy.sparse.csr_matrix：如何获取前十个值和索引？

Scipy.sparse.csr_matrix：如何获取前十个值和索引？ 的相关文章

随机推荐

热门标签

Scipy.sparse.csr_matrix：如何获取前十个值和索引？的相关文章