如何使用 Scipy 处理巨大的稀疏矩阵构造？

2023-12-21

因此，我正在处理维基百科转储来计算大约 5,700,000 个页面的页面排名。这些文件经过预处理，因此不是 XML 格式。
它们取自http://haselgrove.id.au/wikipedia.htm http://haselgrove.id.au/wikipedia.htm格式为：

from_page(1): to(12) to(13) to(14)..
from_page(2): to(21) to(22)..
.
.
.
from_page(5,700,000): to(xy) to(xz)

很快。所以。基本上它是一个构造[5,700,000*5,700,000]矩阵，这只会破坏我的 4 GB 内存。因为它非常非常稀疏，这使得使用它更容易存储scipy.lil.sparse or scipy.dok.sparse，现在我的问题是：

我到底该如何转换.txt包含稀疏矩阵链接信息的文件？读取它并将其计算为普通的 N*N 矩阵，然后将其转换还是什么？我不知道。

此外，链接有时会跨行，那么处理这种情况的正确方法是什么？
例如：随机线就像..

[
1: 2 3 5 64636 867
2:355 776 2342 676 232
3: 545 64646 234242 55455 141414 454545 43
4234 5545345 2423424545
4:454 6776
]

完全像这样：没有逗号，也没有分隔符。

任何有关稀疏矩阵构造和跨行数据处理的信息都会有所帮助。

Scipy 提供了几种稀疏矩阵的实现。它们每个都有自己的优点和缺点。您可以找到有关矩阵格式的信息here http://docs.scipy.org/doc/scipy-0.14.0/reference/sparse.html:

有多种方法可以获得所需的稀疏矩阵。由于内存要求很高（大约 10^12 个条目！），计算完整的 NxN 矩阵然后进行转换可能是不可能的。

在你的情况下，我会准备你的数据来构建一个酷矩阵 http://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.sparse.coo_matrix.html#scipy.sparse.coo_matrix.

coo_matrix((data, (i, j)), [shape=(M, N)])

data[:] the entries of the matrix, in any order
i[:] the row indices of the matrix entries
j[:] the column indices of the matrix entries

您可能还想看看小矩阵 http://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.sparse.lil_matrix.html#scipy.sparse.lil_matrix，可用于逐步构建矩阵。

创建矩阵后，您可以根据您的用例将其转换为更适合计算的格式。

我不认识数据格式，可能有解析器，也可能没有。不过，编写自己的解析器应该不会很困难。包含冒号的每一行开始一个新行，冒号之后以及不带冒号的连续行中的所有索引都是该行的列条目。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Scipy 处理巨大的稀疏矩阵构造？的相关文章

有没有办法降低 scipy/numpy 精度以减少内存消耗？

在我的 64 位 Debian Lenny 系统 4GByte RAM 4GByte 交换分区上我可以成功执行以下操作 v array 10000 random 512 512 512 dtype np int16 f fftn v 但
scipy cdist 与稀疏矩阵

我需要计算两组向量之间的距离 source matrix and target matrix 我有以下几行当两者source matrix and target matrix属于类型scipy sparse csr csr matrix
使用和不使用 SciPy 计算 k 组合的数量

我对这个函数感到困惑combSciPy 的 http docs scipy org doc scipy 0 14 0 reference generated scipy misc comb html看起来比简单的 Python 实现要慢这
FutureWarning：使用非元组序列进行多维索引

我收到的警告是 C Users el Anaconda3 envs Py3 lib site packages scipy io matlab miobase py 414 FutureWarning 使用非元组序列进行多维不推荐使用索引
R 中大型稀疏矩阵的聚类分析

我有一个包含 250000 笔交易行和 2183 项列的交易数据集我想将其转换为稀疏矩阵然后对其进行分层聚类我尝试了包 sparcl 但它似乎不适用于稀疏矩阵关于如何解决这个问题有什么建议吗或者我可以使用任何其他包对稀疏矩
使用 scipy.signal.spectrogram 在 pyqtgraph 中绘制 wavfile 的频谱

我有一个用于音乐和语音分析的 PyQt 加 pyqtgraph 程序我想绘制 wav 文件的频谱使用 scipy python 包计算我可以在 matplotlib 中完成但由于 matplotlib 的性能我需要切换到 pyqt
ID3和C4.5：“增益比”如何标准化“增益”？

ID3算法使用信息增益度量 C4 5 使用增益比度量即信息增益除以SplitInfo 然而SplitInfo对于记录在不同结果之间平均分配的分割该值较高否则较低我的问题是这如何帮助解决信息增益偏向于具有多种结果的分裂的问题
计算径向轮廓的最有效方法

我需要优化图像处理应用程序的这一部分它基本上是按距中心点的距离划分的像素的总和 def radial profile data center y x np indices data shape first determine radii
NumPy 数组与 SQLite

我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗我的意思是它可以识别数据类型不需要逐行插入并提取到 NumPy rec 数组中有点
期望最大化抛硬币的例子

我最近一直在自学期望最大化并在这个过程中给自己举了一些简单的例子 http cs dartmouth edu cs104 CS104 11 04 22 pdf http cs dartmouth edu cs104 CS104 11 04
如何将多项式拟合到带有误差线的数据

我目前正在使用 numpy polyfit x y deg 将多项式拟合到实验数据然而我想拟合一个基于点误差使用加权的多项式我已经发现scipy curve fit http docs scipy org doc scipy refe
Matlab没有优化以下内容吗？

我有一个很长的向量 1xrv 和一个很长的向量w1xs 和一个矩阵Arxs 它是稀疏的但维度非常大我期望 Matlab 对以下内容进行优化这样我就不会遇到内存问题 A v w 但看起来 Matlab 实际上是在尝试生成完整的v w矩阵
Matlab 和 Python 中的优化算法（dog-leg trust-region）

我正在尝试使用 Matlab 和 Python 中的狗腿信赖域算法求解一组非线性方程在Matlab中有fsolve https www mathworks com help optim ug fsolve html其中此算法是默认算法而
如何将 python 点列表转换为 numpy 图像数组？

我有一个 python 点列表 x y 坐标 200 245 344 248 125 34 它表示二维平面上的轮廓我想使用一些 numpy scipy 算法进行平滑插值等它们通常需要 numpy 数组作为输入例如scipy ndim
使用 Python 从基于 AJAX 的网站提取信息

我正在尝试使用 Python 检索基于 ajax 的网站例如 www snapbird org 上的查询结果由于它没有显示在页面源中我不确定如何继续我是一个Python新手因此如果我能得到一个指向正确方向的指针那就太好了如果更容
Panda如何将行分组到不同的时间桶中？

我有一个带有名为时间戳的日期时间类型列的数据帧我想根据时间部分的时间戳将数据帧拆分为多个数据帧每个数据帧包含按其值模 x 分钟进行值的行其中 x 是变量请注意e and f不按原来的顺序以 10 分钟为模我希望所有时间都以3在一
Python 有限边界 Voronoi 单元

我正在尝试改编我在 stackoverflow 上找到的代码来创建具有有限边界的 voronoi 单元我发现下面的代码https stackoverflow com a 20678647 2443944 https stackoverfl
在 scipy.stats 中，rv_continuous 有一个 fit 方法来查找 MLE，但 rv_discrete 没有。为什么？

我想找到一些可能受离散分布控制的数据的最大似然估计但在 scipy stats 中只有表示连续分布的类才具有拟合函数来执行此操作代表离散分布的类不具有离散分布的原因是什么简短的回答因为据我所知没有人为其编写代码甚至没有人尝试过
忽略稀疏矩阵中的重复条目

我尝试过初始化csc matrix and csr matrix从列表中 data rows cols 值如文档所示 sparse csc matrix data rows cols shape n n 问题是我实际上拥有的生成方法dat
使用 Python 和 lmfit 拟合复杂模型？

我想适合椭偏仪 http en wikipedia org wiki Ellipsometry使用 LMFit 将数据转换为复杂模型两个测量参数 psi and delta 是复杂函数中的变量rho 我可以尝试将问题分离为实部和虚部共享参

随机推荐

JQGrid排序-如何触发onSortCol事件

我正在尝试获取onSortCol当我按下列标题时事件被触发目前当我单击列标题时我可以看到发送到服务器的请求但我想要onSortCol在此之前被解雇我已将我正在使用的代码粘贴在下面我错过了什么吗如何得到onSortCol上班
运行方式包“a.b.c”未知 - Galaxy S4 Jellybean 或 Android 4.3

我无法为运行 Jellybean 4 2 2 的 Galaxy S4 运行 run as 或 ndk gdb adb shell shell android run as a b c ls run as Package a b c is u
无法找到“org.springframework.security.oauth2.client.registration.ClientRegistrationRepository”类型的 Bean。 - 春季安全

我正在开发一个带有 spring security 的 spring 应用程序并使用 google 登录但在执行该应用程序时出现此错误 APPLICATION FAILED TO START Description Method spri
Android::findViewByID - 如何通过另一个 UI 元素的侦听器获取 TextView 的视图？

这将是一个有点蹩脚的问题我有以下代码 public void onCreate Bundle bundle super onCreate bundle this setContentView R layout main2 Button b
Doctrine2 - 无法删除具有单向 oneToMany 关系的实体

当尝试删除包含单向一对多关联的实体时我遇到了外部约束违规我有以下简单的课程 class Dealer ManyToMany targetEntity Car cascade persist remove JoinTable name d
Chrome 中的后退按钮会破坏页面

我有一个 cakePHP 管理员上面有主题当我在 Chrome 中导航并按下浏览器后退按钮时页面会中断如下所示 HTML的前几行如下
如何获取 Google 文档的说明？

The Goal 假设我在 Google 文档云端硬盘中有一个文档集合文件夹并且我想以编程方式检索与每个文档相关的描述您可以通过选择列表中的文件然后点击眼睛图标来获取此信息工作代码我正在使用用于 Google 数据 API
将 NetworkX 与 matplotlib.ArtistAnimation 结合使用

我想要做的是创建一个动画其中图形的节点随时间改变颜色当我在 matplotlib 中搜索有关动画的信息时我通常会看到如下所示的示例 usr bin python import numpy as np import matplotlib
具有动态创建内容的 document.querySelector [重复]

这个问题在这里已经有答案了我有一个使用 jQuery 动态创建的 div 我正在尝试使用 Wavesurfer js 它需要使用以下方式选择元素document querySelector 由于元素是使用 jQuery 动态创建的因此选
如何直接订阅我的 AWS AppSync 数据源？

我有一个连接到步骤函数的 DynamoDB 并且正在构建一个 UI 来显示更改我将数据库连接到 AppSync 实例并尝试通过 AppSync 使用订阅但它们似乎只观察当前 AppSync 中的突变如何直接订阅数据源变更你是对的
Logstash 不读取文件输入

我在使用 Logstash 时遇到了一个奇怪的问题我提供一个日志文件作为logstash 的输入配置如下 input file type gt apache access path gt C Users spanguluri Downl
+ 符号出现在 R 控制台中

我对编程很陌生我从 R 开始我想制作一个脚本它将一个矩阵作为输入其中包含以下列时间 x y 坐标然后除以在圆形的每个象限中花费的时间区域我有一个粗略完成的脚本但出于某种我不明白的原因当我在编辑器中执行 for 循环时它在
如何将数据从 TableViewCell 中的按钮传递到视图控制器？

我有 2 个 ViewController 其中一个称为 ProductListVC 另一个是 MoreInfoVC 我在 ProductListViewController 上有一个 tableView 它显示单元格多个标签和按钮 Mor
版本“extensions/v1beta1”中没有匹配类型“Deployment”

部署 mojaloop 时 Kubernetes 响应以下错误错误验证失败无法识别类型不匹配版本 apps v1beta2 中的部署无法识别否匹配版本 extensions v1beta1 中的种类 Deployment
可变参数 - 编译器错误无法将类型“[Int]”的值转换为预期参数类型“Int”

新到迅速不确定为什么编译器会给出以下代码的错误 func addNumbers numbers Int gt Int var total Int 0 for number in numbers total number return to
使用 WPF 绘图时如何消除这些“尖峰”视觉伪影？

我当前正在为地图应用程序绘制一些图块小方形图像我正在使用 WPF 在这些图块上绘制形状我有一个地理空间坐标列表它们组成了绘制的多边形组成这些多边形的地理空间坐标被转换为像素坐标这些图块是按照各种设定的细节级别创建的在大多数细节
Angular：在配置/运行之前加载环境属性

我正在开发一个 Angular 应用程序该应用程序有大约 10 个可配置属性取决于环境和客户端我在 json 配置文件中拥有这些属性但这确实很麻烦每个环境公司必须有特定的构建所以我想在应用程序加载时从后端检索这些属性所以为了
使用 WPS 隐藏登录插件后，我被锁定在 WordPress 之外

我有一个我建立的 WordPress 网站我已经安装并使用了 WPS 隐藏登录插件来帮助提高安全性如果有帮助的话我将登录 URL 的值保留为我认为的默认值 login 当我去 login 登录屏幕出现我输入正确的凭据几秒钟后我被重
在 O(E logV) 中求图中的单调最短路径

创意题第 34 题这一页 http algs4 cs princeton edu 44sp 单调最短路径给定一个边加权有向图找到一条从 s 到所有其他顶点的单调最短路径如果路径上每条边的权重严格递增或严格递减则路径是单调的部分解决
如何使用 Scipy 处理巨大的稀疏矩阵构造？

因此我正在处理维基百科转储来计算大约 5 700 000 个页面的页面排名这些文件经过预处理因此不是 XML 格式它们取自http haselgrove id au wikipedia htm http haselgrove id

如何使用 Scipy 处理巨大的稀疏矩阵构造？

如何使用 Scipy 处理巨大的稀疏矩阵构造？ 的相关文章

随机推荐

热门标签

如何使用 Scipy 处理巨大的稀疏矩阵构造？的相关文章