如何合并非常大的 numpy 数组？

2024-05-21

我会有很多Numpy https://docs.scipy.org/doc/numpy-1.14.0/reference/ arrays https://docs.scipy.org/doc/numpy-1.14.0/reference/arrays.html存储在npz https://docs.scipy.org/doc/numpy/neps/npy-format.html文件，正在使用保存保存压缩 https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.savez_compressed.html功能。

我将信息拆分到许多数组中，因为如果不这样做，我使用的函数会因内存问题而崩溃。数据并不稀疏。

我需要将所有这些信息合并到一个唯一的数组中（以便能够使用一些例程处理它），并将其存储到磁盘中（以便使用不同的参数多次处理它）。

数组不适合 RAM+交换内存。

如何将它们合并成一个唯一的数组并将其保存到磁盘上？

我怀疑我应该使用mmap_模式 https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.load.html，但我不知道具体是如何实现的。另外，我想如果我一开始不保留连续的磁盘空间，可能会出现一些性能问题。

我读过了this https://stackoverflow.com/a/30448186/1420303发布，但我仍然不知道该怎么做。

EDIT

澄清：我制作了许多函数来处理类似的数据，其中一些需要数组作为参数。在某些情况下，我可以通过使用切片仅传递这个大数组的一部分。但掌握所有信息仍然很重要。在这样的一个数组中。

这是因为：数组包含按时间排序的信息（来自物理模拟）。在函数的参数中，用户可以设置初始处理时间和最后处理时间。此外，他/她可以设置处理块的大小（这很重要，因为这会影响性能，但允许的块大小取决于计算资源）。因此，我无法将数据存储为单独的块。

这个特定数组（我正在尝试创建的数组）的构建方式在其工作时并不重要。

您应该能够在np.memap array:

import numpy as np

data_files = ['file1.npz', 'file2.npz2', ...]

# If you do not know the final size beforehand you need to
# go through the chunks once first to check their sizes
rows = 0
cols = None
dtype = None
for data_file in data_files:
    with np.load(data_file) as data:
        chunk = data['array']
        rows += chunk.shape[0]
        cols = chunk.shape[1]
        dtype = chunk.dtype

# Once the size is know create memmap and write chunks
merged = np.memmap('merged.buffer', dtype=dtype, mode='w+', shape=(rows, cols))
idx = 0
for data_file in data_files:
    with np.load(data_file) as data:
        chunk = data['array']
        merged[idx:idx + len(chunk)] = chunk
        idx += len(chunk)

然而，正如评论中指出的那样，在不是最快的维度上工作会非常慢。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NumPy

memorymanagement

如何合并非常大的 numpy 数组？的相关文章

Glassfish 上的内存管理

我的 Glassfish 服务器上运行着几个后台任务由 TimerService实例这些服务的目标是从文件中提取数据并将该数据插入数据库我最初尝试在 JPA 中执行此操作但系统很容易就停滞了我现在已将该过程转换为 JDBC 它的响
如何将样条拟合转换为分段函数？

假设我有 import numpy as np from scipy interpolate import UnivariateSpline true data I don t know this function x np linspac
如何在 ndarray 内创建一个球体？ [复制]

这个问题在这里已经有答案了我有一个 ndarray 大小32x32x32 我想在数组内创建一个球体其中心位于 x y 半径为 4 像素球体的值为 1 而数组的值为 0 这如何在 python 中完成这是生成数组的代码 import
ValueError：未知标签类型：“连续”

我看过其他帖子讨论过这个问题但其中任何一个都可以帮助我我在 Windows x6 机器上使用带有 Python 3 6 0 的 jupyter 笔记本我有一个很大的数据集但我只保留其中的一部分来运行我的模型这是我使用的一段代码 d
python中稀疏矩阵的相关系数？

有谁知道如何从Python中的一个非常大的稀疏矩阵计算相关矩阵基本上我正在寻找类似的东西numpy corrcoef这将适用于 scipy 稀疏矩阵您可以从协方差矩阵相当直接地计算相关系数如下所示 import numpy as n
如何使用 Python Gekko 求解绝对值 abs() 目标？

使用 Python Gekko 中的 IPOPT 成功解决了具有平方目标的优化问题 from gekko import GEKKO import numpy as np m GEKKO x m Var y m Param 3 2 m Obj
NumPy 中按列增长矩阵

在纯Python中你可以很容易地逐列增长矩阵 data for i in something newColumn getColumnDataAsList i data append newColumn NumPy http en wiki
为什么具有复杂无穷大的 NumPy 运算会导致有趣的结果？

我注意到复杂的无穷大的有趣结果 In 1 import numpy as np In 2 np isinf 1j np inf Out 2 True In 3 np isinf 1 1j np inf Out 3 True In 4 np
如何计算伽罗瓦域上的numpy数组？

我想在伽罗华域 GF4 上使用 numpy 数组所以我将 GF4 类设置为数组元素它适用于数组整数计算但不适用于数组数组计算 import numpy class GF4 object class for galois fiel
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data
为什么 B = numpy.dot(A,x) 执行 B[i,:,:] = numpy.dot(A[i,:,:],x) ) 的循环速度慢得多？

我得到了一些我无法解释的效率测试结果我想组装一个矩阵 B 其第 i 个条目 B i A i dot x 其中每个 A i 是一个 2D 矩阵 x 也是如此我可以通过三种方式做到这一点为了测试我随机制作的性能 numpy random
scipy.interpolate.griddata：剪切 z 值并获取其中的区域

Regarding to this analogy to scipy interpolate griddata https stackoverflow com questions 18496783 analogy to scipy inte
并发访问且不受数据结构的影响

问题是这样的我有一个包含 500 个指针的数组它们指向双向链表中的 500 个元素有 10 个并行运行的线程每个线程运行 50 个循环并尝试释放列表中的某些元素该列表已排序包含简单整数并且有 10 个其他线程并行运行搜索包
在numpy中，[:,None]选择有什么作用？

我正在学习 Udacity 的深度学习课程我遇到了以下代码 def reformat dataset labels dataset dataset reshape 1 image size image size astype np flo
如何模拟OutOfMemory异常

我需要重构我的项目以使其免受OutOfMemory例外我的项目中使用了巨大的集合通过更改一个参数我可以使我的程序更加准确或使用更少的内存好吧这就是背景我想做的是循环运行例程使用默认参数运行子例程抓住OutOfMemory异常
如何检测一个二维数组是否在另一个二维数组内？

因此在堆栈溢出成员的帮助下我得到了以下代码 data needle s which is a png image base64 code goes here decoded data decode base64 f cStringIO
在 Python 中绘制正弦曲线的傅里叶变换

以下 python 程序绘制正弦曲线 import matplotlib pyplot as plt import numpy as np Canvas plt style use ggplot Frequency Oscillations
.NET 内存不足故障排除

在阅读了几篇有关 NET 技术中的内存的启发性文章后 Out of Memory 不是指物理内存 https learn microsoft com en us archive blogs ericlippert out of memory
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这

随机推荐

使用Python计算目录的大小？

在我重新发明这个特殊的轮子之前有没有人有一个很好的例程来使用 Python 计算目录的大小如果例程能够很好地以 Mb Gb 等格式格式化大小那就太好了这会遍历所有子目录总结文件大小 import os def get size s
如何使用 Roslyn 通过扩展方法、静态类中的方法以及带有 ref/out 参数的方法来访问调用

我正在致力于创建一个开源项目用于创建 NET UML 序列图该项目利用名为 js sequence diagrams 的 javascript 库我不确定 Roslyn 是适合这项工作的工具但我想我应该尝试一下所以我整理了一些概念
在 android 中，第一次单击时按钮侦听器未注册

因为我是 Android 新手所以我遇到了按钮监听器的问题我正在使用 OnClickListener 来处理胸像但它第一次点击后不执行一旦我单击多个它就会表现良好但如何使其在第一次单击时成为可能这是我的代码 public cla
如何在win32中使用GetSaveFileName保存文件？

我编写此代码是为了获取 fileName 来保存我的文件 include stdafx h include
使用后退按钮启动 Activity

我正在 Android 中开发一个应用程序我正在寻找解决方案有一个活动例如 A1 通过单击按钮用户可以转到另一个活动例如 A2 现在一旦用户完成 A2 活动他就会单击后退按钮返回到上一个活动 A1 这是众所周知的事实 A1此
SQL Server默认字符编码

默认情况下 Microsoft SQL Server 中数据库的字符编码集是什么如何查看 SQL Server 中当前的字符编码编码 In most cases SQL Server stores Unicode data i e th
无法登录 Google Play 游戏服务

我在开发者控制台上使用包名称和正确的签名证书设置了我的游戏并为其创建了排行榜但没有创建任何成就然后我从以下位置下载了示例 Type A Number Challenge 和 BaseGameUtils https developer
在 C# 中何时使用 ArrayList 而不是 array[]？

我经常使用一个ArrayList而不是正常 array 当我使用时我感觉好像我在作弊或懒惰 ArrayList 什么时候可以使用ArrayList在数组上数组是强类型的并且可以很好地用作参数如果您知道集合的长度并且它是固定的则
BitmapFactory.decodeResource() 忽略 jpg 图像的 inPreferredConfig 选项

我尝试将jpeg资源图像加载到ARGB 8888格式的位图 BitmapFactory Options opts new BitmapFactory Options opts inPreferredConfig Bitmap Config
使用 YUI 创建 HTML 元素

我正在使用以下代码使用 YUI 在页面主体中创建 html 元素这段代码不会产生任何错误问题是段落元素未在 html 页面中创建
在 LINQ 中执行 FirstOrDefault 的替代方法

我有一个成员资格表用于记录用户是否是列表的成员当用户的成员资格发生更新时会写入新记录并且先前的记录保持原样从而可以维护其成员资格的历史记录要获取用户的会员身份需要选择他们最近的条目下面是一些用户列表成员资格数据的示例目的是
Geodjango距离查询未检索到正确的结果

我正在尝试根据地理位置的接近程度来检索一些帖子正如您在代码中看到的我正在使用 GeoDjango 并且代码在视图中执行问题是距离过滤器似乎被完全忽略了当我检查查询集上的距离时我得到了预期距离 1m 和 18km 但 18km 的帖
MonoDroid 和 MonoTouch 中的可移植类库程序集引用问题

当我尝试构建引用 PCL 的 MonoDroid 或 MonoTouch 项目时我的项目遇到问题其中有适用于 Net 4 5 Windows Phone 8 WinRT MonoTouch 和 MonoDroid 的 PCL 如下所示
如何在 Perl 脚本中加密或隐藏密码？

我正在研究 Perl 脚本它使用Expect http search cpan org dist Expect通过 telnet 登录到远程计算机不要问必须使用 telnet 我还根据需要执行 perforce p4 登录操作并使用
如何考虑子类型的多态性

里氏替换原则指出超类型的不变量必须保留在子类型中我对这个原理和多态性的交叉特别感兴趣事实上特别是子类型多态性参数多态性和 Haskell 类型类似乎就是这种情况因此我知道当函数的参数是逆变且返回类型是协变时函数是子类型我们
如何在 kotlin 中检查 lambda 空值

在 Kotlin 中如何检查 lambda 是否为空例如我有这样的签名 onError Throwable gt Unit 我如何区分它的默认值是应用于主体还是应用于此函数的值您无法测试 lambda 的主体是否为空因此它不包含源代
数据读取过程中遇到致命错误

我正在进行定期更新表扫描 Using connect1 As New MySqlConnection ConnectLocalhost serverString connect1 Open Dim cmd New MySqlCommand
如何从顺序键盘导航中删除 Vuetify 附加图标

在带有 Vuetify 的 Vue js 应用程序中我有一组用v text field并且其中有一个append icon为了切换文本可见性如下所示
在 APL 中有效执行 scanl 的正确方法是什么？

继我的上一个问题 https stackoverflow com questions 70272288 what is the space time complexity of the scan operator in apl 看起来 AP
如何合并非常大的 numpy 数组？

我会有很多Numpy https docs scipy org doc numpy 1 14 0 reference arrays https docs scipy org doc numpy 1 14 0 reference arrays

如何合并非常大的 numpy 数组？

如何合并非常大的 numpy 数组？ 的相关文章

随机推荐

热门标签

如何合并非常大的 numpy 数组？的相关文章