减少 numpy 数组的内存大小

2023-12-24

我正在为深度学习创建窗口数据的数据集。我将数据生成为 numpy 数组，其中 4 个形状为 (141038, 360) 的数组和 1 个形状为 (141038, ) 的标签的数组。我将数组保存在 npz 文件中，但文件大小太大，达到 1.5 GB。我是 python 和编程新手，所以不知道文件大小应该有多大。不过，我将数组转换为 Pandas 数据帧，内存使用量在相同范围内。问题是我有 6 个 9 GB 的文件，可能还有另一个重叠的数据集，该数据集大 7 倍，因此可能有 63 GB。

这样的文件大小是否现实或者我做错了什么？（这只是一个带有一些数字的文件而不是游戏）
是否有另一种格式可以以更少的内存使用来保存我的数组？（我尝试了 HFD5 但我得到了相同的文件大小）
我尝试更改数据类型，它稍微减小了大小。 (3 个数组 (f8), 1 (int8), 1 (uint8)) 是否还有其他数据类型可以进一步减小大小？对于 0/1 值，是否有另一种数据类型比 (uint) 更有效？
对于浮点数组，如果我降低精度，会有帮助吗？或者还有另一种方法可以减小它们的大小？
我有一些文件填充了零填充，一些文件填充了边缘填充，其他文件填充了插值。然而，所有文件几乎具有相同的大小，带有零填充的文件不应该具有较小的大小吗？

是的，如果您使用浮点类型数据，那肯定是这样。
你可以试试numpy.savez_compressed保存为压缩数组。

ref: https://docs.scipy.org/doc/numpy/reference/ generated/numpy.savez_compressed.html https://docs.scipy.org/doc/numpy/reference/generated/numpy.savez_compressed.html

您可以使用gzip也很重要，但压缩算法很重要。

import gzip
import numpy

f = gzip.GzipFile("x.npy.gz", "w")
numpy.save(file=f, arr=x)
f.close()

这可能有用：高效压缩 numpy 数组 https://stackoverflow.com/questions/22400652/compress-numpy-arrays-efficiently

对于二进制数据，uint8似乎有很多浪费。事实上，您可以在一个值中存储 8 个值 (0/1)uin8。只需将 0、1 视为位，即可在单个位中编码 8 位uint8通过简单的二元运算。

您可以使用“boolean”来存储 0/1 值。

import numpy as np
import sys

b = np.array([0, 1, 0]*50000, dtype='b')

print(sys.getsizeof(b))

u8 = np.array([0, 1, 0]*50000, dtype='u8')

print(sys.getsizeof(u8))

150096
1200096

当然是。如果您认为有损压缩是一种选择，则可以使用良好的因子来压缩阵列。
没关系，唯一重要的是形状和数据类型。 Numpy 数组未压缩。如果将其与图像进行比较 - 那是错误的，类似“黑色图像由于均匀性而尺寸较小，因此零填充数组应该消耗更少的空间” - 是无关紧要的（图像通常是有损压缩的 JPEG）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

减少 numpy 数组的内存大小的相关文章

通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
从 Laravel 4 输入生成新数组

我使用 Input all 从动态生成的表单中获取一些输入我使用 jQuery 来允许用户添加字段字段名称为 first names last names 和 emails input 变量现在看起来像这样 array size 4 t
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

JPA - 仅针对给定查询强制延迟加载

如何仅针对给定的 NamedQuery 实施延迟加载策略例如考虑下面的伪代码只是为了解释这种情况我有一个实体 Entity class Xyz int a int b Fetch EAGER Set
pandas 数据框 groupby 和 join

让我们假设有这样的 np random seed 123 df pd DataFrame A foo bar foo bar foo bar foo foo B one one two three two two one three C n
NLTK - 获取并简化标签列表

我正在使用布朗语料库我想要某种方法来打印所有可能的标签及其名称而不仅仅是标签缩写标签也不少有没有办法简化标签呢我所说的简化是指将两个极其相似的标签合并为一个然后用另一个标签重新标记合并后的单词之前以某种方式讨论过 Java
仅 DIV 的两列 CSS 布局

我正在重新设计当前使用表格进行两列设计的布局并遇到了一些问题 div div div blah div div div div blah div div blah div div div leftCol margin right 10px
如何使用反射获取泛型类的名称？

如何使用反射获取泛型类的名称 eg public class SomeGenericClass
Android 地理围栏的最大限制？

我从 Google Play 服务的地理围栏 API 开始我想我理解了一般概念但我不知道地理围栏是否有限制我将地理围栏列表提供给位置客户端然后由他处理其余的事情但是我可以将多少个地理围栏传递给位置客户端我想要多少就多少每个设备
直接在 .htaccess 文件内生成随机数

目前我正在添加一个随机数到我的结束Ajax通过 Javascript 或 PHP 的 URL 我想知道我是否可以在我的内心做同样的事情 htaccess文件当我使用 mod rewrite 重写它们时有什么办法可以制作一个随机数 or
ng-click刷新页面而不是提交

您好我有一个有角度的 Web 表单它接受用户的输入并插入到数据库中我正在使用 jersey jackson Rest Web 服务和 hibernate 但是当我尝试提交表单时上一页有指向当前页面的超链接刷新页面并再次重新加载当前页
spring boot数据库错误数据源“org.springframework.boot.autoconfigure.orm.jpa.HibernateJpaConfiguration”

我正在使用 spring boot hibernate 和 my sql 但出现错误 org springframework beans factory UnsatisfiedDependencyException Error creati
从 UICollectionViewCell 实例访问图像时遇到问题

我正在按照本教程对我的项目进行一些修改 http www appcoda com ios programming uicollectionview tutorial http www appcoda com ios programming
PhoneGap 和 WhatsApp

我希望你能帮助我找到解决我问题的问题我正在开发一个应该使用 WhatsApp 的应用程序该应用程序使用 HTML5 CSS3 和 Javascript 我正在使用此链接通过 WhatsApp 发送消息 a href 当您直接使用浏览器时
如何配置S3BotoStorage或collectstatic上传到s3存储桶子目录

有没有办法配置 django 的collectstatic命令上传到s3存储桶中的子目录而不仅仅是顶级目录 Thanks 如果您正在使用S3BotoStorage发动机来自django storages然后有一个名为的设置变量AWS LO
自己计算协方差矩阵（不使用“cov”）

我正在关注有关协方差矩阵的教程可以在这里找到 http stats seandolinar com making a covariance matrix in r http stats seandolinar com making a c
Android Studio、Github登录问题凭证不正确

我已经开始使用 Android Studio 在尝试连接到 Github 时发现了问题我尝试过重新启动 Android Studio 甚至创建一个新项目但无法登录我安装了 Git 它在本地存储库中运行问题是凭据不正确请求响应 40
groupby 沿 xarray 中单个维度的多个坐标

我有一个沿单个维度具有多个坐标的 xarray 在下面的示例中坐标a and b沿维度定义dim1 我会怎样groupby使用沿相同维度定义的两个坐标不像这个问题 https stackoverflow com questions 52
在 OpenGL 中在 3D 模型后面绘制背景视频

我想通过这个脚本绘制 3D 模型 obj https github com yarolig OBJFileLoader blob master OBJFileLoader objloader py https github com yaro
Bootstrap 3 中的嵌套行无法遵守网格？

一旦进入嵌套行 Bootstrap 似乎就会破坏它自己的网格这是一个很好的例子 div border 1px solid gray div class container div class row div class col xs 1
如何在悬停时应用 CSS 类来动态生成的提交按钮？

我有以下一段 HTML CSS 代码用于根据从数据库检索的行数显示页面 paginate font family Arial Helvetica sans serif padding 3px margin 3px disableCurre
如何使用node.js在没有.then函数的情况下从promise中获取值

我在使用 Node js 时遇到 Promise 问题我的代码如下 var p1 new Promise function resolve reject my function here p1 then function result m
减少 numpy 数组的内存大小

我正在为深度学习创建窗口数据的数据集我将数据生成为 numpy 数组其中 4 个形状为 141038 360 的数组和 1 个形状为 141038 的标签的数组我将数组保存在 npz 文件中但文件大小太大达到 1 5 GB 我是

减少 numpy 数组的内存大小

减少 numpy 数组的内存大小 的相关文章

随机推荐

热门标签

减少 numpy 数组的内存大小的相关文章