Python MemoryError：无法分配数组内存

2023-12-21

我有一个 250 MB 的 CSV 文件，需要读取大约 7000 行和大约 9000 列。每行代表一幅图像，每列代表一个像素（灰度值0-255）

我从一个简单的开始np.loadtxt("data/training_nohead.csv",delimiter=",")但这给了我一个记忆错误。我觉得这很奇怪，因为我运行的是 64 位 Python，安装了 8 GB 内存，但它在仅使用大约 512 MB 后就死掉了。

此后我尝试了其他几种策略，包括：

import fileinput一次读取一行，将它们附加到数组中
np.fromstring读入整个文件后
np.genfromtext
手动解析文件（由于所有数据都是整数，因此编码相当容易）

每种方法都给了我相同的结果。内存错误大约 512 MB。想知道 512MB 是否有什么特别之处，我创建了一个简单的测试程序，它填满了内存，直到 python 崩溃：

str = " " * 511000000 # Start at 511 MB
while 1:
    str = str + " " * 1000 # Add 1 KB at a time

这样做直到大约 1 场演出才崩溃。我也只是为了好玩，尝试过：str = " " * 2048000000（填补 2 场演出）- 运行顺利。填满内存并且从不抱怨。所以问题不在于我可以分配的 RAM 总量，而在于我可以分配内存多少次......

我用谷歌搜索毫无结果，直到我找到了这篇文章：Python 在大型 CSV 文件上内存不足 (numpy) https://stackoverflow.com/questions/8956832/python-out-of-memory-on-large-csv-file-numpy

我准确地复制了答案中的代码：

def iter_loadtxt(filename, delimiter=',', skiprows=0, dtype=float):
    def iter_func():
        with open(filename, 'r') as infile:
            for _ in range(skiprows):
                next(infile)
            for line in infile:
                line = line.rstrip().split(delimiter)
                for item in line:
                    yield dtype(item)
        iter_loadtxt.rowlength = len(line)

    data = np.fromiter(iter_func(), dtype=dtype)
    data = data.reshape((-1, iter_loadtxt.rowlength))
    return data

Calling iter_loadtxt("data/training_nohead.csv")这次给出了一个略有不同的错误：

MemoryError: cannot allocate array memory

谷歌搜索这个错误我只发现了一个，不是很有帮助，帖子：创建布尔 NumPy 数组 (Python) 时出现内存错误 (MemoryError) https://stackoverflow.com/questions/3717418/memory-error-memoryerror-when-creating-a-boolean-numpy-array-python

由于我运行的是 Python 2.7，所以这不是我的问题。任何帮助，将不胜感激。

在@J.F. 的帮助下塞巴斯蒂安我给出了以下答案：

train = np.empty([7049,9246])
row = 0
for line in open("data/training_nohead.csv")
    train[row] = np.fromstring(line, sep=",")
    row += 1

当然，这个答案假设事先知道行数和列数。如果您事先没有这些信息，则行数总是需要一段时间才能计算，因为您必须读取整个文件并计算行数\n人物。像这样的东西就足够了：

num_rows = 0
for line in open("data/training_nohead.csv")
    num_rows += 1

对于列数，如果每行具有相同的列数，那么您可以只计算第一行，否则您需要跟踪最大值。

num_rows = 0
max_cols = 0
for line in open("data/training_nohead.csv")
    num_rows += 1
    tmp = line.split(",")
    if len(tmp) > max_cols:
        max_cols = len(tmp)

该解决方案最适合数字数据，因为包含逗号的字符串确实会使事情变得复杂。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python MemoryError：无法分配数组内存的相关文章

Spark MLlib - 训练隐式警告

我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
底图上的子图

我有一张英国地图和 121 个地点每个地点有 3 个值我想绘制 121 个位置中每个位置的三个值的小条形图目前这些值绘制为markersize属性看起来像这样密集恐惧症情节 https i stack imgur com 5fv
子进程改变目录

我想在子目录超级目录中执行脚本我需要首先进入该子目录超级目录我无法得到subprocess进入我的子目录 tducin localhost Projekty tests ve python Python 2 7 4 default
Python 中的安全解除引用

Groovy 有一个很好的安全取消引用运算符这有助于避免 NullPointerExceptions variable method The method仅当以下情况时才会被调用variable is not null 有没有办法在 Py
如何找到列表S的所有分区为k个子集（可以为空）？

我有一个唯一元素列表比方说 1 2 我想将其拆分为 k 2 个子列表现在我想要所有可能的子列表 1 2 1 2 2 1 1 2 我想分成 1 1 2 我怎样才能用 Python 3 做到这一点更新我的目标是获取 N 个唯一数字列表的
为什么我的scoped_session 引发 AttributeError: 'Session' object has no attribute 'remove'

我正在尝试建立一个系统将数据库操作优雅地推迟到单独的线程以避免在 Twisted 回调期间发生阻塞到目前为止这是我的方法 from contextlib import contextmanager from sqlalchemy i
Pyspark 数据框逐行空列列表

我有一个 Spark 数据框我想创建一个新列其中包含每行中具有 null 的列名称例如原始数据框是 col 1 col 2 col 3 62 45 null 62 49 56 45 null null null null null
用Python中的嵌套for循环替换重复的if语句？

在我编写的下面的代码中 n 4 所以有五个 if 语句所以如果我想将 n 增加到比如说 10 那么就会有很多 if 语句因此我的问题是如何用更优雅的东西替换所有 if 语句 n p 4 5 number of trials prob
错误：无法访问文件“$libdir/plpython2”：没有这样的文件或目录

我正在运行 postgresql 9 4 PostgreSQL 9 4 4 on x86 64 unknown linux gnu compiled by gcc GCC 4 1 2 20070626 Red Hat 4 1 2 14 64
如何从 Python 中指定运行程序的输入文件？

我正在编写一个外部脚本以通过笔记本电脑上的 Python mrjob 模块而不是在 Amazon Elastic Compute Cloud 或任何大型集群上运行 mapreduce 作业我读自mrjob文档 http packag
Python 视频框架

我正在寻找一个 Python 框架它将使我能够播放视频并在该视频上绘图用于标记目的我尝试过 Pyglet 但这似乎效果不是特别好在现有视频上绘图时会出现闪烁即使使用双缓冲和所有这些好东西而且似乎没有办法在每帧回调期间获取视频中
从 IMDbPy 结果中的片目中获取电影 ID

我正在尝试创建一个数据集允许我根据 Python IMDb API 中的演员 ID 和电影 ID 加入演员和电影现在我正在尝试从演员的电影作品中提取电影 ID 列表但无法做到例如我知道 Rodney Dangerfield 在
如何在C++中列出Python模块的所有函数名称？

我有一个 C 程序我想导入一个 Python 模块并列出该模块中的所有函数名称我该怎么做我使用以下代码从模块中获取字典 PyDictObject pDict PyDictObject PyModule GetDict pModule
使用Beam IO ReadFromPubSub模块时，可以在Python中提取带有属性的消息吗？尚不清楚是否支持

尝试将具有存储在 PubSub 中的属性的消息拉取到 Beam 管道中我想知道是否添加了对 Python 的支持这就是我无法阅读它们的原因我看到它存在于Java中 pipeline options PipelineOptions pi
Jupyter Notebook：没有名为 pandas 的模块

我搜索了其他问题但没有找到任何有帮助的内容大多数只是建议您使用 conda 或 pip 安装 pandas 在我的 jupyter 笔记本中我试图导入 pandas import pandas as pd 但我收到以下错误 Modul
如何正确消除字典中的元素直到只剩下一个字符串

我真的需要这方面的帮助 def get winner dict winner new dict for winner in dict winner first letter winner 0 value dict winner winner
scipysolve_ivp() 中的访问时间步长

我有一个常微分方程系统正在使用 scipy 的solve ivp 函数求解它运行良好但我在访问每个步骤中使用的时间步时遇到问题我知道solve ivp 将当前时间传递给用户定义的函数但我需要使用的时间步长而不是当前时间为了解决
在Python中从日期时间中减去秒

我有一个 int 变量它实际上是秒让我们调用这个秒数X 我需要得到当前日期和时间以日期时间格式减去的结果X秒 Example If X是 65 当前日期是2014 06 03 15 45 00 那么我需要得到结果2014 06 03
在游戏中实现功能

我在完成这部分作业时遇到了麻烦我必须宣布游戏的获胜者然后输入到函数中输入所有 if 语句后我必须创建一个函数def playGame 这必须包括 showRules user getUserChoice computer getCo
从数据集的给定日期范围中提取属于一天的数据

我有一个数据集日期范围为 2018 年 1 月 12 日到 8 月 3 日其中包含一些值维数为my df数据框是 my df shape 9752 2 每行包含半小时频率第一行开始于2018 01 12 my df iloc 0 D

随机推荐

夜间模式颜色不适用于回收站视图背景

我想为我的 Android 应用程序实现夜间模式因此我使用 Theme AppCompat DayNight 主题来实现夜间模式但我必须在夜间模式期间自定义工具栏和回收器视图的颜色为此我已在 attrs xml 文件中声明了该属性
ConnectivityManager.getBackgroundDataSetting() 已弃用，该使用什么替代？

以前可以使用 ConnectivityManager getBackgroundDataSetting 检查用户是否有后台数据设置 true 此方法现已弃用 http developer android com reference andr
Selenium 中的计时页面加载时间

我正在使用 selenium 在我的网站上记录一些性能测试例如登录时间查询时间等我在 Selenium IDE 上记录了一个示例脚本我现在让它运行一个 Selenium RC java public void testNew thr
Microsoft Visual Studio 2010 支持 c99 吗？

我想知道 Microsoft Visual Studio 2010 是否支持 C99 如果没有我如何使用标准类型例如intptr t and uintptr t Visual Studio 2010 不支持 C99 语法 stdint
为什么列表理解比附加到列表快得多？

我想知道为什么列表理解比附加到列表快得多我以为差异只是表达性的但事实并非如此 gt gt gt import timeit gt gt gt timeit timeit stmt t for i in range 10000 t app
tensorflow变量初始化错误：尝试使用未初始化的值变量

为什么会发生这种情况错误消息尝试未初始化变量错误 https i stack imgur com 0rcrd jpg这是我的来源来源使用张量流在计算机中学习 JPG 图像 https i stack imgur com kxh4c
随机测试用例失败 - Forked JVM 异常退出。

我有一套 Junit 测试每次在本地运行时都会通过我已经设置了一个作业来运行该套件 hudson 使用 ANT 来调用测试该套件在 hudson 机器中传递了相当长的一段时间但从过去 3 天开始一项测试有时会失败随机而且我们还
Facebook 不会在 iOS 应用程序的仪表板上跟踪应用程序安装情况

我在developers facebook com 上创建Facebook 应用程序根据以下内容在我的 iOS 应用程序中配置和集成 Facebook SDK脸书指南 https developers facebook com docs
如何安装 Windows 10 SDK 以与 Visual Studio 2017 一起使用

我不知道如何安装适用于 Visual Studio 2017 的 Windows 10 SDK 我下载并运行了 Windows 10 SDK 安装程序它显示Please find winsdksetup exe in Windows ki
配置单元更新最后访问时间

我想更新 hive 表上的lastAccessTime 在网上google后我得到了一个解决方案 set hive exec pre hooks org apache hadoop hive ql hooks UpdateInputAcc
iOS 13 中 Core Data 持久存储迁移期间发生错误

将 XCode 更新到版本 11 后我向 Core Data 添加了新的模型版本并在新版本中向实体添加了新属性使新版本处于活动状态并将新属性添加到托管对象文件中向用户发布此版本后它开始崩溃并显示以下消息用于打开持久存储的托管对象
文本区域内的 HTML 解码

我在使用我构建的网站管理工具时遇到问题它允许我编辑网站的文章我使用 google code prettify 因为我的文章是关于 C 编程的然后我使用 pre class prettyprint pre 标签来指定我即将开始编写 C
如何防止 json.jar 中的 JSONObject 将十进制数字字符串转换为双精度

Using JSONObject从服务器读取 json 响应服务器返回一些十进制数正常数字不是问题但当存在小数形式时就会出现问题0 00068 像这样的数字0 00068会自动存储到Double对象并且当尝试检索此类数字时会返回该
左侧省略号出现奇怪的特殊字符问题

我有一些文件路径我试图使用下面的代码在左侧显示省略号 ellipsis after content background color white color transparent position relative z index 2
VB.NET 与这种创建实例的方式等效的是什么？

在 C 中您可以创建这样的实例 Custom mycustomelement new Custom ElenentName My Custom Element 我想知道如何在 Visual Basic 中创建这样的实例以及这种类型的创建实
使用 DATEVALUE 函数时 Excel #Value 错误

In cell A2 I have 7 21 2014 12 44 36 PM 当我使用DATEVALUE LEFT A2 FIND A2 1 我收到错误 VALUE 当我使用LEFT A2 FIND A2 1 I get 7 21 201
铁路路线和站点性能

站点速度与Rails 应用程序的routes rb 文件中的命名空间路由数量是否有直接关联我正在处理一个相当大的应用程序其中包含 30 多个不同的模型实体并且大多数资源都有自己的路由路由的数量会影响内存开销这就是为什么 Rai
Git over HTTP 在 Apache error_log 中生成身份验证失败

我的 Git over HTTP s 设置遇到了非常烦人的问题尽管它可以通过 HTTP 运行但我在 Apache 的 error log 中收到一条错误消息指出身份验证失败我尝试跟踪 Apache 和 git 客户端之间的通信似乎
DataStudio 和 SQL 将时间格式从数字更改为 hh:mm:ss

我想在 Datastudio 或 SQL 中将度量格式从 float 更改为 HH MM SS 例如 Float HH MM SS 75 00 01 15 90 00 01 30 79 5 00 01 20 ETC 如果您输入的秒数适合 2
Python MemoryError：无法分配数组内存

我有一个 250 MB 的 CSV 文件需要读取大约 7000 行和大约 9000 列每行代表一幅图像每列代表一个像素灰度值0 255 我从一个简单的开始np loadtxt data training nohead csv del

Python MemoryError：无法分配数组内存

Python MemoryError：无法分配数组内存 的相关文章

随机推荐

热门标签

Python MemoryError：无法分配数组内存的相关文章