Jupyter 笔记本内存管理

2024-01-20

我目前正在 kaggle 中开发 jupyter 笔记本。在我的 numpy 数组上执行所需的转换后，我将其腌制以便可以将其存储在磁盘上。我这样做的原因是为了释放大数组消耗的内存。

pickle 阵列后消耗的内存约为 8.7 GB。

我决定运行 @jan-glx 提供的代码片段here https://stackoverflow.com/a/51046503/12403182，找出哪些变量消耗了我的内存：

import sys

def sizeof_fmt(num, suffix='B'):
    ''' by Fred Cirera,  https://stackoverflow.com/a/1094933/1870254, modified'''
    for unit in ['','Ki','Mi','Gi','Ti','Pi','Ei','Zi']:
        if abs(num) < 1024.0:
            return "%3.1f %s%s" % (num, unit, suffix)
        num /= 1024.0
    return "%.1f %s%s" % (num, 'Yi', suffix)

for name, size in sorted(((name, sys.getsizeof(value)) for name, value in locals().items()),
                         key= lambda x: -x[1])[:10]:
    print("{:>30}: {:>8}".format(name, sizeof_fmt(size)))

执行此步骤后，我注意到数组的大小为 3.3 GB，所有其他变量的大小总和约为 0.1 GB。

我决定删除该数组，并通过执行以下操作来查看是否可以解决问题：

del my_array
gc.collect()

执行此操作后，内存消耗从 8.7 GB 减少到 5.4 GB。这在理论上是有道理的，但仍然没有解释其余的内存被消耗了什么。

我决定继续并重置所有变量，看看这是否会释放内存：

%reset

正如预期的那样，它释放了上面函数中打印出的变量的内存，并且我仍然剩下 5.3 GB 的内存在使用中。

需要注意的一件事是，我在腌制文件本身时注意到内存峰值，因此该过程的摘要如下所示：

对数组执行操作 -> 内存消耗从大约 1.9 GB 增加到 5.6 GB
pickled 文件 -> 内存消耗从 5.6 GB 增加到约 8.7 GB
当文件被 pickle 到 15.2 GB 时，内存突然激增，然后又回落到 8.7 GB。
删除的数组 -> 内存消耗从 8.7 GB 减少到 5.4 GB
执行重置 -> 内存消耗从 5.4 GB 减少到 5.3 GB

请注意，上述内容大致基于监控 Kaggle 上的内存，可能不准确。我也检查过这个question https://stackoverflow.com/questions/56126062/how-to-destroy-python-objects-and-free-up-memory但这对我的案子没有帮助。

这会被视为内存泄漏吗？如果是这样，在这种情况下我该怎么办？

EDIT 1:

经过进一步挖掘，我注意到有others https://stackoverflow.com/questions/13871152/why-pickle-eat-memory面临这个问题。这个问题源于酸洗过程，酸洗会在内存中创建一个副本，但由于某种原因，不会释放它。有没有办法在酸洗过程完成后释放内存。

EDIT 2:

从磁盘删除 pickled 文件时，使用：

!rm my_array

它最终释放了磁盘空间并释放了内存空间。我不知道上面的花絮是否有用，但我决定无论如何都将其包括在内，因为每一点信息都可能有所帮助。

您应该注意一个基本缺点：Python 解释器实际上实际上只能勉强释放内存并将其返回给操作系统 https://realpython.com/python-memory-management/。对于大多数工作负载，您可以假设在解释器进程的生命周期内不会释放内存。然而，解释器可以在内部重用内存。所以从操作系统的角度来看CPython进程的内存消耗确实没有任何帮助。一个相当常见的解决方法是在子进程/工作进程中运行内存密集型作业（通过多重处理 https://docs.python.org/3/library/multiprocessing.html例如）和“仅”将结果返回到主进程。一旦工人死亡，内存实际上就被释放了。

二、使用sys.getsizeof on ndarray可能会产生令人印象深刻的误导。使用ndarray.nbytes相反，请注意，这在处理时也可能会产生误导views https://scipy-cookbook.readthedocs.io/items/ViewsVsCopies.html.

此外，我不完全确定为什么你“pickle”numpy 数组。有更好的工具可以完成这项工作。仅举两个例子：h5py https://www.h5py.org/（经典，基于HDF5 https://en.wikipedia.org/wiki/Hierarchical_Data_Format) and zarr https://zarr.readthedocs.io/en/stable/。这两个库都允许您使用ndarray- 就像直接在磁盘上的对象一样（和压缩） - 基本上消除了酸洗步骤。此外，zarr 还允许您create 压缩的 ndarray- 内存中兼容的数据结构 https://zarr.readthedocs.io/en/stable/tutorial.html#compressors. Must ufunc来自 numpy、scipy 和朋友的 s 会很乐意接受它们作为输入参数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Jupyter 笔记本内存管理的相关文章

在函数内的 for 循环上使用 tqdm 来检查进度

我正在使用 for 循环迭代目录树内的一大组文件这样做时我想通过控制台中的进度条来监视进度因此我决定使用 tqdm 来实现此目的目前我的代码如下所示 for dirPath subdirList fileList in tqdm
docker 容器中的“（pygame parachute）分段错误”

尝试在 docker 容器中使用 pygame 时出现以下错误我想从容器中获取显示 Fatal Python error pygame parachute Segmentation Fault 重现 Docker已安装 docker ru
如何替换Python字符串中的正确字母

任务是您的任务是纠正数字化文本中的错误您只需处理以下错误 S 被误解为 5 O 被误解为 0 I 被误解为 1 我的代码 def correct string for i in string if 5 in string string
使用管理员权限打开cmd（Windows 10）

我有自己的 python 脚本来管理我的计算机上的 IP 地址它主要在命令行 Windows 10 中执行netsh命令您必须具有管理员权限这是我自己的计算机我是管理员运行脚本时我已经使用管理员类型的用户 Adrian 登录我无
如何在 Pandas Python 中按 id 对行进行排名

我有一个像这样的数据框 id points1 points2 1 44 53 1 76 34 1 63 66 2 23 34 2 44 56 我想要这样的输出 id points1 points2 points1 rank points2
如何通过 python 中的函数运行列表？

我试图通过我创建的函数运行我的列表但不断收到错误我不知道出了什么问题温度 F temp f 19 21 21 21 23 功能 def fahrToCelsius tempFahrenheit return tempFahrenhei
将整数系列转换为交替（双元）二进制系列

我不知道如何最好地表达这个问题因为在这里谷歌搜索和搜索总是让我找到更复杂的东西我很确定这是基本的东西但对于我的生活来说我找不到一个好的方法来做到这一点下列给定一个整数序列比如说 for x in range 0 36 我想将这些
NSUserNotificationCenter.defaultUserNotificationCenter() 使用 PyInstaller 返回 None

我正在尝试将通知发送到通知中心 Mac OSX 我正在使用 PyObjC 绑定来使用我们的 python 应用程序中的 cocoa api 我正在使用以下代码片段 import Foundation import objc NSUserNo
在 Python 中从 Excel 复制 YEARFRAC() 函数

因此我使用 python 来自动执行一些必须在 Excel 中执行的重复任务我需要做的计算之一需要使用yearfrac 这在Python中被复制了吗 I found this https lists oasis open org arc
multiprocessing.Queue 中的 ctx 参数

我正在尝试使用 multiprocessing Queue 模块中的队列实施 https docs python org 3 4 library multiprocessing html exchang objects Between p
在 django 中导入设置时出现奇怪的错误

我有很多项目在 ubuntu 中使用 python2 7 和 virtualenv virtualenvwrapper 工作在我的工作中一些开发人员使用 macosx 和 windows 通常我像往常一样创建项目 django admi
Python在没有pandas的情况下解码excel表

我正在尝试在 python 中读取 excel 文件而不使用pandas or xlrd 我一直在尝试将结果转换为bytes to utf 8没有任何成功 xls 文件中的数据 colA colB colC spc 1D0 20190705
Flymake的临时文件可以在系统临时目录下创建吗？

我目前正在使用以下代码在 emacs 中连接 Flymake 和 Pyflakes defun flymake create temp in system tempdir filename prefix make temp file or
pandas groupby 操作缺少数据

在 pandas 数据框中我有一列如下所示 0 M 1 E 2 L 3 M 1 4 M 2 5 M 3 6 E 1 7 E 2 8 E 3 9 E 4 10 L 1 11 L 2 12 M 1 a 13 M 1 b 14 M 1 c 15
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
Python：导入模块一次然后与多个文件共享

我有如下文件 file1 py file2 py file3 py 假设这三个都使用 lib7 py lib8 py lib9 py 目前这三个文件中的每一个都有以下行 import lib7 import lib8 import lib
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
如何将 URL 添加到 Telegram Bot 的 InlineKeyboardButton

我想制作一个按钮可以从 Telegram 聊天中在浏览器中打开 URL 外部超链接目前我只开发了可点击的操作按钮 update message reply text Subscribe to us on Facebook and Te
从给定的项目列表创建子列表

我首先要说的是以下问题不是为了家庭作业目的即使因为我几个月前就完成了软件工程师的工作无论如何今天我正在工作一位朋友向我询问了这个奇怪的排序问题我有一个包含 1000 行的列表每行代表一个数字我想创建 10 个子列表每个子列表都
从 Django 运行 shell 命令

我正在 Django 中开发一个网页使用 apache 服务器需要调用 shell 命令来启用禁用一些守护进程我尝试这样做 os system service httpd restart 1 gt HOME out 2 gt HOM

随机推荐

在范围内移动三角形

我希望有一个人可以帮助我我希望当我在单元格 B3 或 B4 中输入值时单元格 F3 或 J4 中的三角形会随之移动同样当我在单元格 C3 或 C4 中输入值时单元格 J3 或 Q4 中的三角形也会移动当我有很多任务要做时如何编程
grep 字符串，包括正斜杠作为单词的一部分

如何治疗作为 word 和 grep 完全匹配的一部分 echo aa bb cc dd ee ff grep w aa bb aa bb cc dd ee ff 我希望 grep 匹配整个字符串无一例外在上面的例子中我不希望它匹配
如何使用 Laravel 5 获取 HTTP 主机

我正在尝试使用 Laravel 5 从 HTTP 请求中获取主机名包括子域例如 dev site com 我在其中找不到任何关于此的信息the docs https laravel com docs 5 3 requests reque
有一种方法可以创建代码片段并自动创建使用引用吗？

我在 C 中创建了一个简单的代码片段其中添加了以下行 Debug WriteLine 现在下一步是当您使用代码片段时自动创建 using System Diagnostic 有什么办法可以自动创建参考吗我尝试以这种方式设置片段引用
无法通过iphone sdk中的[FBSDKAccessToken currentAccessToken]获取访问令牌

我正在创建一个 Facebook 应用程序我已经使用 FBSDKLoginManager 类实现了登录当我第一次登录 facebook 时成功块返回FBSDKLoginManager登录结果对象包含访问令牌对象 FBSDKAccess
橡胶盖：create_staging 接近结束时失败

我正在尝试将快速入门 wiki 中的示例橡胶测试部署到 AWShttps github com rubber rubber wiki Quick Start https github com rubber rubber wiki Quick
如何测试多个条件？

假设我有一个变量y和一个变量i y lt c TRUE TRUE TRUE i lt 0 假设我想测试以下 if 语句every布尔条件y if y i lt 1 我该怎么做也就是说我想要i 1 if every布尔条件y is TRU
Nodejs v10.3.0 的 gulp 任务问题：src\node_contextify.cc:629: 断言 `args[1]->IsString()' 失败

我最近将我的nodejs版本更新到10 30 0 一切正常但我的 gulp 构建任务无法正常工作但在旧版本 9 X 上工作正常这就是我得到的 gulp 11376 src node contextify cc 629 Assertio
文本列的默认值

我的表中有一个列的数据类型为TEXT 我怎样才能给它默认值NULL值这样当列中没有条目时它就不会消耗内存我在论坛上读到了类似的问题他们说列应该允许为空值我这样做了但是没用 TEXT不支持任何默认值NULL 就这样它隐含地DEFA
在 Docker Ubuntu 容器中启动 Xserver

我的容器中安装了最少的 Ubuntu 并且希望运行 Xserver 我需要XServer 因为我的应用程序需要meshlabserver 而meshlabserver本身也需要Xserver 我安装了 xserver xorg 和所有其他软
Google Maps API v2 热图无法可靠显示

好的我正在努力根据从服务器提取的数据实现热图我基于官方的 Google heatmap api 并且我的代码基于他们的代码演示但是我的代码不起作用有时它会显示热图但更多时候它什么也不显示我已经仔细检查以确保数据传入因此缺少数
Xamarin 3.3.0 表单错误：从 Xamarin 2.5 迁移到 3.3.0 时出现很多问题

一号我更改了旧代码以支持 xamarin 3 0
使用 XML R 包抓取带有图像的 html 表

我想使用 R 的 XML 包来抓取 html 表方法与此线程中讨论的方式类似使用 XML 包将 html 表抓取到 R 数据帧中 https stackoverflow com questions 1395528 scraping ht
使用事件存储客户端 API (.NET)，如何写入流并将一个事件链接到另一个事件？

我已经设置了活动商店 https eventstore org 并且可以愉快地将事件写入流订阅和读取历史事件一切正常我可以看到在ResolvedEvent传递给我的订阅处理程序方法有一个Link属性但我想知道当我写入流时如何设置
React - 使用 axios 将图像上传到 Imgur 返回 ERR_HTTP2_PROTOCOL_ERROR

我正在尝试向 Imgur API 发送 POST 请求上传图像我的 Imgur 应用程序是公开的仅需要客户端 ID 运行时总是出现这个错误错误网络错误在创建错误 createError js 16 在 XMLHttpReques
如何使用相关或协方差矩阵而不是使用 R 的数据框来获得回归系数和模型拟合？

我希望能够通过提供相关或协方差矩阵而不是 data frame 来从多元线性回归中回归系数我意识到您丢失了一些与确定截距等相关的信息但甚至相关矩阵也应该足以获得标准化系数和解释的方差估计例如如果您有以下数据 get some dat
如何国际化/本地化您的 FCM 推送通知，尤其是主题？

我想使用 Firebase 向本地化的 Android 和 iOS 设备发送推送通知我意识到我们并没有真正的解决方案来向订阅的主题发送本地化消息假设我有一条消息朝鲜领导人威胁关岛我想将其发送给订阅新闻主题的人并且有 1000
无法通过 GET 请求发送具有此动词类型的内容正文

我当前正在通过 WebApi 接收请求并尝试将其重新发送到另一个站点目标是接收请求例如 http localhost 9999 q 测试 http localhost 9999 q test 然后将其转发到真实站点对于我的测试我设
如何在android中将字节数组（.h264格式）解码为视频？

在我的应用程序中我必须将字节数组即 h264 格式解码为视频和来自直播的字节数组代码如下 static final int VIDEO BUF SIZE 100000 static final int FRAME INFO SIZE
Jupyter 笔记本内存管理

我目前正在 kaggle 中开发 jupyter 笔记本在我的 numpy 数组上执行所需的转换后我将其腌制以便可以将其存储在磁盘上我这样做的原因是为了释放大数组消耗的内存 pickle 阵列后消耗的内存约为 8 7 GB 我决定运行

Jupyter 笔记本内存管理

Jupyter 笔记本内存管理 的相关文章

随机推荐

热门标签

Jupyter 笔记本内存管理的相关文章