pytorch显存越来越多的一个潜在原因-- 这个函数还没有在torch.cuda.Tensor中定义

2023-05-16

最近在用pytorch跑实验，有如下操作需要用到: （pytorch版本为0.3.1）

class SpatialFilter(nn.Module):
    def __init__(self,mode=True,sf_rate=0.8):
        '''
        给定特征图求hot_map
        '''
        super(SpatialFilter,self).__init__()
        self.sf_rate=sf_rate
        self.mode=mode
    def forward(self,x):
        b,c,h,w=x.size()
        
        if self.mode:
            #print("====",self.sf_rate)
            hot_map=torch.mean(x,dim=1).view(b,1,h*w).
            map_med=torch.median(hot_map,dim=2)[0].view(b,1,1,1)  #hot_map的中位数
            hot_map=hot_map.view(b,1,h,w)
            hot_map=torch.gt(hot_map,map_med*self.sf_rate).float()
            del(map_med)        
        else:
            #print("++++")
            hot_map=Variable(torch.ones(b,1,h,w),requires_grad=False)
        return hot_map

发现在训练的时候显存会不断增加，情况就是每隔一个epoch显存会增加30M左右，在一个epoch之内显存不会增加。刚开始我以为是我的训练部分写的有问题，后来发现不用torch.median()而是用 F.AdaptiveAvgPool2d()就不会有这个问题，于是我就去看了pytorch的中文文档，发现pytorch中文文档中torch.median()函数下有这么一句话: 注意: 这个函数还没有在torch.cuda.Tensor中定义. 所以问题就很清晰了，这个运算应该是先把Tensor转到cpu上再把它挪回到gpu上，应该是由于内部转换机制的不健全导致了gpu上的显存没有及时释放，只需要人为的把操作转到cpu上再把tensor转到gpu上，并自己delete就可解决这个问题。

代码如下:

class SpatialFilter(nn.Module):
	def __init__(self,mode=True,sf_rate=0.8):
		'''
		给定特征图求hot_map
		'''
		super(SpatialFilter,self).__init__()
		self.sf_rate=sf_rate
		self.mode=mode
	def forward(self,x):
		b,c,h,w=x.size()
		
		if self.mode:
			#print("====",self.sf_rate)
			hot_map=torch.mean(x,dim=1).view(b,1,h*w).cpu()
			if isinstance(x.data,torch.cuda.FloatTensor):
				map_med=torch.median(hot_map,dim=2)[0].view(b,1,1,1).cuda()  #hot_map的中位数
				hot_map=hot_map.view(b,1,h,w).cuda()
			else:
				map_med=torch.median(hot_map,dim=2)[0].view(b,1,1,1)  #hot_map的中位数
				hot_map=hot_map.view(b,1,h,w)
			hot_map=torch.gt(hot_map,map_med*self.sf_rate).float()
			del(map_med)		
		else:
			#print("++++")
			hot_map=Variable(torch.ones(b,1,h,w),requires_grad=False)
		return hot_map

这样改动之后就可以在cpu上和gpu上同时跑了。

相似的可能导致这种问题的操作还有：torch.mode() 求众数函数

希望能帮助大家以后跳过这个坑。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pytorch显存越来越多的一个潜在原因-- 这个函数还没有在torch.cuda.Tensor中定义的相关文章

BertForSequenceClassification 是否在 CLS 向量上进行分类？

我正在使用抱脸变压器 https huggingface co transformers index html使用 PyTorch 打包和 BERT 我正在尝试进行 4 向情感分类并正在使用BertFor序列分类 https hugging
云或烟雾的粒子系统

我正在尝试使用 OpenGL 和 CUDA 制作一个简单的用于云和烟雾模拟的粒子系统如何使粒子系统中的粒子表现得像真正的云或烟雾在低湍流风中的表现我现在遇到的一些问题是颗粒聚集成一个大球粒子扩散到无限远粒子突然弹射离开我已经完成
如何将 35 类城市景观数据集转换为 19 类？

以下是我的代码的一小段使用它我可以在城市景观数据集上训练名为 lolnet 的模型但数据集包含 35 个类别标签 0 34 imports trainloader torch utils data DataLoader datase
如何在CUDA应用程序中正确应用线程同步？

一般来说我在应用程序中偶尔会使用线程同步因为我并不经常需要此功能我并不是真正的高级 C C 程序员但我也不是初学者我开始学习 CUDA C 对当今 GPU 与 CPU 的能力相比感到兴奋我意识到 CUDA 编程主要是关于并行线程
CUDA Thrust 库中counting_iterators 的用途和用法

我很难理解counting iterator在 CUDA 的推力库中它的目的是什么以及如何使用它在其他编程语言例如 C 中也可用吗计数迭代器只是一个迭代器它从每次迭代器递增时前进的序列中返回下一个值最简单的例子是这样的 incl
使用 Cuda 并行读取多个文本文件

我想使用 CUDA 在多个文件中并行搜索给定字符串我计划使用 pfac 库来搜索给定的字符串问题是如何并行访问多个文件示例我们有一个包含 1000 个文件的文件夹需要搜索这里的问题是我应该如何访问给定文件夹中的多个文件应该动态
直接在主机上访问设备向量元素的最快方法

我请您参考以下页面http code google com p thrust wiki QuickStartGuide Vectors http code google com p thrust wiki QuickStartGuide V
使用推力来处理 CUDA 类中的向量？

我对 C 类的推力的适用性有疑问我正在尝试实现一个类对象该对象接收顶点的 x y z 坐标作为 ver1 ver2 和 ver3 然后分配给一个三角形并计算面积和法向量然而我不太明白如何创建一类推力向量这是我从文件中读取的顶点坐
对 CUDA 操作进行计时

我需要计算 CUDA 内核执行的时间最佳实践指南说我们可以使用事件或标准计时函数例如clock 在Windows中我的问题是使用这两个函数给出了完全不同的结果事实上与实践中的实际速度相比事件给出的结果似乎是巨大的我实际上需要这
PyTorch 如何计算二阶雅可比行列式？

我有一个正在计算向量的神经网络u 我想计算关于输入的一阶和二阶雅可比矩阵x 单个元素有人知道如何在 PyTorch 中做到这一点吗下面是我项目中的代码片段 import torch import torch nn as nn class
如何在pytorch中动态索引张量？

例如我有一个张量 tensor torch rand 12 512 768 我得到了一个索引列表说它是 0 2 3 400 5 32 7 8 321 107 100 511 我希望从给定索引列表的维度 2 上的 512 个元素中选择 1
Pytorch RuntimeError：张量 a (4) 的大小必须与非单维 0 处张量 b (3) 的大小匹配

我使用的代码来自here https www learnopencv com image classification using transfer learning in pytorch 训练模型来预测印刷样式编号0 to 9 idx t
完全禁用 NVCC 优化

我正在尝试测量 GPU 上的峰值单精度触发器为此我正在修改 PTX 文件以在寄存器上执行连续的 MAD 指令不幸的是编译器正在删除所有代码因为它实际上没有做任何有用的事情因为我没有执行任何数据的加载存储是否有编译器标志或编译指
PyInstaller 可执行文件无法获取 TorchScript 源代码

我正在尝试使包含 PyTorch 的脚本在 Windows 中可执行我的脚本的导入是 import numpy core multiarray which is a workaround for ImportError numpy cor
CUDA 代码会损坏 GPU 吗？

在测试包含内存错误的 CUDA 时我的屏幕被冻结了重新启动后我无法再检测到显卡我的代码是否有可能物理损坏该卡这发生在 Ubuntu 14 04 下我不知道该卡的型号因为我无法检测到它但我记得它是一张相当新的卡感谢所有的评论我
PyTorch 中的数据增强

我对 PyTorch 中执行的数据增强有点困惑现在据我所知当我们执行数据增强时我们保留原始数据集然后添加它的其他版本翻转裁剪等但 PyTorch 中似乎并没有发生这种情况据我从参考文献中了解到当我们使用data tra
PyTorch 中的标签平滑

我正在建造一个ResNet 18分类模型为斯坦福汽车使用迁移学习的数据集我想实施标签平滑 https arxiv org pdf 1701 06548 pdf惩罚过度自信的预测并提高泛化能力 TensorFlow有一个简单的关键字参数Cr
带有填充掩码的 TransformerEncoder

我正在尝试使用 src key padding mask 不等于 none 来实现 torch nn TransformerEncoder 想象输入的形状src 20 95 二进制填充掩码的形状为src mask 20 95 填充标记的位置
Pytorch LSTM：计算交叉熵损失的目标维度

我一直在尝试在 Pytorch 中使用 LSTM LSTM 后跟自定义模型中的线性层但在计算损失时出现以下错误 Assertion cur target gt 0 cur target lt n classes failed 我用以下函数
将数据从 GPU 复制到 CPU - CUDA

我在将数据从 GPU 复制到 CPU 时遇到问题一开始我在 GPU 空间中创建变量 device float gpu array 在此 GPU 函数中我想将数据从 od fS gi 值 0 43 复制到 gpu array global

随机推荐

Carsim中添加路径

目录 1 新建3D Road 数据库2 设置具体参数3 添加自定义道路信息利用carsim和simulink联合仿真时 xff0c 需要给定参考轨迹 xff0c 具体设置如下 xff1a 1 新建3D Road 数据库在Miscella
Carsim 2019 Run Now 按钮灰色

安装carsim后 xff0c Run control with Simulink 模块中的Run Now 和Send to simulink 按钮灰色如下图所示 xff1a 解决办法 xff1a 在License Setting中 xff
Ubuntu 添加串口权限

ubuntu串口添加权限方法 Ubuntu 添加串口权限前言一添加用户组 xff0c 可长期使用二给当前终端权限 xff08 单次有效 xff09 1 指定串口2 通用三修改文件 Ubuntu 添加串口权限提示 xff1a 文章写
Ubuntu 虚拟机右上角网络连接符号消失

这里写自定义目录标题 Ubuntu 虚拟机右上角网络连接符号消失解决方案 xff1a Ubuntu 虚拟机右上角网络连接符号消失 Ubuntu 虚拟机右上角网络连接符号消失 xff0c 如下图所示解决方案 xff1a span class
C/C++中局部变量static用法实例

1 普通局部变量存储于进程栈空间 xff0c 使用完毕会立即释放 xff0c 静态局部变量使用static修饰符定义 xff0c 即使在声明时未赋初值 xff0c 编译器也会把它初始化为0 xff0c 并且静态局部变量存储于进程的全局数据区
嵌入式C语言经典面试题（一）

1 用预处理指令 define 声明一个常数 xff0c 用以表明1年中有多少秒 xff08 忽略闰年问题 xff09 define SECONDS PER YEAR 60 60 24 365 UL 我在这想看到几件事情 xff1a 1 d
更新Ubuntu内核到最新版本

想起自己多年前玩Linux的时候知道了两个命令 xff1a sudo apt get update sudo apt get upgrade 以为是能够更新所有软件的 xff0c 后来发现系统还是不能够更新的那么 xff0c 系统应该如
RK3308 按键Key与LED灯

硬件原理图 LED指示灯麦克风阵列子板上使用12颗RGB灯作为效果指示灯用户可以通过I2C总线配置LED灯驱动IC来是实现不同场景下的灯效按键Key 麦克风阵列子板上集成五个控制按键 xff0c 分别为 xff1a 控制音量增减的VO
if选择结构

if单选择结构 if双选择结构 if多选择结构 span class token keyword if span span class token punctuation span score span class token operat
Windows10下Eclipse+Python环境配置与新项目创建

最近心血来潮 xff0c 突然想学一下python xff0c 按理说应该不用Eclipse xff0c 但是一想以后还可能会用Java xff0c 那还是装这个 xff0c 然后配置一下环境吧 xff0c 其中也有很多坑 xff0c 希望
理解地址空间和逻辑地址生成

1 1 地址空间物理地址 xff1a 硬件例如内存条所支持地址空间 xff0c 地址空间的管理由硬件完成逻辑地址虚拟地址 xff1a 运行地址所看到的地址空间 xff0c 地址空间是一维的 xff0c 应用程序更加容易访问和管理
QT DirectShowPlayerService::doSetUrlSource: Unresolved error code 0x800c000d ()

使用QT播放音频的时候出现如下错误 DirectShowPlayerService doSetUrlSource Unresolved error code 0x800c000d 原因是url错误
3种蓝牙架构实现方案（蓝牙协议栈方案）

导言不同的蓝牙架构可以用在不同的场景中从而协议帧的架构方案也会不同转载自 xff1a https www cnblogs com schips p 12293141 html 三种蓝牙架构实现方案 xff08 蓝牙协议栈方案 xff0
驱动遍历句柄表

xfeff xfeff 驱动遍历句柄表附加第二个方法的反汇编代码其中还有对其拦截的方式的一些需要HOOK处比如伪造句柄表因为大量使用硬编码所以此份代码通用性不强一切均在虚拟机XP3下操作 include 34 ntddk h 34 ty
Javascript案例：猜数字游戏

要求程序随机生成一个1 10之间的数字 xff0c 并让用户输入一个数字如果大于该数字 xff0c 就提示 xff0c 数字大了 xff0c 继续猜如果小于该数字 xff0c 就提示 xff0c 数字小了 xff0c 继续猜如果等于该数
操作系统之进程 (五) --- 进程、进程实体、PCB...

文章目录进程什么叫进程什么叫进程实体进程与进程实体的关系PCB的存储信息与分类进程的组织方式链接方式索引方式进程的特征总结感谢进程什么叫进程进程和程序差不多 xff0c 他们有所联系也有所区别我们以我们熟悉的程序入手 xff0
如何让树莓派默认启动进入图形界面

设置Raspbian图形启动当你第一次安装Raspbian系统时 xff0c 确实有一些选项需要你来配置 xff0c 由于匆忙 xff0c 我没有注意到这些 xff0c 只是快速完成屏幕上的选项如果你遇到了和我一样的情况 xff0c 最
ROS与stm32通信

0 概述 ros和stm32等嵌入式单片机的最大区别在于ros主要用于处理slam 机器视觉人工智能这种对于算力要求高 xff0c 算法复杂的问题 xff1b 而stm32和arduino等主要用来处理一些边缘事件 xff0c 比如亮个L
硬件仪器的使用

示波器的使用用于红外捕捉 xff0c 一开始可以把探头扣在探头补偿的位置 xff0c 显示出一个正常的方波信号5V 1KHz 按下CH1的菜单 xff0c 能够弹出右边的选项 xff0c 注意设置为直流和10X电压按下触发处的Menu菜
pytorch显存越来越多的一个潜在原因-- 这个函数还没有在torch.cuda.Tensor中定义

最近在用pytorch跑实验 xff0c 有如下操作需要用到 xff08 pytorch版本为0 3 1 xff09 class SpatialFilter nn Module def init self mode 61 True sf r

pytorch显存越来越多的一个潜在原因-- 这个函数还没有在torch.cuda.Tensor中定义

pytorch显存越来越多的一个潜在原因-- 这个函数还没有在torch.cuda.Tensor中定义 的相关文章

随机推荐

热门标签

pytorch显存越来越多的一个潜在原因-- 这个函数还没有在torch.cuda.Tensor中定义的相关文章