Unable to determine the device handle for GPU. GPU is lost. Reboot the system to recover this GPU.

2023-05-16

最近服务器跑程序的时候经常出现GPU lost的情况,报错信息如下:

Unable to determine the device handle for GPU. GPU is lost. Reboot the system to recover this GPU.

自查排除首先排除程序代码原因,然后根据网上给出的各种原因一一检查,可参考:https://sdsy888.blog.csdn.net/article/details/103884592

可能原因总结如下:

  1. 驱动问题
    不过如果你重启后GPU恢复的话,基本可以排除这个原因,我更新了驱动,但是还是没有解决。
  2. GPU过热,风扇,机箱散热问题
    基本可以确定我的情况属于这个问题,首先我使用小数据集同时跑2块GPU时不会出现错误,但换大数据集同时跑2块GPU就会报错(温度会高些);而用大数据集在单块GPU上跑也不会报错,还能抗得住。。
    而且navidia-smi监控信息显示风扇转速有点低,甚至有块没有,看了机子风扇都有在转,不过确实没有其他服务器转的厉害。
    在这里插入图片描述
    目前单块在跑没有断过。
  3. 电源供电不足导致
    服务器机子最好一个插座上只供应这个机子,不要接其他大功率电器
  4. cuda,anaconda和框架
    全部重新安装下

更新:找人修了机子,确定是散热问题,风扇坏掉了/(ㄒoㄒ)/~~

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Unable to determine the device handle for GPU. GPU is lost. Reboot the system to recover this GPU. 的相关文章

  • 如何修改子图位置以阻止它们相互覆盖?

    我正在尝试创建世界地图的子图 6 个图 并在其中写入选定的形状文件 我的问题在于我对子图的放置 它们互相覆盖 我从 stackoverflow 上的其他问题中了解到 这是因为轴以某种方式重叠 但我认为我创建的位置只是 并排 参见下面的代码
  • -webkit-overflow-scrolling touch 不适用于固定元素

    我使用一个额外的样式表 其中包含以下内容来触摸设备 touch overflow x hidden overflow y scroll webkit overflow scrolling touch body overflow x hidd
  • C# 获取句柄列表,AcessViolationException

    Info Net 4 5 测试于 Win7 64位 Win10 64位 虚拟盒 我正在尝试获取外部进程的句柄列表并将它们的名称作为字符串返回 以便我可以在之后关闭特定的进程 因此我使用 Win32API 编写了这个函数 它将检查句柄是否是我
  • C++ 中的句柄是什么?

    有人告诉我 句柄有点像指针 但其实不是 它允许您保留对对象的引用 而不是对象本身 更详细的解释是什么 句柄可以是从整数索引到指向内核空间中资源的指针的任何内容 其想法是 它们提供了资源的抽象 因此您无需了解太多有关资源本身的信息即可使用它
  • 没有 JIT 的 Android 设备

    我正在关注性能技巧 http developer android com training articles perf tips html通过开发者网站 其中提到了没有 JIT 的 Android 设备 但我搜索了无 jit 设备 但找不到
  • 将 Windows 设备路径解析为驱动器盘符

    如何解析 NT 样式的设备路径 例如 Device CdRom0 到其逻辑驱动器号 例如G 编辑 不幸的是 卷名称与设备路径不同GetVolumePathNamesForVolumeName 行不通的 希望下面的代码足以解决这个问题 在初始
  • 检测设备品牌

    我正在从事网络分析工作 我正在使用 JavaScript 客户端和 NodeJS 服务器端 我知道我们可以找到答案设备类型 https stackoverflow com questions 11381673 javascript solu
  • MapViewOfFile 失败,错误代码 6(无效句柄)

    我尝试将文件映射到内存并使用 MapViewOfFile 但它失败并显示错误代码 6 我尝试了几乎所有方法 我还读到大文件是问题所在 但问题也发生在 1kb 文件上 my code HANDLE hFile CreateFile pFile
  • 如何比较两个 HANDLE 类型的变量

    我有一个 HANDLE 类型的变量 第一个 HANDLE 变量是一个没有 PROCESS QUERY INFORMATION 访问权限的进程 HANDLE 名称为 hProcess 第二个变量也是一个进程句柄 名称为 hwndProcess
  • 无法为 Kindle Fire HD 安装 ADB

    我正在尝试root它 尽管在我安装了正确的ADB驱动程序之后 当我插入我的Kindle fire HD 7 时 点燃火 gt Android 复合 ADB 接口 没有出现在设备管理器中 因此我无法执行root 我已将 0x1949 添加到
  • 从另一个桌面捕获屏幕截图

    我使用创建了第二个桌面CreateDesktop我不会切换到它 我还在其中创建了一些进程 例如 Explorer exe 和 Winrar exe 接下来我有一个代码 它将当前桌面的屏幕截图保存到剪贴板 CreateDesktop 和 Sc
  • 带或不带句柄的嵌套 classdef? [复制]

    这个问题在这里已经有答案了 我试图在 Matlab 中使用可更新的对象 类 和嵌套类 我观察到一种似乎是由于句柄状态引起的行为 我写了2个类testA and testB testB是一个调用该类的主类testA作为财产 classdef
  • cordova 使用命令行运行(实际)Android 设备?

    根据文档 http cordova apache org docs en 4 0 0 guide cli index md html 我们可以通过以下方式在模拟器上运行我们的 android 项目 cordova run android o
  • 限制特定设备销售应用程序?

    是否可以通过特定设备或设备的功能 屏幕分辨率 处理器 磁盘空间等 来限制 Android Market 上应用程序的销售 我知道我会受到人们的轰炸 他们说如果你的应用程序设计得好 它应该能够在任何尺寸的设备上运行 这一切都很好 但出于某些原
  • 使用“adb devices”命令无法找到 Android 设备

    我正在开发Android申请于macOS我的应用程序在模拟器上运行良好 我想在设备上运行它 但是当我运行时adb devices我什么也没得到 localhost platform tools BF adb devices List of
  • 如何在 iOS 上更改设备音量 - 而不是音乐音量

    我想更改 iOS iPhone 上的设备音量 我知道我可以使用以下几行更改音乐库的音量 implement at first MediaPlayer framework MPMusicPlayerController musicPlayer
  • Java:列出已插入的相机

    我的程序当前获取插入计算机的驱动器列表File listRoots 但是 当我将相机或 MP3 播放器直接插入计算机 而不是插入存储卡 时 它不会列出 Windows 资源管理器中也没有驱动器号 例如 这是我的相机的位置 Computer
  • 当前有哪些 USB 设备(友好名称)连接到 PC?

    我可以获得当前连接到计算机的设备列表吗 我检查了this https stackoverflow com q 3331043 75500 and this https stackoverflow com questions 3685615
  • Swift 中的运行时错误处理

    我完全知道 Swift 没有 try catch 机制来捕获异常 好吧 Swift 2 0 现在支持它们 我还了解到 许多 API 方法都会返回一个 NSError 如果出现问题 该错误对象将被填充为错误对象 所以请不要向我指出这个问题 S
  • 计算Android设备的PPI

    如何计算 Android 设备的 PPI 最特别的是 Android 平板电脑 请注意 我想计算设备的 PPI 而不是 DPI 就像一二三一样简单 让我们来计算一下PPI to Nexus 5 例如 float LCD Diagonal 4

随机推荐