-
压力测试
- 获取gpu burn:https://codeload.github.com/wilicc/gpu-burn/zip/master
- 解压缩:unzip gpu-burn-master.zip
- 进入目录编译:cd gpu-burn-master; make
- 执行:
- 直接全跑:./gpu_burn 100
- 指定某几张卡:export CUDA_VISIBLE_DEVICES=0,1;./gpu_burn 100
-
故障定位
- 找出故障卡:dmesg -I err,拿到错误卡的Bus-Id
- 根据Bus-Id找出对应GPU编号(通过nvidia-smi查看),假设是device 2
- export CUDA_VISIBLE_DEVICES=0,1,3,4 # 2不写在里面
- ./gpu_burn 100
- 跑完之后关机,找出没有温度的那张卡,即为故障卡
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)