输入nvidia-smi显示
NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver
但是torch.cuda.is_available()还能用,这就有些别扭了
出现这个问题一般是由于kernel mod 的 Nvidia driver 的版本没有更新
(不是人为因素)
解决办法:
一,重启机器(如果有足够权限的话,直接重启就能解决,下文跳过)
二,如果权限不够,不能重启的话,那就用命令reload kernel mod
(1). 查看依赖(看看就行)
lsmod | grep -i nvidia
一般出现下面这些显示
![在这里插入图片描述](https://img-blog.csdnimg.cn/005413fe67df4bd2b090726717a0d562.png)
(2). 删除一些模块
sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
没有消息就是好消息
![在这里插入图片描述](https://img-blog.csdnimg.cn/f4cc1dd6b8f646b78409a2134b7367d6.png)
(3).移除nvidia模块(一般会报错)
sudo rmmod nvidia
![在这里插入图片描述](https://img-blog.csdnimg.cn/c1ee5348970c44b681c46a6d378819ba.png)
lsmod | grep nvidia
![在这里插入图片描述](https://img-blog.csdnimg.cn/8146f96411594135b1aab151ccd40283.png)
这里的15就说明有进程使用nvidia了,那么不怕被打的话,可以kill该进程
查看有什么进程占用了
sudo lsof -n -w /dev/nvidia*
![在这里插入图片描述](https://img-blog.csdnimg.cn/38bb569489904b4da911d1b8ce503c0a.png)
kill该进程
sudo kill 1709
然后发现nvidia的占用由15变成0,那就是好消息
接下来
sudo rmmod nvidia
没有报错就算成功
(4).最后一步
sudo nvidia-smi
就会出现
![在这里插入图片描述](https://img-blog.csdnimg.cn/86c6c97934b145e7909c19b1c356891b.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAU2F5ZWxsbw==,size_20,color_FFFFFF,t_70,g_se,x_16)
即为成功
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)