将 nvidia 运行时添加到 docker 运行时

2024-05-19

我正在运行虚拟机GCP配备特斯拉 GPU。 并尝试部署一个PyTorch基于应用程序使用 GPU 加速。

我想让 docker 使用这个 GPU,可以从容器访问它。

我设法在主机上安装了所有驱动程序,并且该应用程序在那里运行良好,但是当我尝试在 docker 中运行它(基于 nvidia/cuda 容器)时,pytorch 失败:

File "/usr/local/lib/python3.6/dist-packages/torch/cuda/__init__.py", line 82, 
in _check_driver http://www.nvidia.com/Download/index.aspx""")
AssertionError: 
Found no NVIDIA driver on your system. Please check that you have an NVIDIA GPU and installed a driver from

为了获取有关容器可见的 nvidia 驱动程序的一些信息,我运行以下命令:

docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
但它抱怨:docker: Error response from daemon: Unknown runtime specified nvidia.

在主机上nvidia-smi输出看起来像这样:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01    Driver Version: 440.33.01    CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P100-PCIE...  On   | 00000000:00:04.0 Off |                    0 |
| N/A   39C    P0    35W / 250W |    873MiB / 16280MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

如果我检查 docker 中的运行时,我只会得到runc运行时,没有nvidia就像互联网上的例子一样。

$ docker info|grep -i runtime
 Runtimes: runc
 Default Runtime: runc

我怎样才能添加这个nvidia我的 docker 的运行时环境?

到目前为止,我发现的大多数帖子和问题都说“我只是忘记重新启动我的 docker 守护进程,它起作用了”,但这对我没有帮助。我应该做什么?

我在github上查了很多问题,#1 https://stackoverflow.com/questions/57957491/nvidia-docker-unknown-runtime-specified-nvidia, #2 https://stackoverflow.com/questions/52865988/nvidia-docker-unknown-runtime-specified-nvidia and #3 https://stackoverflow.com/questions/50364031/cant-execute-nvidia-runtime-on-dockerStackOverflow 问题 - 没有帮助。


The nvidia你需要的运行时间是nvidia-container-runtime.

请按照此处的安装说明进行操作:
https://github.com/NVIDIA/nvidia-container-runtime#installation https://github.com/NVIDIA/nvidia-container-runtime#installation

基本上,如果不存在,您首先使用包管理器安装它:

sudo apt-get install nvidia-container-runtime

然后将其添加到 docker 运行时:
https://github.com/nvidia/nvidia-container-runtime#daemon-configuration-file https://github.com/nvidia/nvidia-container-runtime#daemon-configuration-file

这个选项对我有用:

$ sudo tee /etc/docker/daemon.json <<EOF
{
    "runtimes": {
        "nvidia": {
            "path": "/usr/bin/nvidia-container-runtime",
            "runtimeArgs": []
        }
    }
}
EOF
sudo pkill -SIGHUP dockerd

检查是否已添加:

$ docker info|grep -i runtime
 Runtimes: nvidia runc
 Default Runtime: runc
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将 nvidia 运行时添加到 docker 运行时 的相关文章

随机推荐

  • 垃圾邮件打败了我所有的验证码

    我有一个 WordPress 博客 我在上面使用验证码插件的时间最长 因为它有效 最近我收到了大量的垃圾邮件 然后我尝试执行通过 PHP 生成的 将这些随机数添加在一起 但仍然没有成功 我不太确定需要做什么来阻止这些垃圾邮件 但这很烦人 我
  • 如何在没有管理员权限的情况下在 VS Code(Windows) 中使用自定义字体来安装字体?

    我在我的工作电脑 Windows 7 上没有管理员权限 所以我无法将自定义字体 Fira Code 安装到我的系统中 有没有办法在 VS Code 中不安装就可以使用这种字体 为这个问题找到一个丑陋的解决方法 使用 webfont 打开菜单
  • 调用基本方法而不是覆盖方法

    在 C 中 类A包含一个公共方法Foo 它进行一些处理并返回一个值 protected method Bar 也在课堂上A执行与以下相同的逻辑Foo 然后进行一些额外的处理 然后返回一个值 为了避免重复代码 Bar calls Foo 并使
  • 将bitbucket发布到数字海洋

    我本质上是试图使用 bitbucket 来理解 git 的概念 我一直在通过修改本地帐户和 bitbucket 帐户之间的文件来练习版本控制 事实证明这很有帮助 现在我正在尝试弄清楚如何将文件从 bitbucket 或者我猜是 GitHub
  • 检测对项目外部 RecyclerView 的点击

    我有一个 RecyclerView 其中有 2 个项目没有填满整个屏幕 如何检测用户单击了 RecyclerView 的空白部分 意味着直接单击了 RecyclerView 而不是其项目之一 正如评论中提到的 mRecyclerView a
  • 调用线程无法访问该对象,因为另一个线程拥有它

    我已经阅读了很多关于此错误的帖子 但我不明白如何在我的解决方案中解决它 我有一个进度条对话框 其中包含一些逻辑 通过按钮单击从 MainFrame 调用 void OnBtnClick object sender RoutedEventAr
  • Spring Cloud Streams无法自动装配Source.class

    我正在从头开始学习 Spring Cloud Streams 我尝试创建一个像这样的源应用程序 import org springframework cloud stream messaging Source etc RestControl
  • 如何在 C# 中将 ListView 与目录和文件绑定

    我想在 C 的 ListView 中绑定 C 驱动器中的所有目录和文件 我的代码是 protected void Page Load object sender EventArgs e DirectoryInfo di new Direct
  • SQL Server 行锁

    如何在 SQL Server 2005 中进行行锁定 我执行一条 sql 进行行锁定 即 SELECT FROM authors WITH HOLDLOCK ROWLOCK WHERE au id 274 80 9391 它工作正常 但在这
  • 如何将自己的js文件导入到vite中?

    我将 Laravel 与 Vite 结合使用 我想使用 Vanilla JS 代码添加文件 在我使用mix之前 我从来没有使用过Vite 我尝试将此代码添加到文件 vite config js 中 如下例所示 laravel input r
  • Haskell:不在范围内:数据构造函数

    今天开始在学校学习 haskell 我遇到了函数问题 我不明白为什么它不在范围内 代码如下 ff Char gt Char gt Char ff A B x 0 y 1 x lt A y lt B x 1 y 0 和错误 md31 hs 2
  • 如何从代码隐藏运行存储过程(带参数 - 有返回值)?

    如何使用存储过程 带参数 具有类型的返回值int 从代码后面 我的存储过程如下所示 ALTER Procedure dbo sp Noskheh SumOfTotalPay Co ID int AS Declare Sum bigint B
  • 运算符“">”不能应用于类型“ulong”和“int”

    我很好奇为什么 C 编译器只为第二个 if 语句提供错误消息 enum Permissions ulong ViewListItems 1L public void Method int mask 138612833 int compare
  • 重复条目:自定义 Android 模块中的 org/appcelerator/titanium/gen/bindings.json

    设置 问题 我为 Titanium 创建了一个自定义 Android 模块 用于在 Ti 内显示 Gif 动画 模块源代码可以在这里找到 https github com m1ga com miga gifview https github
  • ruby 认为我正在引用顶级常量,即使我指定了完整的命名空间

    在我的应用程序中我有 class User include User Foo end User Foo定义在 app models user foo rb 中 现在我正在使用一个定义自己的库Foo班级 我收到此错误 警告 User Foo
  • 为沙盒 Cocoa 应用程序创建临时文件

    我的应用程序是沙箱化的 根据最新的应用程序商店指南 我想创建一些临时文件 我可以这样做吗 如果 是 我可以在哪里这样做 有没有预先指定的路径 还有访问该路径的命令 您应该使用NSTemporaryDirectory 函数 它将查找并返回适合
  • 按外键字段的计数排序?

    我有一个用户模型和一个提交模型 每个提交都有一个名为 user subscribed 的外键字段 用于上传该提交的用户 class Submission models Model uploaded by models ForeignKey
  • jquery-traversing:选择 -> 选项 -> 文本

    我想将变量与选择 gt 选项 gt 选择的文本进行比较 以更改 选定 属性 这是我的代码 它有效 但我认为这不是最好的编写方式 请原谅我的英语 我使用谷歌翻译寻求帮助嘿嘿嘿 var lista example 1 id option eac
  • 使用纯 CSS 创建向上和向下箭头图标或按钮

    我正在尝试使用纯 CSS 且无背景图像创建如下所示的 向上和向下 控制按钮 但是当我在 中添加箭头的CSS时li className after or li className before 主盒子的位置移动了 这是我遇到的问题的小提琴 g
  • 将 nvidia 运行时添加到 docker 运行时

    我正在运行虚拟机GCP配备特斯拉 GPU 并尝试部署一个PyTorch基于应用程序使用 GPU 加速 我想让 docker 使用这个 GPU 可以从容器访问它 我设法在主机上安装了所有驱动程序 并且该应用程序在那里运行良好 但是当我尝试在