将 nvidia 运行时添加到 docker 运行时

2024-05-19

我正在运行虚拟机GCP配备特斯拉 GPU。并尝试部署一个PyTorch基于应用程序使用 GPU 加速。

我想让 docker 使用这个 GPU，可以从容器访问它。

我设法在主机上安装了所有驱动程序，并且该应用程序在那里运行良好，但是当我尝试在 docker 中运行它（基于 nvidia/cuda 容器）时，pytorch 失败：

File "/usr/local/lib/python3.6/dist-packages/torch/cuda/__init__.py", line 82, 
in _check_driver http://www.nvidia.com/Download/index.aspx""")
AssertionError: 
Found no NVIDIA driver on your system. Please check that you have an NVIDIA GPU and installed a driver from

为了获取有关容器可见的 nvidia 驱动程序的一些信息，我运行以下命令：

docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
但它抱怨：docker: Error response from daemon: Unknown runtime specified nvidia.

在主机上nvidia-smi输出看起来像这样：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01    Driver Version: 440.33.01    CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P100-PCIE...  On   | 00000000:00:04.0 Off |                    0 |
| N/A   39C    P0    35W / 250W |    873MiB / 16280MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

如果我检查 docker 中的运行时，我只会得到runc运行时，没有nvidia就像互联网上的例子一样。

$ docker info|grep -i runtime
 Runtimes: runc
 Default Runtime: runc

我怎样才能添加这个nvidia我的 docker 的运行时环境？

到目前为止，我发现的大多数帖子和问题都说“我只是忘记重新启动我的 docker 守护进程，它起作用了”，但这对我没有帮助。我应该做什么？

我在github上查了很多问题，#1 https://stackoverflow.com/questions/57957491/nvidia-docker-unknown-runtime-specified-nvidia, #2 https://stackoverflow.com/questions/52865988/nvidia-docker-unknown-runtime-specified-nvidia and #3 https://stackoverflow.com/questions/50364031/cant-execute-nvidia-runtime-on-dockerStackOverflow 问题 - 没有帮助。

The nvidia你需要的运行时间是nvidia-container-runtime.

请按照此处的安装说明进行操作：
https://github.com/NVIDIA/nvidia-container-runtime#installation https://github.com/NVIDIA/nvidia-container-runtime#installation

基本上，如果不存在，您首先使用包管理器安装它：

sudo apt-get install nvidia-container-runtime

然后将其添加到 docker 运行时：
https://github.com/nvidia/nvidia-container-runtime#daemon-configuration-file https://github.com/nvidia/nvidia-container-runtime#daemon-configuration-file

这个选项对我有用：

$ sudo tee /etc/docker/daemon.json <<EOF
{
    "runtimes": {
        "nvidia": {
            "path": "/usr/bin/nvidia-container-runtime",
            "runtimeArgs": []
        }
    }
}
EOF
sudo pkill -SIGHUP dockerd

检查是否已添加：

$ docker info|grep -i runtime
 Runtimes: nvidia runc
 Default Runtime: runc

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 nvidia 运行时添加到 docker 运行时的相关文章

如何通过名称而不是IP地址访问docker容器？

有没有办法可以使用名称而不是 IP 地址访问我的 docker 容器我听说过 Pipework 也见过一些 docker 的 dns 和主机名类型选项但我仍然无法将所有内容拼凑在一起感谢您的时间我不确定这是否有帮助但这就是我到目前
如何在 Ubuntu 16.04 LTS 中使用 IIS 运行 Docker 容器 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题似乎不是关于主要由程序员使用的特定编程问题软件算法或软件工具 help on topic 如果您认为该问题与主题相关另一个 St
Docker：保留命令历史记录

Every time I build a Docker container the command history CTRL R in Ubuntu is lost Is there a way to prevent it from res
Tensorboard 无效响应：Jupyterlab 中出现 500 内部服务器错误

我从 Docker 镜像在 Jupyterlab 中运行一个 pod Docker镜像基于官方tensorflow tensorflow 1 15 0 py3图像我按照描述安装了所有依赖项here https github com cha
Docker pull：不允许操作

我在拉取一些 docker 映像但不是全部时收到此错误 failed to register layer Error processing tar file exit status 1 operation not permitted 例
AWS Fargate - 卷

我的 docker compose 文件有问题这是我的 docker 撰写文件 version 3 services nginx proxy image xxxxx dkr ecr xxxxx amazonaws com xxxx lat
如何从C++头文件调用CUDA文件？

我知道从 c 文件调用 cu 文件的方法但现在我想从 C 头文件调用 cu 文件有可能做到吗如果是这样我应该如何设置我的项目请帮忙这是一个有效的例子 file1 h int hello file2 h include
写入 cgroup 参数 cpu.rt_runtime_us 时出错

我正在尝试修改 cgroup 中 docker 容器进程的实时运行时参数我正在关注这个教程 http www breakage org 2014 08 22 using sched fifo in docker containers on
nsq 无法通过连接到 nsqlookupd 来消费消息

我尝试使用 docker compose 来运行 nsq docker compose yml如下 version 3 services nsqlookupd image nsqio nsq command nsqlookupd ports
Google Cloud Kubernetes 访问私有 Docker Hub 托管映像

是否可以将私有镜像从 Docker Hub 拉取到 Google Cloud Kubernetes 集群是否建议这样做或者我是否需要将我的私有映像也推送到 Google Cloud 我阅读了文档但没有发现任何内容可以清楚地解释这一点
确定 docker 镜像的操作系统分布

我需要确定任何 docker 映像的操作系统发行版名称我可以标记ubuntu 最新 as 图片1 最新但我应该能够在启动时获取 image1 latest 的分发信息为了实现这一点我使用下面提到的命令来确定操作系统版本 docker
在容器组的“imageRegistryCredentials”中找到重复的映像注册表“index.docker.io”

PS C Source VelocityAzurev0 10 0 credentialagent docker compose gt docker compose up Running 0 1 Group credentialagent d
CUDA 中的 JPEG 库

我正在尝试在 CUDA 中压缩和解压缩图像到目前为止我已经找到了这个库 http sourceforge net projects cuj2k source navbar http sourceforge net projects cuj
docker run -e 的环境变量

这是我的 Dockerfile FROM ubuntu 16 04 RUN apt get update RUN apt get install y default jdk ADD sample docker 1 0 SNAPSHOT ja
如何降级cuda版本

我目前使用的是 cuda 版本 4 2 但我需要将其更改为 3 1 是否可以卸载当前版本 4 2 版然后安装以前的版本 3 1 版编辑请参阅我的操作系统是linux ubuntu 10 04 64位编辑我找到了如何获取 3 1 版
如何从尖点库矩阵格式获取原始指针

我需要从尖点库矩阵格式获取原始指针例如 cusp coo matrix
无法从我的电脑上使用 traefik 后面的 gitlab 进行 git 克隆

这是我的 gitlab 和 traefik 配置 version 3 7 services gitlab web image gitlab gitlab ce latest restart always hostname gitlab ro
我可以更改 Windows Docker 容器中的日期和时间吗？

我正在尝试测试一个在特定时间段内导出文件的软件我想到使用 docker 容器来提供所需的时间而不是使用系统时间问题是我缺乏更改容器时间的权限并出现以下错误消息 PS C usr src app gt Set Date Date Get
仅使用containerd（不使用Docker）修剪容器镜像

如果我刚刚containerd安装在 Linux 系统上即 Docker 是not安装如何删除未使用的容器映像以节省磁盘空间 Docker 就是这么方便docker system prune https docs docker com
带有 npm 启动脚本的 Nodejs 应用程序

我对nodejs很陌生在我的docker化环境中我想为nodejs应用程序提供appdynamics支持这要求每个应用程序都要求将以下内容作为其应用程序的第一行 require appdynamics profile controll

随机推荐

垃圾邮件打败了我所有的验证码

我有一个 WordPress 博客我在上面使用验证码插件的时间最长因为它有效最近我收到了大量的垃圾邮件然后我尝试执行通过 PHP 生成的将这些随机数添加在一起但仍然没有成功我不太确定需要做什么来阻止这些垃圾邮件但这很烦人我
如何在没有管理员权限的情况下在 VS Code(Windows) 中使用自定义字体来安装字体？

我在我的工作电脑 Windows 7 上没有管理员权限所以我无法将自定义字体 Fira Code 安装到我的系统中有没有办法在 VS Code 中不安装就可以使用这种字体为这个问题找到一个丑陋的解决方法使用 webfont 打开菜单
调用基本方法而不是覆盖方法

在 C 中类A包含一个公共方法Foo 它进行一些处理并返回一个值 protected method Bar 也在课堂上A执行与以下相同的逻辑Foo 然后进行一些额外的处理然后返回一个值为了避免重复代码 Bar calls Foo 并使
将bitbucket发布到数字海洋

我本质上是试图使用 bitbucket 来理解 git 的概念我一直在通过修改本地帐户和 bitbucket 帐户之间的文件来练习版本控制事实证明这很有帮助现在我正在尝试弄清楚如何将文件从 bitbucket 或者我猜是 GitHub
检测对项目外部 RecyclerView 的点击

我有一个 RecyclerView 其中有 2 个项目没有填满整个屏幕如何检测用户单击了 RecyclerView 的空白部分意味着直接单击了 RecyclerView 而不是其项目之一正如评论中提到的 mRecyclerView a
调用线程无法访问该对象，因为另一个线程拥有它

我已经阅读了很多关于此错误的帖子但我不明白如何在我的解决方案中解决它我有一个进度条对话框其中包含一些逻辑通过按钮单击从 MainFrame 调用 void OnBtnClick object sender RoutedEventAr
Spring Cloud Streams无法自动装配Source.class

我正在从头开始学习 Spring Cloud Streams 我尝试创建一个像这样的源应用程序 import org springframework cloud stream messaging Source etc RestControl
如何在 C# 中将 ListView 与目录和文件绑定

我想在 C 的 ListView 中绑定 C 驱动器中的所有目录和文件我的代码是 protected void Page Load object sender EventArgs e DirectoryInfo di new Direct
SQL Server 行锁

如何在 SQL Server 2005 中进行行锁定我执行一条 sql 进行行锁定即 SELECT FROM authors WITH HOLDLOCK ROWLOCK WHERE au id 274 80 9391 它工作正常但在这
如何将自己的js文件导入到vite中？

我将 Laravel 与 Vite 结合使用我想使用 Vanilla JS 代码添加文件在我使用mix之前我从来没有使用过Vite 我尝试将此代码添加到文件 vite config js 中如下例所示 laravel input r
Haskell：不在范围内：数据构造函数

今天开始在学校学习 haskell 我遇到了函数问题我不明白为什么它不在范围内代码如下 ff Char gt Char gt Char ff A B x 0 y 1 x lt A y lt B x 1 y 0 和错误 md31 hs 2
如何从代码隐藏运行存储过程（带参数 - 有返回值）？

如何使用存储过程带参数具有类型的返回值int 从代码后面我的存储过程如下所示 ALTER Procedure dbo sp Noskheh SumOfTotalPay Co ID int AS Declare Sum bigint B
运算符“">”不能应用于类型“ulong”和“int”

我很好奇为什么 C 编译器只为第二个 if 语句提供错误消息 enum Permissions ulong ViewListItems 1L public void Method int mask 138612833 int compare
重复条目：自定义 Android 模块中的 org/appcelerator/titanium/gen/bindings.json

设置问题我为 Titanium 创建了一个自定义 Android 模块用于在 Ti 内显示 Gif 动画模块源代码可以在这里找到 https github com m1ga com miga gifview https github
ruby 认为我正在引用顶级常量，即使我指定了完整的命名空间

在我的应用程序中我有 class User include User Foo end User Foo定义在 app models user foo rb 中现在我正在使用一个定义自己的库Foo班级我收到此错误警告 User Foo
为沙盒 Cocoa 应用程序创建临时文件

我的应用程序是沙箱化的根据最新的应用程序商店指南我想创建一些临时文件我可以这样做吗如果是我可以在哪里这样做有没有预先指定的路径还有访问该路径的命令您应该使用NSTemporaryDirectory 函数它将查找并返回适合
按外键字段的计数排序？

我有一个用户模型和一个提交模型每个提交都有一个名为 user subscribed 的外键字段用于上传该提交的用户 class Submission models Model uploaded by models ForeignKey
jquery-traversing：选择 -> 选项 -> 文本

我想将变量与选择 gt 选项 gt 选择的文本进行比较以更改选定属性这是我的代码它有效但我认为这不是最好的编写方式请原谅我的英语我使用谷歌翻译寻求帮助嘿嘿嘿 var lista example 1 id option eac
使用纯 CSS 创建向上和向下箭头图标或按钮

我正在尝试使用纯 CSS 且无背景图像创建如下所示的向上和向下控制按钮但是当我在中添加箭头的CSS时li className after or li className before 主盒子的位置移动了这是我遇到的问题的小提琴 g
将 nvidia 运行时添加到 docker 运行时

我正在运行虚拟机GCP配备特斯拉 GPU 并尝试部署一个PyTorch基于应用程序使用 GPU 加速我想让 docker 使用这个 GPU 可以从容器访问它我设法在主机上安装了所有驱动程序并且该应用程序在那里运行良好但是当我尝试在

将 nvidia 运行时添加到 docker 运行时

将 nvidia 运行时添加到 docker 运行时 的相关文章

随机推荐

热门标签

将 nvidia 运行时添加到 docker 运行时的相关文章