多GPU基本使用

2024-01-03

例如，我如何使用两个设备来改进以下代码的性能（向量之和）？是否可以“同时”使用更多设备？如果是，我如何管理向量在不同设备的全局内存上的分配？

#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <time.h>
#include <cuda.h>

#define NB 32
#define NT 500
#define N NB*NT

__global__ void add( double *a, double *b, double *c);

//===========================================
__global__ void add( double *a, double *b, double *c){

    int tid = threadIdx.x + blockIdx.x * blockDim.x; 

    while(tid < N){
        c[tid] = a[tid] + b[tid];
        tid += blockDim.x * gridDim.x;
    }

}

//============================================
//BEGIN
//===========================================
int main( void ) {

    double *a, *b, *c;
    double *dev_a, *dev_b, *dev_c;

    // allocate the memory on the CPU
    a=(double *)malloc(N*sizeof(double));
    b=(double *)malloc(N*sizeof(double));
    c=(double *)malloc(N*sizeof(double));

    // allocate the memory on the GPU
    cudaMalloc( (void**)&dev_a, N * sizeof(double) );
    cudaMalloc( (void**)&dev_b, N * sizeof(double) );
    cudaMalloc( (void**)&dev_c, N * sizeof(double) );

    // fill the arrays 'a' and 'b' on the CPU
    for (int i=0; i<N; i++) {
        a[i] = (double)i;
        b[i] = (double)i*2;
    }

    // copy the arrays 'a' and 'b' to the GPU
    cudaMemcpy( dev_a, a, N * sizeof(double), cudaMemcpyHostToDevice);
    cudaMemcpy( dev_b, b, N * sizeof(double), cudaMemcpyHostToDevice);

    for(int i=0;i<10000;++i)
        add<<<NB,NT>>>( dev_a, dev_b, dev_c );

    // copy the array 'c' back from the GPU to the CPU
    cudaMemcpy( c, dev_c, N * sizeof(double), cudaMemcpyDeviceToHost);

    // display the results
    // for (int i=0; i<N; i++) {
    //      printf( "%g + %g = %g\n", a[i], b[i], c[i] );
    //  }
    printf("\nGPU done\n");

    // free the memory allocated on the GPU
    cudaFree( dev_a );
    cudaFree( dev_b );
    cudaFree( dev_c );
    // free the memory allocated on the CPU
    free( a );
    free( b );
    free( c );

    return 0;
}

先感谢您。米歇尔

自从 CUDA 4.0 发布以来，您所询问的类型的多 GPU 计算相对容易。在此之前，您需要使用多线程主机应用程序，每个 GPU 有一个主机线程以及某种线程间通信系统，以便在同一主机应用程序中使用多个 GPU。

现在可以对主机代码的内存分配部分执行类似的操作：

double *dev_a[2], *dev_b[2], *dev_c[2];
const int Ns[2] = {N/2, N-(N/2)};

// allocate the memory on the GPUs
for(int dev=0; dev<2; dev++) {
    cudaSetDevice(dev);
    cudaMalloc( (void**)&dev_a[dev], Ns[dev] * sizeof(double) );
    cudaMalloc( (void**)&dev_b[dev], Ns[dev] * sizeof(double) );
    cudaMalloc( (void**)&dev_c[dev], Ns[dev] * sizeof(double) );
}

（免责声明：在浏览器中编写，从未编译，从未测试，使用风险自负）。

这里的基本思想是你使用cudaSetDevice当您在设备上执行操作时，可以在设备之间进行选择。因此，在上面的代码片段中，我假设了两个 GPU，并在每个设备上分配了内存 [第一个设备上的 (N/2) 个双倍，第二个设备上的 N-(N/2) 个]。

从主机到设备的数据传输可以简单如下：

// copy the arrays 'a' and 'b' to the GPUs
for(int dev=0,pos=0; dev<2; pos+=Ns[dev], dev++) {
    cudaSetDevice(dev);
    cudaMemcpy( dev_a[dev], a+pos, Ns[dev] * sizeof(double), cudaMemcpyHostToDevice);
    cudaMemcpy( dev_b[dev], b+pos, Ns[dev] * sizeof(double), cudaMemcpyHostToDevice);
}

（免责声明：在浏览器中编写，从未编译，从未测试，使用风险自负）。

代码的内核启动部分可能类似于：

for(int i=0;i<10000;++i) {
    for(int dev=0; dev<2; dev++) {
        cudaSetDevice(dev);
        add<<<NB,NT>>>( dev_a[dev], dev_b[dev], dev_c[dev], Ns[dev] );
    }
}

（免责声明：在浏览器中编写，从未编译，从未测试，使用风险自负）。

请注意，我在内核调用中添加了一个额外的参数，因为可能会使用不同数量的要处理的数组元素来调用内核的每个实例。我会将其留给您来完成所需的修改。但是，同样，基本思想是相同的：使用cudaSetDevice选择一个给定的 GPU，然后以正常方式在其上运行内核，每个内核都有自己独特的参数。

您应该能够将这些部分组合在一起以生成简单的多 GPU 应用程序。还有很多其他功能可以在最新的 CUDA 版本和硬件中使用来协助多个 GPU 应用程序（例如统一寻址、点对点设施更多），但这应该足以让您入门。 CUDA SDK 中还有一个简单的多 GPU 应用程序，您可以查看更多想法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

多GPU基本使用的相关文章

OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

我的第一个问题是如何获取 Nvidia GPU 上 OpenCL 内核代码的寄存器使用信息因为 nvcc 编译器给出了相同的使用信息nvcc ptxas options vCUDA 内核代码的标志我还从 AMD GPU for Open
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
无法使用 Keras 中的 multi_gpu_model 后的 model.save 保存模型

升级到 Keras 2 0 9 后我一直在使用multi gpu model实用程序但我无法使用保存我的模型或最佳权重 model save path 我得到的错误是类型错误无法pickle模块对象我怀疑访问模型对象时存在一些问题
CUDA：获取数组中的最大值及其索引

我有几个块每个块在整数数组的单独部分上执行举个例子块一从 array 0 到 array 9 块二从 array 10 到 array 20 我可以获得每个块的数组最大值的索引的最佳方法是什么示例块一 a 0 到 a 10 具有以下
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY
UnimplementedError：图形执行错误：在张量流上运行 nn

我一直遇到这个错误我不知道为什么特别是因为我完全遵循某人的代码并且该人在运行此错误时没有错误 img shape 128 128 3 load pretrained model base model tf keras applicati
NVCC 警告级别

我希望 NVCC 将以下警告视为错误 warning calling a host function foo from a host device function bar NVCC 文档 NVIDIA CUDA 编译器驱动程序 NVCC
CUDA Thrust 库中counting_iterators 的用途和用法

我很难理解counting iterator在 CUDA 的推力库中它的目的是什么以及如何使用它在其他编程语言例如 C 中也可用吗计数迭代器只是一个迭代器它从每次迭代器递增时前进的序列中返回下一个值最简单的例子是这样的 incl
摆脱异步 cuda 流执行期间的忙等待

我正在寻找一种方法如何摆脱以下代码中主机线程中的忙等待不要复制该代码它仅显示我的问题的想法它有许多基本错误 cudaStream t steams S N for int i 0 i lt S N i cudaStreamCreat
GPU上动态分配内存

是否可以在内核内的 GPU 全局内存上动态分配内存我不知道我的答案有多大因此我需要一种方法为答案的每个部分分配内存 CUDA 4 0 允许我们使用 RAM 这是一个好主意还是会降低速度可以在内核中使用 malloc 检查以下内容摘自
在 Cuda 中简单添加两个 int，结果始终相同

我开始了学习Cuda的旅程我正在玩一些 hello world 类型的 cuda 代码但它不起作用我不知道为什么代码非常简单取两个整数并将它们添加到 GPU 上并返回结果但无论我将数字更改为什么我都会得到相同的结果如果数学那
我们如何在每次运行时使用不同的种子在 CUDA C 中生成随机数？

我正在研究一个随机过程我想在每次运行程序时在 CUDA 内核中生成不同的系列随机数这类似于我们在 C 中声明种子时间空接下来是 srand 种子和兰特我可以通过内核将种子从主机传递到设备但是这样做的问题是我必须将整个种子
CUDA 和 Eigen 的成员“已声明”错误

我只是 CUDA 和 Nsight 的初学者希望利用出色的 GPU 性能进行线性代数运算例如 CUBLAS 我在以下人员的帮助下编写了很多自定义代码Eigen http eigen tuxfamily org index php tit
使用推力来处理 CUDA 类中的向量？

我对 C 类的推力的适用性有疑问我正在尝试实现一个类对象该对象接收顶点的 x y z 坐标作为 ver1 ver2 和 ver3 然后分配给一个三角形并计算面积和法向量然而我不太明白如何创建一类推力向量这是我从文件中读取的顶点坐
无法编译cuda_ndarray.cu：libcublas.so.7.5：无法打开共享对象文件

我正在尝试在 aws 实例中导入 theano 库以使用 GPU 我已经使用 boto 编写了一个 python 脚本来自动执行 aws 设置该脚本本质上会从我的本地计算机对实例执行 ssh 然后启动一个 bash 脚本其中我执行 py
CUDA-Kernel 应该根据块大小动态崩溃

我想做稀疏矩阵密集向量乘法假设用于压缩矩阵中条目的唯一存储格式是压缩行存储 CRS 我的内核如下所示 global void krnlSpMVmul1 float data mat int num nonzeroes unsigned
一维纹理内存访问比一维全局内存访问更快吗？

我正在测量标准纹理和 1Dtexture 内存访问之间的差异为此我创建了两个内核 global void texture1D float doarray int size int index calculate each thread
如何降级cuda版本

我目前使用的是 cuda 版本 4 2 但我需要将其更改为 3 1 是否可以卸载当前版本 4 2 版然后安装以前的版本 3 1 版编辑请参阅我的操作系统是linux ubuntu 10 04 64位编辑我找到了如何获取 3 1 版
如何转储所有 NVCC 预处理器定义？

我想达到同样的效果 gcc dM E lt dev null 如所描述的here https stackoverflow com q 2224334 1593077 但对于 nvcc 也就是说我想转储所有 nvcc 的预处理器定义唉 n
为什么在 CUDA 中启动 32 倍数的线程？

我参加了 CUDA 并行编程课程并且看到了许多 CUDA 线程配置的示例其中通常将所需的线程数四舍五入到最接近的 32 倍数我知道线程被分组为 warp 并且如果您启动 1000 个线程 GPU 无论如何都会将其四舍五入到 1024

随机推荐

使用数组查询sqlite数据库android

我如何使用字符串数组来查询 sqlite 数据库我不断收到异常 SQliteException 绑定或列索引超出范围 String names new String values size values is an Arraylist S
为什么 EF 返回代理类而不是实际实体？

当我想要实际的实体类时我在实体框架返回代理时遇到问题我第一次运行代码时一切都运行正常没有代理但之后的每次迭代我的一个 DbSet 总是返回代理而不是实际类型我在每次迭代后都会处理上下文所以我不明白为什么第一次它有效而之后每
如何使 Win32/MFC 线程同步循环？

我是 Windows 中多线程的新手所以这可能是一个微不足道的问题确保线程按步执行循环的最简单方法是什么我尝试传递一个共享数组Events 到所有线程并使用WaitForMultipleObjects在循环结束时同步它们但这会在一个
对reportlab heisenbug 进行故障排除

使用Django 1 4 Python 2 7 reportlab 开源版本生成pdf 到目前为止一切都进展顺利以前的 pdf 生成如 http 请求返回下载生成的 pdf 文件是在 Django 1 3 上进行的并且不向公众
如何使用 Rails 重定向到外部网站？

我希望当鼠标悬停在链接上时您会看到该链接看起来像这样 http www website com redirect to linkID2 http www website com redirct to linkID2 也许不完全一样但尝试
将 CGGradient 添加为 UILabel 的子图层会隐藏标签的文本

我想添加渐变作为标签的背景我使用以下代码来实现这一目标但问题是虽然标签上出现渐变颜色但文本不可见请帮忙 lblPatientDetail text PatientsDetails lblPatientDetail textColo
在 Spring Security Java Config 中创建多个 HTTP 部分

使用 Spring Security XML 配置您可以定义多个 HTTP 元素来为应用程序的不同部分指定不同的访问规则中给出的示例8 6 高级命名空间配置 http docs spring io spring security sit
从外部按钮清除与 Angular Bootstrap UI 选项卡集中的文本区域关联的 ng-model

我用过 Angular Bootstrap uitabset创建两个选项卡并且两个选项卡都有textareas与一个相关联ng model 我在外面有一个清晰的按钮tabset我想清除ng model of the textArea当用户按
惯性滚动时如何同步两个元素的滚动偏移

我需要使一个元素的滚动偏移量与另一个元素实际上是窗口保持同步但在 Mobile Safari iPad 上滚动的惯性滚动阶段我遇到了麻烦我有几个 divposition fixed overflow hidden我需要保持它们
保存 ModelForm 时重复的键值违反唯一约束

我的观点 py class UserProfileFormView View def post self request args kwargs userform UserForm request POST prefix users use
如何确定给定字体的字符串的大小

我有一个小表单显示一些进度信息我很少需要显示相当长的消息并且我希望能够在需要时调整此表单的大小以便此消息适合表单那么我如何知道字符串有多宽S将以字体呈现F 这取决于所使用的渲染引擎您基本上可以在 GDI 和 GDI 之间切换可
module.config 内的 AngularJS 依赖注入值

尝试为模块设置一些辅助值尝试过服务和价值但没有帮助 var finance angular module finance finance services value helpers templatePath function name
如何更改 Android EditText 键盘颜色？

In iOS TextField有一个属性叫做Appeareance可以有一个Dark价值它将改变KEYBOARD颜色不是文本字段本身但在 Android 中我找不到合适的颜色EditText https developer andr
如果其中一个返回 true，是否有办法阻止 boost::signal 调用其插槽？

我正在使用 boost 库我的问题是关于 boost signals 的我有一个信号可能会调用许多不同的插槽但只有一个插槽与调用匹配因此我希望该特定插槽返回 true 并且调用将停止是否可以有效率吗如果效率不高你们能建议我一
assetlinks.json 中的应用程序链接意图过滤器在 Android 上不起作用

我的应用程序定义了意图过滤器来处理来自我的网站的 URL 由以下定义
一个列表，简单的左浮动，不同的单元格大小

我有一个很好的挑战给你这里有下一个代码实例 http inturnets com test test html http inturnets com test test html
如何在 javax.ws.rs.core.Response 中设置响应主体

有一个需要实现的 REST API 端点用于获取一些信息并将后端请求发送到另一台服务器并且来自后端服务器的响应必须设置为最终响应我的问题是如何在 javax ws rs core Response 中设置响应主体 Path analyt
Angular rxjs Observable.interval() 无法在 Chrome 的后台选项卡上正确触发

我正在编写带有通过 RxJs observables 实现的间隔计时器的 Angular2 应用程序并且刚刚注意到当选项卡处于后台时 Chrome 浏览器中 Observable interval 和 Observable timer 的
减少多维数组的维度

我无法迭代这一系列产品信息并获得每个项目的回显谷歌电子商务跟踪代码的所需结果如何将维度减少一简而言之怎么转这个 Array array gt Array 0 gt Array product id gt 7 prod count g
多GPU基本使用

例如我如何使用两个设备来改进以下代码的性能向量之和是否可以同时使用更多设备如果是我如何管理向量在不同设备的全局内存上的分配 include

多GPU基本使用

多GPU基本使用 的相关文章

随机推荐

热门标签

多GPU基本使用的相关文章