cudaMalloc会同步主机和设备吗？

2024-01-23

我知道 cudaMemcpy 将同步主机和设备，但是 cudaMalloc 或 cudaFree 怎么样？

基本上我想在多个 GPU 设备上异步内存分配/复制和内核执行，我的代码的简化版本如下所示：

void wrapper_kernel(const int &ngpu, const float * const &data)
{
 cudaSetDevice(ngpu);
 cudaMalloc(...);
 cudaMemcpyAsync(...);
 kernels<<<...>>>(...);
 cudaMemcpyAsync(...);
 some host codes;
}

int main()
{
 const int NGPU=3;
 static float *data[NGPU];
 for (int i=0; i<NGPU; i++) wrapper_kernel(i,data[i]);
 cudaDeviceSynchronize();
 some host codes;
}

然而，GPU 是按顺序运行的，并且找不到原因。

尝试使用cudaStream_t对于每个 GPU。下面是来自 CUDA 示例的 simpleMultiGPU.cu。

 //Solver config                                                          
TGPUplan      plan[MAX_GPU_COUNT];
//GPU reduction results                                                                                   
float     h_SumGPU[MAX_GPU_COUNT];

....memory init....

//Create streams for issuing GPU command asynchronously and allocate memory (GPU and System page-locked)                             for (i = 0; i < GPU_N; i++)
{
    checkCudaErrors(cudaSetDevice(i));
    checkCudaErrors(cudaStreamCreate(&plan[i].stream));
    //Allocate memory                                                                                                                    checkCudaErrors(cudaMalloc((void **)&plan[i].d_Data, plan[i].dataN * sizeof(float)));
    checkCudaErrors(cudaMalloc((void **)&plan[i].d_Sum, ACCUM_N * sizeof(float)));
    checkCudaErrors(cudaMallocHost((void **)&plan[i].h_Sum_from_device, ACCUM_N * sizeof(float)));
    checkCudaErrors(cudaMallocHost((void **)&plan[i].h_Data, plan[i].dataN * sizeof(float)));

    for (j = 0; j < plan[i].dataN; j++)
    {
        plan[i].h_Data[j] = (float)rand() / (float)RAND_MAX;
    }
}

....kernel, memory copyback....

and here's http://developer.download.nvidia.com/CUDA/training/cuda_webinars_multi_gpu.pdf一些使用多 GPU 的指南。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

cudaMalloc会同步主机和设备吗？的相关文章

无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
大型跨平台软件项目的技巧/资源

我将开始一个大型软件项目涉及跨平台 GUI 和大量的数字运算我计划用 C 和 CUDA 编写大部分应用程序后端并用 Qt4 编写 GUI 我计划使用 Make 作为我的构建系统这将是一个只有两名开发人员的项目一旦我相对深入地了解它
cuda 文件组织的有效方式：.cpp .h .cu .cuh .curnel 文件

cuda最容易理解最高效的代码组织是什么经过一番调查后我发现 cuda 函数声明应位于 cuh 文件中实现位于 cu 文件中内核函数实现位于 curnel 文件中其他 C 内容通常在 cpp 和 h 文件中最近我发布了一个问题
Bank 在字长方面存在冲突

我读过一些关于共享内存的好文章但我对银行冲突有初步疑问据说如果线程 1 和线程 2 从存储体 0 访问字 0 则不存在存储体冲突但如果他们访问不同的单词就会出现银行冲突但我的问题是不同的单词如何可以驻留在一个银行中由于bank
CUDA 8 编译错误 -std=gnu++11

我正在尝试转换一些代码以使用 CUDA 并且我认为我遇到了兼容性问题我们使用CMake 这些是我使用的 gcc 和 CUDA 版本 gcc version gcc Ubuntu 5 4 0 6ubuntu1 16 04 5 5 4 0 2
CUDA 添加矩阵的行

我试图将 4800x9600 矩阵的行加在一起得到一个 1x9600 的矩阵我所做的是将 4800x9600 分成 9 600 个矩阵每个矩阵长度为 4800 然后我对 4800 个元素进行缩减问题是这真的很慢有人有什么建议吗
NVCC 警告级别

我希望 NVCC 将以下警告视为错误 warning calling a host function foo from a host device function bar NVCC 文档 NVIDIA CUDA 编译器驱动程序 NVCC
CUDA Thrust 库中counting_iterators 的用途和用法

我很难理解counting iterator在 CUDA 的推力库中它的目的是什么以及如何使用它在其他编程语言例如 C 中也可用吗计数迭代器只是一个迭代器它从每次迭代器递增时前进的序列中返回下一个值最简单的例子是这样的 incl
使用 Cuda 并行读取多个文本文件

我想使用 CUDA 在多个文件中并行搜索给定字符串我计划使用 pfac 库来搜索给定的字符串问题是如何并行访问多个文件示例我们有一个包含 1000 个文件的文件夹需要搜索这里的问题是我应该如何访问给定文件夹中的多个文件应该动态
使用推力来处理 CUDA 类中的向量？

我对 C 类的推力的适用性有疑问我正在尝试实现一个类对象该对象接收顶点的 x y z 坐标作为 ver1 ver2 和 ver3 然后分配给一个三角形并计算面积和法向量然而我不太明白如何创建一类推力向量这是我从文件中读取的顶点坐
如何从C++头文件调用CUDA文件？

我知道从 c 文件调用 cu 文件的方法但现在我想从 C 头文件调用 cu 文件有可能做到吗如果是这样我应该如何设置我的项目请帮忙这是一个有效的例子 file1 h int hello file2 h include
CUDA cutil.h 在哪里？

有谁知道包含 cutil h 的 SDK 工具包在哪里我尝试了 CUDA toolkits3 2 和 toolkits5 0 我知道这个版本已经不支持 cutil h 我还注意到一些提到的如何在 Linux 中包含 cutil h htt
如何使用 Visual Studio 2008 调试 CUDA 内核代码？

嘿我正在使用带有 CUDA 3 2 的 Visual Studio 2008 我正在尝试调试具有此签名的函数 MatrixMultiplication Kernel lt lt
为什么在 CUDA 中启动 32 倍数的线程？

我参加了 CUDA 并行编程课程并且看到了许多 CUDA 线程配置的示例其中通常将所需的线程数四舍五入到最接近的 32 倍数我知道线程被分组为 warp 并且如果您启动 1000 个线程 GPU 无论如何都会将其四舍五入到 1024

随机推荐

无法自动装配。存在多个“DataSource”类型的 bean

我正在尝试通过以下方式自动连接数据库 Autowired private DataSource dataSource 我的数据源中有一个application yml spring profiles active dev spring pr
ASP.NET -> WCF 服务需要 Windows 身份验证

我的任务是构建一个基本的管理应用程序该应用程序需要一个 ASP NET 前端该前端使用 WCF 与许多后端服务进行通信一项要求是应用程序的用户使用 Windows 身份验证进行身份验证如果应用程序逻辑包含在 ASP NET 应用程序
如何改变CKEditor的编辑器大小？

由于它是一个 textarea 我在 html 属性中尝试了 cols 50 但它不起作用另外我从上一个问题中找到了答案他说我可以通过添加来做到这一点 CKEDITOR instances myinstance resize 1000
“JqueryStatic”类型的值不可调用

我正在开发一个打字稿项目当我调用时编辑器显示 JqueryStatic 类型的值不可调用我安装了 jquery definetelyTyped 包并且还引用了 jquery d ts 文件 Resharper 9 0 不支持 Ty
如何使用zxing条码扫描库解码EAN128条码

我正在尝试使用 zxing 条码扫描库读取 EAN128 条码我在 Xamarin 共享项目中使用它如下所示 private async void OnButtonForBarcodeReadPressed object sender
为什么 pfpd.add_font() 中没有加载字体？

我正在尝试将 pfpdf 库中的字体添加到生成的 pdf 文件中但将 DejaVuSans ttf 移动到 data 目录后无法再找到字体这是一个简化的代码 from fpdf import FPDF import os pdf FP
如何计算 DFT 中每个 bin 的能量？

我正在测试我对离散傅里叶变换的了解我现在测试的是如何使用DFT计算波的中心频率为此我使用以下代码创建正弦数据 create a 100 Hz wave with a sampling rate of 512 samples per s
将 Q_GADGET 中的 Q_INVOKABLE 公开给 QML

我最初的目标是在 QML 中提供枚举的名称该名称可以通过 QMetaEnum 和 QVariant 的 toString 提供这两者在 QML 中都不可用 Stack Overflow 上的文章展示了如何将 Q INVOKABLE 添加
针对数据类型的张量流警告

我已经在Python 3 7 4 64位中安装了tensorflow和numpy 当我尝试导入它时我收到以下警告 home user local lib python3 7 site packages tensorflow python
处理用户身份验证（通过 Facebook）和应用程序内的安全通信

也许下面的内容听起来有点奇怪我有一些错误的假设所以我希望你能原谅这一点只是简单介绍一下我们想要实现的目标现在我们正在开发一个应用程序需要一个存储用户特定数据例如图像评论等的后端由于我们想要摆脱所有的用户身份验证并且我们也
Android Studio 3.0 RC 2

Error failed linking references Error java util concurrent ExecutionException java util concurrent ExecutionException co
foreach中内联运算和运算前计算的区别

我让它变得简单因为我在谷歌上没有找到任何东西也许是因为我也不知道搜索什么这有什么区别 foreach var x in g GetList code 和这个 IEnumerable list g GetList foreach var
PostgreSQL 聚合函数超出范围

我正在尝试创建一个函数来找到交集tsrange 但我无法让它工作 CREATE AGGREGATE intersection tsrange SFUNC STYPE tsrange 您的尝试有两个修改首先我认为您不能使用运算符作为 SF
C编程-将数字分成数字并将它们保存在列表（数组）中[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想将数字分成数字并将它们保存在 C 中左侧带有零的 5 元素数组中例如如果有一个像 234 这样的数字我想创建一个数组 0 0
如何在浏览器url中隐藏spring mvc web应用程序名称？

我在 eclipse 中有一个 spring mvc 3 x Web 应用程序其中资源项目工件名称是 webapp 所以 http localhost 8080 webapp将使用 tomcat 7 和 eclipse IDE 加载主主页
使用 Keras 的 python 生成器线程安全

我正在使用 Keras 进行一些机器学习并使用此生成器来生成数据和标签 def createBatchGenerator driving log batch size 32 batch images np zeros batch size
是否可以将 MIPS 寄存器名称与 GAS（GNU 汇编器）一起使用？

如果我使用寄存器名称我会得到 Error illegal operands add t0 zero zero 如果我使用寄存器号 8代替 t0 and 0代替 zero 有用我使用的是 binutils 2 17 GNU 汇编器不直接支
无法在 Youtube API v3 中下载隐藏式字幕

我使用 Youtube API v3 中给出的 PHP 示例代码 https developers google com youtube v3 docs captions download https developers google c
如何使用 document.getElementByName 和 getElementByTag？

document getElementById frmMain elements 我可以这样用吗 document getElementByName frmMain elements or document getElementBytag
cudaMalloc会同步主机和设备吗？

我知道 cudaMemcpy 将同步主机和设备但是 cudaMalloc 或 cudaFree 怎么样基本上我想在多个 GPU 设备上异步内存分配复制和内核执行我的代码的简化版本如下所示 void wrapper kernel co

cudaMalloc会同步主机和设备吗？

cudaMalloc会同步主机和设备吗？ 的相关文章

随机推荐

热门标签

cudaMalloc会同步主机和设备吗？的相关文章