CUDA编程问题记录：能否用CPU多线程调用CUDA核函数

2023-11-16

问题：能否在主机端创建CPU多线程，在每个线程里调用设备端核函数的caller函数，进而实现进一步的并行运行。
例如有5张图片，对于每张图片都有N个GPU线程对其进行像素操作，但是此时是逐一对这5张图片处理的，想在主机端创建5个CPU线程，每个线程里进行传输到设备端–>设备端GPU多线程处理–>结果返回主机端这一系列操作，实现五张图片同时处理

此方法能否实现：不能

只存在一个流时(默认的流)，所有调用核函数的指令将被存在一个队列中，依次执行。因此直接使用CPU多线程调用kernel函数不能达到并行的目的，此时即便能运行也与串行运行的效果相同，只有通过使用多流才能进一步加速。

参考资料：
https://stackoverflow.com/questions/13061619/what-happen-if-a-cuda-kernel-is-called-from-multiple-pthreads-simultaneously

Question:
I have a CUDA kernel that do my hard work, but I also have some hard work that need to be done in the CPU (calculations with two positions of the same array) that I could not write in CUDA (because CUDA threads are not synchronous, I need to perform a hard work on a position X of an array and after do z[x] = y[x] - y[x - 1], where y is the array resultant of a CUDA kernel where each thread works on one position of this array and z is another array storing the result). So I’m doing this in the CPU.

I have several CPU threads to do the CPU side work, but each one is calling a CUDA kernel passing some data. My question is: what happens on the GPU side when multiple CPU threads are making GPU calls? Would be better if I do the CUDA kernel call once and then create multiple CPU threads to do the CPU side work?

回答：
Kernel calls are queued and executed one by one in single stream.

However you can specify stream during kernel execution - then CUDA operations in different streams may run concurrently and operations from different streams may be interleaved. Default stream is 0.

See:http://developer.download.nvidia.com/CUDA/training/StreamsAndConcurrencyWebinar.pdf

Things are similar when different processes use the same card.
Also remember that kernels are executed asynchronously from CPU stuff.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA编程问题记录：能否用CPU多线程调用CUDA核函数的相关文章

CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
获取总体 CPU 百分比使用率的可能性有哪些

我有以下问题在UWP中我们如何获取总体CPU使用率 RAM使用率可用RAM 正在运行的进程等 UWP 中的任务管理器需要它您好经过一番查看后您似乎无法获得设备 CPU RAM 和可用 RAM 或正在运行的进程您可以获得 CPU
每个 CPU 核心处于 C0 电源状态的时间

任何帮助弄清楚如何做到这一点都会很棒在过去一秒内每个 CPU 核心处于 C0 电源状态的时间有多少这是针对 Mac 应用程序的因此需要 Objective C cocoa 和 c OS X 没有任何公开 CPU c 状态的 API
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I
CPU 周期与总 CPU 时间

在 Windows 上 GetProcessTimes 和 QueryProcessCycleTime 可用于获取应用程序所有线程的总计我期望显然是天真地找到总周期数和总处理器时间用户内核之间的比例关系当转换为相同的单位秒
最小化 MC 模拟期间存储的 cuRAND 状态数量

我目前正在 CUDA 中编写蒙特卡罗模拟因此我需要生成lots使用随机数cuRAND图书馆每个线程处理一个巨大的元素floatarray 示例中省略并在每次内核调用时生成 1 或 2 个随机数通常的方法参见下面的示例似乎是为每
通过 cuFFT 进行逆 FFT 缩放

每当我使用 cuFFT 绘制程序获得的值并将结果与 Matlab 的结果进行比较时我都会得到相同形状的图形并且最大值和最小值位于相同的点然而 cuFFT 得到的值比 Matlab 得到的值大得多 Matlab代码是 fs 1000 s
PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
CUDA Thrust 的多 GPU 使用

我想使用我的两张显卡通过 CUDA Thrust 进行计算我有两张显卡在单卡上运行对于两张卡都适用即使我在 std vector 中存储两个 device vector 也是如此如果我同时使用两张卡循环中的第一个周期将起作用并且不
为什么 cuCtxCreate 返回旧上下文？

我已经安装了 CUDA SDK 4 2 64 CUDA工具包4 2 64 CUDA 驱动程序 4 2 64 我检查了 windows 中的每个 nvcuda dll 所有这些都是 4 2 版本但是当我使用驱动程序 api 创建上下文并使用
用于计算邻居列表的最佳 GPU 算法

给定 3D 中数千个点的集合我需要获取落在某个截止值以欧几里得距离而言内的每个粒子的邻居列表并且如果可能的话从最近到最远排序在 CUDA 或 OpenCL 语言中哪种 GPU 算法最快我所知道的最快的 GPU MD 代码之一
CUDA 添加矩阵的行

我试图将 4800x9600 矩阵的行加在一起得到一个 1x9600 的矩阵我所做的是将 4800x9600 分成 9 600 个矩阵每个矩阵长度为 4800 然后我对 4800 个元素进行缩减问题是这真的很慢有人有什么建议吗
使用 GPU 进行 Matlab 卷积

我用gpuArray尝试了matlab的卷积函数conv2 convn 例如 convn gpuArray rand 100 100 10 single gpuArray rand 5 single 并将其与 cpu 版本 convn ra
Cuda：最小二乘求解，速度较差

最近我使用Cuda编写了一个名为正交匹配追踪的算法在我丑陋的 Cuda 代码中整个迭代需要 60 秒而 Eigen lib 只需 3 秒在我的代码中矩阵 A 是 640 1024 y 是 640 1 在每一步中我从 A 中
为什么 cudaGLSetGLDevice 失败，即使它是在 main 函数的第一行中调用的

我想使用 OpenGL 和 CUDA 之间的互操作性我知道正如一些教程所说第一步是选择设备但是当我在主函数的第一行中调用 cudaGLSetGLDevice 0 时程序退出并显示信息 cudaSafeCall 运行时 API 错
（Nand2tetris CPU）每个时钟周期发生（什么/多少）？

在此基础上Nand2俄罗斯方块 https www coursera org learn build a computer lecture gjhcz unit 5 5 project 5 overviewCPU 如下图我想了解一下每个
使用 Cuda 并行读取多个文本文件

我想使用 CUDA 在多个文件中并行搜索给定字符串我计划使用 pfac 库来搜索给定的字符串问题是如何并行访问多个文件示例我们有一个包含 1000 个文件的文件夹需要搜索这里的问题是我应该如何访问给定文件夹中的多个文件应该动态
直接在主机上访问设备向量元素的最快方法

我请您参考以下页面http code google com p thrust wiki QuickStartGuide Vectors http code google com p thrust wiki QuickStartGuide V
CUDA-Kernel 应该根据块大小动态崩溃

我想做稀疏矩阵密集向量乘法假设用于压缩矩阵中条目的唯一存储格式是压缩行存储 CRS 我的内核如下所示 global void krnlSpMVmul1 float data mat int num nonzeroes unsigned
如何从C++头文件调用CUDA文件？

我知道从 c 文件调用 cu 文件的方法但现在我想从 C 头文件调用 cu 文件有可能做到吗如果是这样我应该如何设置我的项目请帮忙这是一个有效的例子 file1 h int hello file2 h include

随机推荐

100天精通Python（数据分析篇）——第73天：Pandas文本数据处理方法之查找、替换、拼接、正则、虚拟变量

文章目录每篇前言一 Python字符串内置方法 1 文本查找 2 文本替换 3 文本拼接 4 正则提取二 Pandas实现文本查找 1 str startswith 字符串 2 str endswith 字符串 3 str index
java.lang.IllegalStateException: Failed to load property source

java lang IllegalStateException Failed to load property source from file H codes20210804 nacos demo provider target clas
Mybatis-plus中BaseMapper具体方法说明

一 BaseMapper方法详解 1 Insert 插入一条记录 int insert T entity 2 Delete 根据 entity 条件删除记录 int delete Param Constants WRAPPER Wrapp
NVIDIA-SMI系列命令总结

1 NVIDIA SMI介绍 nvidia smi简称NVSMI 提供监控GPU使用情况和更改GPU状态的功能是一个跨平台工具它支持所有标准的NVIDIA驱动程序支持的Linux发行版以及从WindowsServer 2008 R2开始
2024年java面试--mysql(4)

系列文章目录 2024年java面试一 spring篇 2024年java面试二 spring篇 2024年java面试三 spring篇 2024年java面试四 spring篇 2024年java面试集合篇 2024年java
Shopify商品置顶功能

Shopify商品置顶功能商品置顶功能描述通过在商品列表页为链接添加参数的方法实现置顶某个或多个商品的功能需按以下步骤将目标代码添加到目标位置目标代码 assign handles assign handleSize 0 if cu
RabbitMQ启动没有端口号解决问题

docker启动容器时报 Failed to create thread Operation not permitted 1 原因 docker内的用户权限受限解决办法1 启动docker时加上参数 privileged true pri
【空气检测仪专题】10.增加电池显示

10 增加电池显示增加了电池电量显示和充电电池动画增加PM2 5传感器并显示实时数据效果如下图
Allegro 镜像丝印处理

本文问题描述 Allegro 设计中丝印镜像了在器件在正面丝印也在正面但是不管怎么 R 都转不过来发现其实丝印已经被镜像至反面可能也就需要简单左右镜像下就可以了如下图艹作在菜单栏点击view 选择Flip Design 点
PB（PowerBuilder）如何同消息队列（RabbitMQ）通讯

参考文档 1 RabbitMQ入门用途说明和深入理解 RabbitMQ入门用途说明和深入理解走错路的程序员的博客 CSDN博客 2 RabbitMQ进阶管理配置 RabbitMQ进阶管理配置东孤熊猫的博客 CSDN博客 ap
Allegro16.6详细教程（四）

2 PIN的定義如果用第一種方式產生Netlist的話就要對於一些Power pin加以定義 1 滑鼠點選想定義的零件 2 點選選單中Edit gt Part 3 用滑鼠點選想定義的Pin腳 4 點選功能表中Edit gt Proper
RCE 远程命令代码执行漏洞

什么是REC Remote Command Code Execute 远程命令或者代码执行通过构造特殊的字符串将数据提交到WEB应用程序并利用该方式外部程序或命令进行攻击类似SQL注入 Web应用程序使用了一些可以执行系统命令或者
DNS污染与DNS劫持

先认识一下什么是DNS DNS 是域名系统 Domain Name System 的缩写在Internet上域名与IP地址之间是一对一或者多对一的域名虽然便于人们记忆但机器之间只能互相认识IP地址它们之间的转换工作称为域名解析
Linux 中的 chkconfig 命令及示例

先决条件 Linux 中的运行级别 chkconfig命令用于列出所有可用的服务并查看或更新其运行级别设置简而言之它用于列出服务或任何特定服务的当前启动信息更新服务的运行级别设置以及在管理中添加或删除服务概要 chkconfig l
小程序限制PC端打开只可以在手机端打开的解决方案

电脑版微信是支持运行小程序的但是某一些小程序是限制在PC上打开的那么是怎么判断打开的设备是否是Pc端呢官方文档给出的方案是 wx getSystemInfo success res console log res model cons
【Fiddler】利用FiddlerScript实现自制函数功能及一些基本实用函数。

目录前言一 FiddlerScript是什么二代码部分 1 自定义功能函数名 2 实现Session的遍历 3 实现重发请求并选中新请求 4 常用FS函数 5 Fiddler中的延时器总结前言关于FS Fiddler是我们熟悉
怎样打造一个分布式数据库——rocksDB, raft, mvcc，本质上是为了解决跨数据中心的复制

怎样打造一个分布式数据库 rocksDB raft mvcc 本质上是为了解决跨数据中心的复制摘自 http www infoq com cn articles how to build a distributed database ut
Windows下jsp运行环境的配置方案

Windows下jsp运行环境的配置方案 lt 一 gt 配置前的准备工作软件名称 j2sdk 安装包名称 j2sdk 1 4 2 windows i586 exe 下载地址 http java sun com 软件名称 Jakarta
MySQL -调整列的约束

调整列的完整性约束主键PK 外键FK和唯一键UK 1 新增 1 新建class表列不设置约束 mysql gt create table class id int name varchar 64 teacher varchar 64
CUDA编程问题记录：能否用CPU多线程调用CUDA核函数

问题能否在主机端创建CPU多线程在每个线程里调用设备端核函数的caller函数进而实现进一步的并行运行例如有5张图片对于每张图片都有N个GPU线程对其进行像素操作但是此时是逐一对这5张图片处理的想在主机端创建5个CPU线程每

CUDA编程问题记录：能否用CPU多线程调用CUDA核函数

CUDA编程问题记录：能否用CPU多线程调用CUDA核函数 的相关文章

随机推荐

热门标签

CUDA编程问题记录：能否用CPU多线程调用CUDA核函数的相关文章