#pragma unroll 到底有什么作用？对线程数有影响吗？

2024-01-23

我是 CUDA 新手，我无法理解循环展开。我写了一段代码来理解该技术

__global__ void kernel(float *b, int size)
{
    int tid = blockDim.x * blockIdx.x + threadIdx.x;
 #pragma unroll
    for(int i=0;i<size;i++)
        b[i]=i;
}

上面是我的核函数。在main我像下面这样称呼它

int main()
{
    float * a; //host array
    float * b; //device array
    int size=100;

    a=(float*)malloc(size*sizeof(float));
    cudaMalloc((float**)&b,size);
    cudaMemcpy(b, a, size, cudaMemcpyHostToDevice);

    kernel<<<1,size>>>(b,size); //size=100

    cudaMemcpy(a, b, size, cudaMemcpyDeviceToHost);

    for(int i=0;i<size;i++)
        cout<<a[i]<<"\t";

    _getch();

    return 0;
}

这是否意味着我有size*size=10000个线程正在运行来执行程序？循环展开时是否创建了 100 个？

不。这意味着您使用一个块调用了 CUDA 内核，并且该块有 100 个活动线程。您将 size 作为第二个函数参数传递给内核。在您的内核中，这 100 个线程中的每一个都执行 for 循环 100 次。

#pragma unroll是一种编译器优化，例如可以替换如下代码

for ( int i = 0; i < 5; i++ )
    b[i] = i;

with

b[0] = 0;
b[1] = 1;
b[2] = 2;
b[3] = 3;
b[4] = 4;

通过把#pragma unroll指令就在循环之前。展开版本的好处是处理器的处理负载较少。的情况下for循环版本，处理，除了分配每个i to b[i], 涉及i初始化、评估i<56次，并递增i5次。而在第二种情况下，它只涉及归档b数组内容（也许加上int i=5; if i后面会用到）。循环展开的另一个好处是增强指令级并行性 (ILP)。在展开版本中，处理器可能会将更多操作推入处理管道，而不必担心for每次迭代中的循环条件。

类似的帖子this https://stackoverflow.com/q/5495634/2386951解释 CUDA 无法展开运行时循环。在你的情况下，CUDA编译器没有任何线索size将为 100，因此不会发生编译时循环展开，因此如果强制展开，最终可能会损害性能。

如果您确定size对于所有执行都是 100，您可以像下面这样展开循环：

#pragma unroll
for(int i=0;i<SIZE;i++)  //or simply for(int i=0;i<100;i++)
    b[i]=i;

其中SIZE在编译时已知#define SIZE 100.

我还建议您在代码中进行适当的 CUDA 错误检查（已解释）here https://stackoverflow.com/q/14038589/2386951).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

#pragma unroll 到底有什么作用？对线程数有影响吗？的相关文章

通过 cuFFT 进行逆 FFT 缩放

每当我使用 cuFFT 绘制程序获得的值并将结果与 Matlab 的结果进行比较时我都会得到相同形状的图形并且最大值和最小值位于相同的点然而 cuFFT 得到的值比 Matlab 得到的值大得多 Matlab代码是 fs 1000 s
OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

我的第一个问题是如何获取 Nvidia GPU 上 OpenCL 内核代码的寄存器使用信息因为 nvcc 编译器给出了相同的使用信息nvcc ptxas options vCUDA 内核代码的标志我还从 AMD GPU for Open
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do
在 Borland C++ 上使用 #pragma pack 和 #define

我正在尝试使用 Borland C Builder XE6 打包一些结构将来 bcc 我正在使用一个库它使用以下构造来创建结构 ifdef MSC VER define PACKED BEGIN pragma pack push 1 d
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
大型跨平台软件项目的技巧/资源

我将开始一个大型软件项目涉及跨平台 GUI 和大量的数字运算我计划用 C 和 CUDA 编写大部分应用程序后端并用 Qt4 编写 GUI 我计划使用 Make 作为我的构建系统这将是一个只有两名开发人员的项目一旦我相对深入地了解它
CUDA NSight 未随 Windows 8 上的 CUDA 5.0 安装文件一起安装？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案据我所知 Nvidia 网站上没有 Nsight Eclipse 的下载链接它说它将由 CUDA 5 安装本机安装但并没有随CUDA安装一起安装
CUDA计算能力2.0。全局内存访问模式

CUDA 计算能力 2 0 Fermi 全局内存访问通过 768 KB L2 缓存进行看起来开发人员不再关心全局内存库但全局内存仍然非常慢因此正确的访问模式很重要现在的重点是尽可能多地使用重用 L2 我的问题是如何我将感谢一
设备内存刷新cuda

我正在运行一个 C 程序其中调用了两次 cuda 主机函数我想清理这两个调用之间的设备内存有没有办法可以刷新 GPU 设备内存我使用的是计算能力为2 0的Tesla M2050 如果你只想将内存归零那么cudaMemset可能是最
如何在CUDA应用程序中正确应用线程同步？

一般来说我在应用程序中偶尔会使用线程同步因为我并不经常需要此功能我并不是真正的高级 C C 程序员但我也不是初学者我开始学习 CUDA C 对当今 GPU 与 CPU 的能力相比感到兴奋我意识到 CUDA 编程主要是关于并行线程
CUDA 8 编译错误 -std=gnu++11

我正在尝试转换一些代码以使用 CUDA 并且我认为我遇到了兼容性问题我们使用CMake 这些是我使用的 gcc 和 CUDA 版本 gcc version gcc Ubuntu 5 4 0 6ubuntu1 16 04 5 5 4 0 2
CUDA Thrust 库中counting_iterators 的用途和用法

我很难理解counting iterator在 CUDA 的推力库中它的目的是什么以及如何使用它在其他编程语言例如 C 中也可用吗计数迭代器只是一个迭代器它从每次迭代器递增时前进的序列中返回下一个值最简单的例子是这样的 incl
使用 GPU 进行 Matlab 卷积

我用gpuArray尝试了matlab的卷积函数conv2 convn 例如 convn gpuArray rand 100 100 10 single gpuArray rand 5 single 并将其与 cpu 版本 convn ra
将内核链接到 PTX 函数

我可以使用 PTX 文件中包含的 PTX 函数作为外部设备函数将其链接到另一个应调用该函数的 cu 文件吗这是另一个问题CUDA 将内核链接在一起 https stackoverflow com questions 20636800 c
在 Cuda 中简单添加两个 int，结果始终相同

我开始了学习Cuda的旅程我正在玩一些 hello world 类型的 cuda 代码但它不起作用我不知道为什么代码非常简单取两个整数并将它们添加到 GPU 上并返回结果但无论我将数字更改为什么我都会得到相同的结果如果数学那
支持 Nvidia CUDA 工具包 9.2

Tensorflow gpu 绑定到 Nvidia CUDA Toolkit 的特定版本的原因是什么当前版本似乎专门寻找 9 0 并且不适用于任何更高版本例如我安装了最新的 Toolkit 9 2 并将其添加到路径中但 Tensor
CUDA-Kernel 应该根据块大小动态崩溃

我想做稀疏矩阵密集向量乘法假设用于压缩矩阵中条目的唯一存储格式是压缩行存储 CRS 我的内核如下所示 global void krnlSpMVmul1 float data mat int num nonzeroes unsigned
CUDA cutil.h 在哪里？

有谁知道包含 cutil h 的 SDK 工具包在哪里我尝试了 CUDA toolkits3 2 和 toolkits5 0 我知道这个版本已经不支持 cutil h 我还注意到一些提到的如何在 Linux 中包含 cutil h htt
使用设备函数指针数组

我需要以下设备版本主机代码 double func double x double func1 double x return x 1 double func2 double x return x 2 double func3 doubl
dlib 不使用 CUDA

我使用 pip 安装了 dlib 我的显卡支持 CUDA 但是在运行 dlib 时它不使用 GPU 我在 ubuntu 18 04 上工作 Python 3 6 5 default Apr 1 2018 05 46 30 GCC 7 3

随机推荐

使用翻转过渡更改 leftBarButtonItem？

在我的代码中我以编程方式将带有 UIButton 的 leftBarButtonItem 更改为 UIActivityIndi catorView 我想知道如何在更改时执行翻转过渡有什么想法吗多谢嗯我有一种感觉要做翻转过渡你需
实例化派生类时是否隐式调用抽象类构造函数？

举个例子 abstract class Base function construct echo Base construct br class Child extends Base function construct echo Chil
Android - 谷歌地图路由

我已将 Google 地图功能添加到我的应用程序中现在我问您有什么办法如何添加此 mapView 路由功能我将从 GPS 获取坐标如起点和目的地坐标我想画出到达终点的路线是否可以 Thanks Hmyzak 看到 Max G
我可以混合使用 Argument Captor 和常规匹配器吗？

我需要在 Mockito 中验证具有多个参数的方法但只需要捕获一个参数其他参数我只需要一个简单的匹配器那可能吗例如如果我有 Mock private Map
在python中生成一定范围内的N个正整数，加起来等于总和

我看过其他帖子解决类似的问题我知道如何生成 N 个正整数我还知道如何限制随机生成的整数的总和唯一的问题是满足 N 个值都不超出指定范围的条件 e g generate ints n total low high 应该生成 n 个值数组
Shiny R：textInput 的条件样式

我想改变一些颜色textInput labels 基于从selectInput输出这个想法是根据交互式文本的另一个选择来显示新的数据文本本身我已经设法 updateTextInput 我想为他们的标签做类似的事情因为并非所有text
在 macOS mojave 上安装 angular/cli 时出错 - node-pre-gyp

我格式化了 imac 并删除了 HD 上的所有文件但是当我安装 Angular cli 7 时终端控制台显示此错误日志环境 macOS 莫哈韦沙漠 10 14 2 节点 v10 15 npm 6 4 1 控制台错误 miguels
如何对 HTTPS Node.js 服务器使用自签名证书？

我已经开始为 API 编写一个包装器该 API 要求所有请求都通过 HTTPS 进行我不想在开发和测试实际 API 时向其发出请求而是想在本地运行自己的服务器来模拟响应我对如何生成创建 HTTPS 服务器并向其发送请求所需的证书感到
如何在 Kotlin Native 中导入 Java 包

我正在尝试导入 Java 包以在 Kotlin 本机中使用如下所示 main kt import java util fun main args Array
通过我的 LAN 接口通过 C# 发送电子邮件

我正在尝试模拟一些自组织网络我使用无线卡连接到自组织网络当我从该自组织网络获得一些触发时我希望能够向自己发送一些特定的消息我的笔记本电脑通过 LAN 接口连接到互联网并通过无线卡连接到 ad hoc 网络这是我的代码 priva
iPhone 中的 UILabel 文本问题

我有一个标签其中包含动态字符串数据例如我是 Mohit 我只想将 am 以粗体显示在 iphone 中可能吗如果是请给我建议提前致谢不标准 UILabel 中不能有不同样式的文本你可能需要使用的是NSAttributed
Dagger 2 如何使用子组件将一个类注入多个组件？

请提供示例代码来使用子组件实现此场景在 MyActivity 中我需要满足多个组件的依赖关系正如您在下面的代码中看到的我的活动需要来自compA via module classA and compB via module clas
从 Pandas DataFrame 中提取数组（列名、数据）

这是我在 Stack Overflow 上的第一个问题我有一个像这样的 Pandas 数据框 a b c d one 0 1 2 3 two 4 5 6 7 three 8 9 0 1 four 2 1 1 5 five 1 1 8 9
仅具有内部网络的 VM 上的 GitLab Runner

我正在运行官方的 GitLab 实例jetstackGoogle Cloud 中我的 GKE 集群上的 helm 图表我想向我的 VPC 网络添加一个仅具有内部网络访问权限的 Windows 虚拟机通常您必须根据 GitLab 的 h
Angular2 模板表达式在更改检测时为每个组件调用两次

相当标准的情况有一个父组件
使用流提取到 char 指针时出现分段错误

我有个问题我有以下内容struct typedef struct int vin char make char model int year double fee car 然后我有以下方法询问用户汽车的品牌并将其作为字符指针返回 char
Ubuntu 系统监视器和 valgrind 发现 C++ 应用程序中的内存泄漏

我正在用 C 编写一个应用程序它使用一些外部开源库我尝试查看 Ubuntu 系统监视器以获取有关我的进程如何使用资源的信息并且我注意到驻留内存继续增加到非常大的值超过 100MiB 这个应用程序应该在嵌入式设备中运行所以我必须小心
将 Microsoft 机器人部署到本地计算机上并托管它

我使用 microsoft botframework 和 nodejs 构建了一个机器人现在我想将其部署到本地计算机然后托管它并获取 https url 我知道它应该在 IIS 上运行但我不知道首先从哪里开始谁能帮助我将其部署到本
HTML 页面上的内部链接和外部链接是什么？

我对内部和外部链接有点困惑基本上我正在设计我的 SEO 那么内部链接和外部链接的基本区别是什么当您在自己的目录树限制内链接页面时称为内部链接当用户浏览您的网站时浏览器已经在您的目录中那么您可以指向当前目录中的链接而无需指定完整
#pragma unroll 到底有什么作用？对线程数有影响吗？

我是 CUDA 新手我无法理解循环展开我写了一段代码来理解该技术 global void kernel float b int size int tid blockDim x blockIdx x threadIdx x pragma

#pragma unroll 到底有什么作用？对线程数有影响吗？

#pragma unroll 到底有什么作用？对线程数有影响吗？ 的相关文章

随机推荐

热门标签

#pragma unroll 到底有什么作用？对线程数有影响吗？的相关文章