全局内核中的 CUDA 变量

2023-11-30

我的问题是：

1）我的理解是否正确，当您在全局内核中声明一个变量时，每个线程都会有该变量的不同副本。这允许您为每个线程在该变量中存储一些中间结果。示例：向量 c=a+b：

__global__ void addKernel(int *c, const int *a, const int *b)
{
   int i = threadIdx.x;
   int p;
   p = a[i] + b[i];
   c[i] = p;
}

这里我们声明中间变量p。但实际上这个变量有 N 个副本，每个副本对应一个线程。

2）如果我声明数组，则会创建该数组的 N 个副本，每个副本对应每个线程，这是真的吗？只要全局内核中的所有内容都发生在 GPU 内存上，对于声明的任何变量，您都需要 N 倍的 GPU 内存，其中 N 是线程数。

3）在我当前的程序中，我有35 * 48 = 1680个块，每个块包括32 * 32 = 1024个线程。这是否意味着，在全局内核中声明的任何变量都会比在内核外声明的变量花费 N=1024*1680=1 720 320 倍？

4）要使用共享内存，每个变量需要比平常多M倍的内存。这里M是数量blocks。真的吗？

1)是的。每个线程都有一个在函数中声明的非共享变量的私有副本。这些通常进入 GPUregister内存，虽然可以溢出到local memory.

2), 3) and 4)虽然您确实需要该私有内存的许多副本，但这并不意味着您的 GPU 必须同时为每个线程提供足够的私有内存。这是因为在硬件中，并非所有线程都需要同时执行。例如，如果您启动 N 个线程，则可能有一半在给定时间处于活动状态，而另一半在有可用资源运行它们之前不会启动。

线程使用的资源越多，硬件可以同时运行的资源就越少，但这并不限制您可以要求运行的线程数量，因为一旦释放了一些资源，GPU 没有资源的任何线程都将运行。

这并不意味着您应该疯狂地声明大量本地资源。 GPU 速度很快，因为它能够并行运行线程。要并行运行这些线程，需要在任何给定时间容纳大量线程。从一般意义上讲，每个线程使用的资源越多，给定时刻处于活动状态的线程就越少，硬件可以利用的并行性就越少。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

全局内核中的 CUDA 变量的相关文章

使用遗留代码（使用reinterpret_cast）真的是一种很好的技术吗？

下面的代码来自一篇关于C 面试问题的帖子here https www toptal com c plus plus interview questions 我从来不知道这种技术尽管它声称是一种很好的技术我的问题是什么情况下需要使用它
全局变量不好

好吧读完这篇文章和一些示例后我仍然不清楚全局变量的含义那么你的类中的私有变量是全局的吗 http www c2 com cgi wiki GlobalVariablesAreBad http www c2 com cgi wiki G
与 CUDA 占用计算器不同的实验结果

我研究CUDA架构我在如下环境中编写了一些并行处理代码 GPU GTX580 CC为2 0 每块线程 16x16 256 每线程寄存器 16 每块共享内存 48 字节我通过编译选项知道寄存器的数量和共享内存的大小 ptxas optio
C++ STL 映射，std::pair 作为键

这就是我通过地图定义的方式 std map
地图类容器的专用功能

我想要专门为矢量和地图之类的容器设计一个函数模板对于向量我可以像下面那样做但我不知道如何才能有一个专门版本的函数该函数仅用于像地图这样的容器 include
二叉树和快速排序？

我有一个家庭作业内容如下别生气担心我是not请你帮我做作业编写一个程序通过使用二分查找的快速排序方法对一组数字进行排序树推荐的实现是使用递归算法这是什么意思到目前为止这是我的解释正如我在下面解释的那样我认为两者都有
如何将 dll 中包含的组件嵌入到 exe 中，以便它可以从内存运行？

我正在尝试制作一个必须从内存运行的程序通过Assembly Load bin 如上所述here http www codeproject com Articles 13897 Load an EXE File and Run It fro
C++：避免在重载中将字符串自动转换为布尔值

我想创建一组方法这些方法将根据其类型输出具有特殊格式的值当我这样做时到目前为止看起来还不错 static void printValue std ostringstream out int value out lt lt value
如何为二进制格式化程序创建 SerializationBinder，以处理类型从一个程序集和命名空间到另一个程序集和命名空间的移动

上下文如下我想通过将代码移动到不同的项目来重构代码其中一些代码包含可序列化的 DTO 用于跨多个端点发送和接收数据如果我移动代码序列化就会中断因此它不是向后兼容我的应用程序的旧版本这个问题的一个解决方案是 Serializa
来自同一基模板类的 C++ 重写函数，具有多重继承不明确的函数调用

我需要打电话init int iNumber 从基类派生的函数基类 h pragma once include stdafx h template
如何在C++中列出Python模块的所有函数名称？

我有一个 C 程序我想导入一个 Python 模块并列出该模块中的所有函数名称我该怎么做我使用以下代码从模块中获取字典 PyDictObject pDict PyDictObject PyModule GetDict pModule
批量插入，asp.net

我需要获取与会员相对应的 ID 号列表在任何给定时间处理的数量可能在 10 到 10 000 之间我可以毫无问题地收集数据解析数据并将其加载到 DataTable 或任何内容 C 中但我想在数据库中执行一些操作将所有这些数据插入表
括号内声明的对象的范围

如果我声明一个这样的对象 void main myclass objectA anotherclass true true 0 即我通过直接调用后者的构造函数来创建一个 objectA 和另一个对象 anotherclass anothe
使用 StartServiceCtrlDispatcher 与 StartService 从 C 语言启动 Windows 服务有什么区别？

我尝试使用 StartServiceCtrlDispatcher 中所述https msdn microsoft com en us library windows desktop bb540475 v vs 85 aspx https m
如何检查日期时间是否发生在今天？

有没有比下面的代码更好的 net 方法来检查今天是否发生了 DateTime if newsStory WhenAdded Day DateTime Now Day newsStory WhenAdded Month DateTime
对 Action 方法的两个并行 ajax 请求排队，为什么？

我正在使用 ASP NET MVC 开发一个视频网站我希望在我的应用程序中拥有的一项功能是转码视频但由于转码过程可能非常耗时我想向客户端用户展示该过程的进度因此我的架构是使用一个控制器操作来处理整个转码过程并将其进度写入存储在服
将“C# 友好类型”名称转换为实际类型：“int” => typeof(int)

我想得到一个System Type给定一个string指定原始类型C 友好名称基本上与 C 编译器读取 C 源代码时的方式相同我觉得描述我所追求的最好方式是单元测试的形式我希望存在一种通用技术可以使以下所有断言通过而不是尝试对
在for循环中声明和初始化变量

可以简单写一下吗 for int i 0 代替 int i for i 0 在 C 或 C 中并且会变量i只能在循环内部访问它在 C 中有效它在 C 的原始版本中是不合法的但在 C99 中被采用为 C 的一部分当时一些 C 功能被
C# 使用 .Equals() 比较两个 double

我使用 ReShaper 当我用比较两个双精度值时它建议我应该使用 Math 具有公差的 ABS 方法看 https www jetbrains com help resharper 2016 2 CompareOfFloatsByE
在派生类中访问基类变量

class Program static void Main string args baseClass obj new baseClass obj intF 5 obj intS 4 child obj1 new child Consol

随机推荐

wpf - 验证 - 如何显示工具提示并禁用“运行”按钮

你好我需要验证应用程序中的一些文本框我决定使用验证规则数据错误验证规则这就是为什么在我的类中我实现了 IDataErrorInfo 接口并编写了适当的函数在我的 xaml 代码中我向文本框添加了绑定和验证规则
如何让 docker-compose 始终从新镜像重新创建容器？

我的 Docker 镜像构建在 Jenkins CI 服务器上并推送到我们的私有 Docker 注册表我的目标是使用 docker compose 配置环境该环境始终启动图像的原始构建状态我目前在不同的机器上使用 docker co
从文件夹中的所有工作簿中删除 VBA 代码

我正在尝试构建代码来远程循环包含 xls 文件的文件夹并删除其中包含的宏到目前为止我已经使各个组件正常工作但在激活各种工作簿然后以编程方式确保每个文件中引用 Microsoft Visual Basic for Applicatio
使用 read() 方法从 Amazon S3 读取大尺寸 JSON 文件时出现内存错误

我正在尝试使用 Python 将大量 JSON 文件从 Amazon S3 导入到 AWS RDS PostgreSQL 中但是这些错误发生了回溯最近一次调用最后一次文件 my code py 第 67 行位于 file con
Eclipse SVN 同步工作区错误 - 更新 SVN 工作区的同步视图 - java/nio/file/Paths

我今天更新了 Eclipse SVN 插件之后我无法将我的工作区与 SVN 存储库同步我使用的是java 1 6 我也尝试过使用java 1 7 我仍然在 Eclipse 中遇到以下错误期间发生内部错误更新 SVN 工作区的同步视图
如何在 OS X 上将进程窗口置于前台？

我有一个简单的 shell python 脚本可以打开其他窗口我想在脚本完成后将运行脚本的终端带到前台我知道我的父窗口的进程ID 如何将给定窗口置于前台我想我必须一路从 PID 中找出窗口名称不确定是否有proper方式但这对我
嵌套 HTML 列表中的不同字体大小

我创建了一个嵌套的ol li为我的网站列出 CSS 中的类但由于每个li显示在不同的font size 虽然我已经定义了font size to it number list ol font normal 1 2em Arial Helv
如何设置等高线标签的背景颜色

我正在使用命令 axins clabel c levls fontsize 4 fmt 4 2f colors white 为了为我的轮廓生成标签我希望它们是白色的颜色白色有效和红色背景我不知道是否可以为它们指定背景颜色我迟到
eclipse c++ 没有什么可构建错误

所以我尝试构建一个 C 项目但随后出现此错误 Build of configuration Release for project p Internal Builder is used for build Nothing to build
类型实例化太深并且可能是无限的

这里如何处理这个错误呢我可以限制递归深度或者只是告诉 TS 可以吗 export type StateUnion
检查当前用户是否是活动目录组的成员

我需要检查当前用户是否是活动目录组的成员我首先获取当前用户如下所示现在我想知道如何检查此 CurrentUser 是否在活动目录组 CustomGroup 中 string CurrentUser WindowsIdentity Ge
Flutter/Dart语言的客户端证书认证

我对证书世界相当陌生我决定创建一个必须使用证书来访问 API 的应用程序我创建了自签名 CA 证书 SSL 证书和客户端证书我将它们导入 Windows Server 并正确配置 IIS 我可以使用 clientcertificate
当字符串为十六进制且前缀为“0x”时，将字符串转换为整数时不一致

使用 PHP 5 3 5 不确定这在其他版本上如何工作我对使用包含数字的字符串感到困惑例如 0x4B0 or 1 2e3 PHP 处理此类字符串的方式对我来说似乎不一致只有我一个人吗或者这是一个错误或者未记录的功能或者我只是错过
Android 嵌套列表视图

是否可以建议使用嵌套列表视图即包含在另一个列表视图的一行中的列表视图一个例子是我的主列表显示博客文章然后在每一行中您都会有另一个列表视图来显示每个帖子的评论这将是可折叠的我今天遇到了同样的问题所以这就是我解决它的方法我有一
用于聚合/串联的 SQL 查询

我有一个这样的表 ID Name 1 john 1 molly 2 greg 2 sean 1 holly 2 mill SQL 查询应该是什么来聚合结果如下所示 ID Name 1 john molly holly 2 greg sea
SQL Server 静默截断存储过程中的 varchar

根据本次论坛讨论 SQL Server 我使用的是 2005 但我收集这也适用于 2000 和 2008 默默地截断任何varchar您将 varchar 的长度指定为存储过程参数即使直接使用INSERT实际上会导致错误例如如果我创建
对具有输入和输出历史依赖性的操作进行矢量化的最佳方法？

我的目标是在 numpy 中向量化以下操作 y n c1 x n c2 x n 1 c3 y n 1 If n是时间了我基本上需要依赖于之前的输入以及之前的输出的输出我被赋予的价值观x 1 and y 1 另外这是我的实际问题的通用版
如何在ListView中单击复选框时使按钮栏从底部滑入？

我有一个带有自定义列表适配器的列表视图它使用复选框和一些文本视图填充列表视图当用户选择一个复选框时我需要一个按钮栏从屏幕底部滑入视图并坐在那里我已经制作了按钮栏并且可以通过将其可见性更改为消失和可见来使其在屏幕上出现和消失
如何用空格/空格替换连字符？ php

我对 PHP 不太了解但这些天我正在修改现有的脚本我想知道如何用空白或空白替换例如一个变量包含爱你我想用爱你这样的空格替换它们之间的连字符我会感谢您的反馈 str str replace Love you now str是
全局内核中的 CUDA 变量

我的问题是 1 我的理解是否正确当您在全局内核中声明一个变量时每个线程都会有该变量的不同副本这允许您为每个线程在该变量中存储一些中间结果示例向量 c a b global void addKernel int c const in

全局内核中的 CUDA 变量

全局内核中的 CUDA 变量 的相关文章

随机推荐

热门标签

全局内核中的 CUDA 变量的相关文章