每个块的 CUDA 线程限制

2023-11-25

为什么我不能使用 max ofMax dimension size of a thread block (x,y,z): (1024, 1024, 64)？如果我使用(1024, 1024)它不起作用，当我使用时(32, 32) or (1, 1024)等等它有效。与共享内存有关吗？

这是我的 deviceQuery 结果：

./deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 3 CUDA Capable device(s)

Device 0: "Tesla M2070"
  CUDA Driver Version / Runtime Version          5.5 / 5.5
  CUDA Capability Major/Minor version number:    2.0
  Total amount of global memory:                 5375 MBytes (5636554752 bytes)
  (14) Multiprocessors, ( 32) CUDA Cores/MP:     448 CUDA Cores
  GPU Clock rate:                                1147 MHz (1.15 GHz)
  Memory Clock rate:                             1566 Mhz
  Memory Bus Width:                              384-bit
  L2 Cache Size:                                 786432 bytes
  Maximum Texture Dimension Size (x,y,z)         1D=(65536), 2D=(65536, 65535), 3D=(2048, 2048, 2048)
  Maximum Layered 1D Texture Size, (num) layers  1D=(16384), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(16384, 16384), 2048 layers
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       49152 bytes
  Total number of registers available per block: 32768
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  1536
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (65535, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 2 copy engine(s)
  Run time limit on kernels:                     No
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Enabled
  Device supports Unified Addressing (UVA):      Yes
  Device PCI Bus ID / PCI location ID:           6 / 0
  Compute Mode:
     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >

Device 1: "Tesla M2070"
  CUDA Driver Version / Runtime Version          5.5 / 5.5
  CUDA Capability Major/Minor version number:    2.0
  Total amount of global memory:                 5375 MBytes (5636554752 bytes)
  (14) Multiprocessors, ( 32) CUDA Cores/MP:     448 CUDA Cores
  GPU Clock rate:                                1147 MHz (1.15 GHz)
  Memory Clock rate:                             1566 Mhz
  Memory Bus Width:                              384-bit
  L2 Cache Size:                                 786432 bytes
  Maximum Texture Dimension Size (x,y,z)         1D=(65536), 2D=(65536, 65535), 3D=(2048, 2048, 2048)
  Maximum Layered 1D Texture Size, (num) layers  1D=(16384), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(16384, 16384), 2048 layers
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       49152 bytes
  Total number of registers available per block: 32768
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  1536
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (65535, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 2 copy engine(s)
  Run time limit on kernels:                     No
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Enabled
  Device supports Unified Addressing (UVA):      Yes
  Device PCI Bus ID / PCI location ID:           20 / 0
  Compute Mode:
     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >

Device 2: "Tesla M2070"
  CUDA Driver Version / Runtime Version          5.5 / 5.5
  CUDA Capability Major/Minor version number:    2.0
  Total amount of global memory:                 5375 MBytes (5636554752 bytes)
  (14) Multiprocessors, ( 32) CUDA Cores/MP:     448 CUDA Cores
  GPU Clock rate:                                1147 MHz (1.15 GHz)
  Memory Clock rate:                             1566 Mhz
  Memory Bus Width:                              384-bit
  L2 Cache Size:                                 786432 bytes
  Maximum Texture Dimension Size (x,y,z)         1D=(65536), 2D=(65536, 65535), 3D=(2048, 2048, 2048)
  Maximum Layered 1D Texture Size, (num) layers  1D=(16384), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(16384, 16384), 2048 layers
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       49152 bytes
  Total number of registers available per block: 32768
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  1536
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (65535, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 2 copy engine(s)
  Run time limit on kernels:                     No
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Enabled
  Device supports Unified Addressing (UVA):      Yes
  Device PCI Bus ID / PCI location ID:           17 / 0
  Compute Mode:
     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >
> Peer access from Tesla M2070 (GPU0) -> Tesla M2070 (GPU1) : No
> Peer access from Tesla M2070 (GPU0) -> Tesla M2070 (GPU2) : No
> Peer access from Tesla M2070 (GPU1) -> Tesla M2070 (GPU1) : No
> Peer access from Tesla M2070 (GPU1) -> Tesla M2070 (GPU2) : Yes
> Peer access from Tesla M2070 (GPU1) -> Tesla M2070 (GPU0) : No
> Peer access from Tesla M2070 (GPU1) -> Tesla M2070 (GPU1) : No
> Peer access from Tesla M2070 (GPU2) -> Tesla M2070 (GPU0) : No
> Peer access from Tesla M2070 (GPU2) -> Tesla M2070 (GPU1) : Yes

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 5.5, CUDA Runtime Version = 5.5, NumDevs = 3, Device0 = Tesla M2070, Device1 = Tesla M2070, Device2 = Tesla M2070
Result = PASS

为什么我不能使用线程块的最大尺寸大小 (x,y,z): (1024, 1024, 64) 的最大值？

因为每一项都是个人限制对于那个维度。您的 deviceQuery 打印输出中还指出了一个额外的总体限制：

Maximum number of threads per block:           1024

线程块最多为 3 维结构，因此块中的线程总数等于您选择的各个维度的乘积。该乘积还必须小于或等于 1024（且大于 0）。这只是设备的另一个硬件限制。

与共享内存有关吗？

以上与共享内存的任何使用无关。（无论如何，您的代码似乎并未使用共享内存。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

每个块的 CUDA 线程限制的相关文章

加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指
最小化 MC 模拟期间存储的 cuRAND 状态数量

我目前正在 CUDA 中编写蒙特卡罗模拟因此我需要生成lots使用随机数cuRAND图书馆每个线程处理一个巨大的元素floatarray 示例中省略并在每次内核调用时生成 1 或 2 个随机数通常的方法参见下面的示例似乎是为每
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
CUDA计算能力2.0。全局内存访问模式

CUDA 计算能力 2 0 Fermi 全局内存访问通过 768 KB L2 缓存进行看起来开发人员不再关心全局内存库但全局内存仍然非常慢因此正确的访问模式很重要现在的重点是尽可能多地使用重用 L2 我的问题是如何我将感谢一
CUDA 添加矩阵的行

我试图将 4800x9600 矩阵的行加在一起得到一个 1x9600 的矩阵我所做的是将 4800x9600 分成 9 600 个矩阵每个矩阵长度为 4800 然后我对 4800 个元素进行缩减问题是这真的很慢有人有什么建议吗
CUDA Thrust 库中counting_iterators 的用途和用法

我很难理解counting iterator在 CUDA 的推力库中它的目的是什么以及如何使用它在其他编程语言例如 C 中也可用吗计数迭代器只是一个迭代器它从每次迭代器递增时前进的序列中返回下一个值最简单的例子是这样的 incl
摆脱异步 cuda 流执行期间的忙等待

我正在寻找一种方法如何摆脱以下代码中主机线程中的忙等待不要复制该代码它仅显示我的问题的想法它有许多基本错误 cudaStream t steams S N for int i 0 i lt S N i cudaStreamCreat
使用 GPU 进行 Matlab 卷积

我用gpuArray尝试了matlab的卷积函数conv2 convn 例如 convn gpuArray rand 100 100 10 single gpuArray rand 5 single 并将其与 cpu 版本 convn ra
Cuda：最小二乘求解，速度较差

最近我使用Cuda编写了一个名为正交匹配追踪的算法在我丑陋的 Cuda 代码中整个迭代需要 60 秒而 Eigen lib 只需 3 秒在我的代码中矩阵 A 是 640 1024 y 是 640 1 在每一步中我从 A 中
将内核链接到 PTX 函数

我可以使用 PTX 文件中包含的 PTX 函数作为外部设备函数将其链接到另一个应调用该函数的 cu 文件吗这是另一个问题CUDA 将内核链接在一起 https stackoverflow com questions 20636800 c
布尔实现的atomicCAS

我想弄清楚是否存在错误答案 https stackoverflow com a 57444538 11248508 现已删除关于Cuda like的实现atomicCAS for bool是答案中的代码重新格式化 static inl
了解流式多处理器 (SM) 和流式处理器 (SP)

我正在尝试了解 GPU 的基本架构我已经阅读了很多材料包括这个非常好的答案 https stackoverflow com a 2213744 2386113 但我仍然很困惑无法得到一个好的图片我的理解 GPU 包含两个或多个流式多
将数据从 GPU 复制到 CPU - CUDA

我在将数据从 GPU 复制到 CPU 时遇到问题一开始我在 GPU 空间中创建变量 device float gpu array 在此 GPU 函数中我想将数据从 od fS gi 值 0 43 复制到 gpu array global
goto 指令对 CUDA 代码中扭曲内发散的影响

对于CUDA中简单的warp内线程发散我所知道的是SM选择一个重新收敛点 PC地址并在两个多个路径中执行指令同时禁用未采用该路径的线程的执行效果例如在下面的代码中 if threadIdx x lt 16 A do someth

随机推荐

Ruby on Rails：按月对博客文章进行分组

嘿伙计们我使用常见的 CRUD 操作创建了一个简单的博客应用程序我还在 PostController 中添加了一个名为 archive 的新操作和一个关联的视图在此视图中我想带回所有博客文章并按月对它们进行分组以这种格式显示它们
PHP 的 count() 函数对于数组来说是 O(1) 还是 O(n) ？

Does count 真的计算了 PHP 数组的所有元素还是这个值缓存在某处并且只是被检索嗯我们可以看一下源码 ext standard array c PHP FUNCTION count calls php count recur
如何使用 BorderLayout 将两个组件放入 JPanel 中？

基本上我想做的是添加两张图片并排在 JPanel 的中心并在 JPanel 的右侧添加一个 JLabel 所以我被告知将 JPanel 的布局设置为 BorderLayout 并使用 BorderLayout CENTER 添加图片使
创建一个自动填充目标页面上字段的链接

我正在编写一份时事通讯要求我这样做的人想要其中的链接一切都很完美没有问题现在的问题是当您单击此链接时它会进入一个包含字段的页面并且该人问我是否可以自动填写其中一个字段该页面是某些服务的订阅页面当您使用他的电子邮件登录该页面
如何在 iPhone 的 Objective-C 中以编程方式调整图像大小

我有一个应用程序可以在很小的空间中显示大图像这些图像相当大但我仅以 100x100 像素帧显示它们由于我使用的图像大小我的应用程序响应缓慢为了提高性能如何使用 Objective C 以编程方式调整图像大小请找到以下代码 U
枚举的 rawValue 属性无法识别

我正在使用 Xcode 6 的 Playground 来尝试 Swift 中的枚举 enum Rank String case One One Two Two init rawValue String self rawValue rawVa
创建 Pandas 滚动窗口系列数组

假设我有以下代码 import numpy as np import pandas as pd x np array 1 0 1 1 1 2 1 3 1 4 s pd Series x index 1 2 3 4 5 这会产生以下结果s 1
Python-pandas 将 NA 替换为数据框中一组的中位数或平均值

假设我们有一个 df A B apple 1 0 apple 2 0 apple NA orange NA orange 7 0 melon 14 0 melon NA melon 15 0 melon 16 0 要替换 NA 我们可以使用
如何防止Gson将整数表示为浮点数

当我尝试将字符串转换为 json 时 Gson 有一些奇怪的行为下面的代码将字符串草稿转换为 json 响应有没有办法阻止 gson 将 0 添加到所有整数值 ArrayList
google-api-java-client NetHttpTransport 导致 NoClassDefFoundError

我刚刚开始研究Android上的google api java client 将接下来的 3 个库添加到项目中我不使用 Maven google api client 1 4 1 beta jar google api client go
Emacs/CEDET。多个项目和代码完成

我已经使用 CEDET 1 0 和 ECB 2 40 设置了 emacs 23 1 50 1 很大程度上受到 Alex Otts 设置的启发 http github com alexott emacs configs blob master
CSS：-webkit-mask-image

我正在使用 CSS 属性 webkit mask image 在图像上应用蒙版但是在 Chrome 中当您将图像滚动到页面之外时遮罩会移动如何防止面罩移动还是渲染神器 JSFiddle http jsfiddle net DZT
Scala 中不明确的导入

我正在用 Scala 编写一个小型模拟程序它是基于演员的所以我创建了一个文件messages scala包含系统中所有有效的消息除此之外我还有一个管理组件 management scala以及定义节点和链接类的文件nodes sca
在 GCP Cloud Run/Function 上使用固定公共 IP（列入白名单）

我正在寻找将应用部署到 GCP 的最佳方法该应用程序需要使用微服务在Cloud Run或Cloud Function上运行在远程数据库上执行SQL代码基本上微服务接收一段 SQL 代码并需要在远程数据库上执行它出于安全原因远
给 CSS 样式的 div 一个“border-left-image”

只是想给网站上的主要内容 div 的左侧和右侧添加边框我不想为每个边框设置单独的 div 而是使用border left imageCSS3 中的功能可以实现这一目标我的代码如下 content background color 7FC
将 Roslyn 编译器与 Visual Studio 2013 结合使用

有没有办法将 Roslyn 编译器与 Visual Studio 2013 一起使用以便我可以利用新的 C 6 功能注意不能使用 VS 2015 Yes 您可以使用 Visual Studio 2013 编译 C 6 代码您只需安装
斐波那契递归函数如何“工作”？

当我读到描述函数递归的一章时我是 Javascript 的新手正在阅读它它使用示例函数来查找斐波那契数列的第 n 个数字代码如下 function fibonacci n if n lt 2 return 1 else return
考虑添加 android:paddingStart="25dp" 以更好地支持从右到左布局错误

我最近下载了一个新的ADT 每次保存我的项目后它都会显示以下内容XML错误但当我清理它时同样的情况就会消失有没有永久的解决方案提前致谢
Ruby：从块中产生块？

是否有可能lambda proc method或红宝石中其他类型的块以屈服于另一个块就像是 a lambda puts in a yield if block given a call puts in a s block 这不起作用它
每个块的 CUDA 线程限制

为什么我不能使用 max ofMax dimension size of a thread block x y z 1024 1024 64 如果我使用 1024 1024 它不起作用当我使用时 32 32 or 1 1024 等等它有效

每个块的 CUDA 线程限制

每个块的 CUDA 线程限制 的相关文章

随机推荐

热门标签

每个块的 CUDA 线程限制的相关文章