如何在 CUDA 中使用 2D 数组？

2023-12-09

如何分配大小为 MXN 的二维数组？那么如何在 CUDA 中遍历该数组呢？

__global__ void test(int A[BLOCK_SIZE][BLOCK_SIZE], int B[BLOCK_SIZE][BLOCK_SIZE],int C[BLOCK_SIZE][BLOCK_SIZE])
{

    int i = blockIdx.y * blockDim.y + threadIdx.y;
    int j = blockIdx.x * blockDim.x + threadIdx.x;
    
    if (i < BLOCK_SIZE && j < BLOCK_SIZE)
        C[i][j] = A[i][j] + B[i][j];

}

int main()
{

    int d_A[BLOCK_SIZE][BLOCK_SIZE];
    int d_B[BLOCK_SIZE][BLOCK_SIZE];
    int d_C[BLOCK_SIZE][BLOCK_SIZE];

    int C[BLOCK_SIZE][BLOCK_SIZE];

    for(int i=0;i<BLOCK_SIZE;i++)
      for(int j=0;j<BLOCK_SIZE;j++)
      {
        d_A[i][j]=i+j;
        d_B[i][j]=i+j;
      }
    

    dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE); 
    dim3 dimGrid(GRID_SIZE, GRID_SIZE); 

    test<<<dimGrid, dimBlock>>>(d_A,d_B,d_C); 

    cudaMemcpy(C,d_C,BLOCK_SIZE*BLOCK_SIZE , cudaMemcpyDeviceToHost);

    for(int i=0;i<BLOCK_SIZE;i++)
      for(int j=0;j<BLOCK_SIZE;j++)
      {
        printf("%d\n",C[i][j]);
    
      }
}

如何分配二维数组：

int main() {
    #define BLOCK_SIZE 16
    #define GRID_SIZE 1
    int d_A[BLOCK_SIZE][BLOCK_SIZE];
    int d_B[BLOCK_SIZE][BLOCK_SIZE];

    /* d_A initialization */

    dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE); // so your threads are BLOCK_SIZE*BLOCK_SIZE, 256 in this case
    dim3 dimGrid(GRID_SIZE, GRID_SIZE); // 1*1 blocks in a grid
    
    YourKernel<<<dimGrid, dimBlock>>>(d_A,d_B); //Kernel invocation
}

如何遍历该数组：

__global__ void YourKernel(int d_A[BLOCK_SIZE][BLOCK_SIZE], int d_B[BLOCK_SIZE][BLOCK_SIZE]){
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;
    if (row >= h || col >= w) return;
    /* whatever you wanna do with d_A[][] and d_B[][] */
}

希望对大家有帮助，也可以参考一下CUDA 编程指南关于矩阵乘法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

如何在 CUDA 中使用 2D 数组？的相关文章

使用 CUDA 进行逐元素向量乘法

我已经在 CUDA 中构建了一个基本内核来执行逐元素两个复向量的向量向量乘法内核代码插入如下 multiplyElementwise 它工作正常但由于我注意到其他看似简单的操作如缩放向量在 CUBLAS 或 CULA 等库中进行了
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指
通过 cuFFT 进行逆 FFT 缩放

每当我使用 cuFFT 绘制程序获得的值并将结果与 Matlab 的结果进行比较时我都会得到相同形状的图形并且最大值和最小值位于相同的点然而 cuFFT 得到的值比 Matlab 得到的值大得多 Matlab代码是 fs 1000 s
cuda 文件组织的有效方式：.cpp .h .cu .cuh .curnel 文件

cuda最容易理解最高效的代码组织是什么经过一番调查后我发现 cuda 函数声明应位于 cuh 文件中实现位于 cu 文件中内核函数实现位于 curnel 文件中其他 C 内容通常在 cpp 和 h 文件中最近我发布了一个问题
云或烟雾的粒子系统

我正在尝试使用 OpenGL 和 CUDA 制作一个简单的用于云和烟雾模拟的粒子系统如何使粒子系统中的粒子表现得像真正的云或烟雾在低湍流风中的表现我现在遇到的一些问题是颗粒聚集成一个大球粒子扩散到无限远粒子突然弹射离开我已经完成
CUDA Thrust 的多 GPU 使用

我想使用我的两张显卡通过 CUDA Thrust 进行计算我有两张显卡在单卡上运行对于两张卡都适用即使我在 std vector 中存储两个 device vector 也是如此如果我同时使用两张卡循环中的第一个周期将起作用并且不
为什么 cuCtxCreate 返回旧上下文？

我已经安装了 CUDA SDK 4 2 64 CUDA工具包4 2 64 CUDA 驱动程序 4 2 64 我检查了 windows 中的每个 nvcuda dll 所有这些都是 4 2 版本但是当我使用驱动程序 api 创建上下文并使用
用于计算邻居列表的最佳 GPU 算法

给定 3D 中数千个点的集合我需要获取落在某个截止值以欧几里得距离而言内的每个粒子的邻居列表并且如果可能的话从最近到最远排序在 CUDA 或 OpenCL 语言中哪种 GPU 算法最快我所知道的最快的 GPU MD 代码之一
OpenCV 2.4.3rc 和 CUDA 4.2：“OpenCV 错误：没有 GPU 支持”

我在这张专辑中上传了几张截图 https i stack imgur com TELST jpg https i stack imgur com TELST jpg 我正在尝试在 Visual Studio 2008 中的 OpenCV 中
GPU上动态分配内存

是否可以在内核内的 GPU 全局内存上动态分配内存我不知道我的答案有多大因此我需要一种方法为答案的每个部分分配内存 CUDA 4 0 允许我们使用 RAM 这是一个好主意还是会降低速度可以在内核中使用 malloc 检查以下内容摘自
使用 cudamalloc()。为什么是双指针？

我目前正在浏览有关的教程示例http code google com p stanford cs193g sp2010 http code google com p stanford cs193g sp2010 学习CUDA 演示的代码 g
在 CUDA 中的设备内存上分配 2D 数组

如何在 Cuda 中的设备内存中分配和传输往返于主机 2D 数组我找到了解决这个问题的方法我不必展平阵列内置的cudaMallocPitch 函数完成了这项工作我可以使用以下命令将阵列传输到设备或从设备传输阵列cudaMemcpy
CUDA 和 Eigen 的成员“已声明”错误

我只是 CUDA 和 Nsight 的初学者希望利用出色的 GPU 性能进行线性代数运算例如 CUBLAS 我在以下人员的帮助下编写了很多自定义代码Eigen http eigen tuxfamily org index php tit
将 cuda 数组传递给 Thrust::inclusive_scan

我可以对 cpu 上的数组使用包容性扫描但是否可以对 gpu 上的数组执行此操作注释是我知道有效但我不需要的方式或者是否有其他简单的方法可以对设备内存中的数组执行包含扫描 Code include
将数据从 GPU 复制到 CPU - CUDA

我在将数据从 GPU 复制到 CPU 时遇到问题一开始我在 GPU 空间中创建变量 device float gpu array 在此 GPU 函数中我想将数据从 od fS gi 值 0 43 复制到 gpu array global
为什么 CUDA 内存复制速度会这样，有一些恒定的驱动程序开销？

在我的旧 GeForce 8800GT 上使用 CUDA 内存时我总是会遇到奇怪的 0 04 毫秒开销我需要将 1 2K 传输到设备的常量内存中处理其中的数据并从设备中仅获取一个浮点值我有一个使用 GPU 计算的典型代码 alloc

随机推荐

需要帮助使用 GIOService（GLib、Glib-GIO）实现简单的套接字服务器

我正在学习使用 GLib 编写简单高效的套接字服务器的基础知识我正在尝试 GSocketService 到目前为止我似乎只能接受连接但随后它们立即关闭从文档中我无法弄清楚我错过了哪一步我希望有人能为我阐明这一点运行以下命令时
如何提高最低成本路径模型的模拟速度

通过使用网络扩展以下代码在两个多边形由多个面片组成之间构建成本最低的路径 to calculate LCP ID polygon 1 ID polygon 2 let path let path cost 1 Define polyg
如何确定用户在汇编语言 X86 中输入的字符串中单词的频率？

我是汇编语言编程的完全初学者我需要帮助编写一个汇编语言程序来从用户那里获取字符串计算并显示每个单词在用户输入的字符串中出现的次数例如如果用户输入 Hello Hello what is new Hello what is not n
查找数组一中最接近数组二的元素

这个答案解释如何找到最接近已排序的数组元素单点以对大型数组有效的方式稍作修改 def arg nearest array value idx np searchsorted array value side left if idx
如何使用 XAML 绑定按钮单击来更改面板（网格）的内容

我正在创建 WPF 应用程序的 UI 在致力于软件功能的实现时我在创建 UI 方面没有太多经验现在我需要一种方法来更改属性面板的内容该面板有一个网格来包含内容我创建了多个面板隐藏了除一个之外的所有面板现在我想在用户单击顶部功
Slim PHP 的默认 GET 路由

我最近使用 Slim PHP 框架构建了一个小型 API 它运行得很好然而我想为根设置一个 GET 路由它以基本消息响应并让任何其他 GET 请求返回访问被拒绝在阅读了文档和各种示例后我无法弄清楚如何完成这些任务我的项目仅
APC 3.1.x 的稳定性如何？

是否有人在大容量站点的生产中使用 APC 3 1 x 3 1 系列被标记为测试版版本但它具有我们真正希望拥有的一些功能具体来说 apc clear cache user 的性能改进没有成为 3 0 19 那么您是否在非常活跃的站点
Python - 根据列的最大值删除重复项

我不太擅长使用 pandas 我认为 pandas 应该解决我的问题我有一个文本文件其中包含数据 id1 id2 value1 value2 value3 1 2 30 40 20 3 1 2 30 42 26 2 3 5 12 55
从 NTFS-MFT 参考号获取文件信息

在我的 C 应用程序中我已经有一种方法来检查文件系统但我想利用从主文件表 MFT 中读取数据的优势因为它的速度要快得多我了解 1 它是专有规范因此如有更改恕不另行通知 2 仅当应用程序在管理权限下运行时才能访问它我设法通过读取
在 xpath/domdocument 查询中查找与给定字符串匹配的链接

使用 Xpath 和 domDocument 获取与给定单词匹配的链接进行显示时遇到问题一切似乎都进展顺利for i 0 i lt documentLinks gt length i 用来谁能帮我解决我哪里出错了 html ol htm
更新预填充数据库

我为 Android 设备创建了一个问答游戏我有一个数据库在资产文件夹和 dbHelper 类中存在问题一切正常但现在我想修复一些拼写错误并添加更多问题我需要更新数据库但我不知道该怎么做我在互联网上找到了这个 dbHelper
单击事件在具有触摸事件的 iPad 上不起作用

我正在页面链接上使用点击事件在 iPad 上运行良好Safari 但是当我在同一页面上使用触摸事件时单击事件将停止工作 iPad 上只有触摸事件有效点击事件 link onclick onLinkClick 触摸事件 sdiv bin
为什么 Application.Speech.Speak 单独读取一些数字而不是将它们放在一起？

假设现在是 11 点 11 分它读作一一小时十一分钟如下所示 Sub TEST1 Application Speech Speak It is Hour Now hours and Minute Now minutes End
UnicodeWarning：Unicode 相等比较无法将两个参数转换为 Unicode

我知道很多人以前遇到过这个错误但我找不到解决我的问题的方法我有一个想要规范化的 URL url u http www dgzfp de Dienste Fachbeitr C3 A4ge aspx EntryId 267 Page 5
与 CSS 并排的列内的元素保持相同的高度

我有一个这样的模板我想在两列的每一项之间保持相同的高度具体取决于高度最大的一项但前提是它们并排时在较小的屏幕中当它们的 width 100 时每个 div 都有自己的高度具体取决于其自己的内容高度它应该看起来像这样我认为我
为什么 git 对标记为二进制的文件发出 CRLF 警告？

我有一个已标记为二进制的文件 cat gitattributes dist binary git check attr a dist app js dist app js binary set dist app js diff unset
程序崩溃时如何释放资源

我有一个使用其他人的服务的程序如果程序崩溃关闭这些服务的最佳方法是什么在服务器端我将定义一些检查器来定期监视客户端是否无效但是我们可以在客户端做任何事情吗我不确定正常的 RAII 在这种情况下是否仍然有效我的代码是用 C 和
Http Api 调用承诺的响应未定义 - Angular 2

我在 WebAPI 中创建了一个 api 如下所示 public HttpResponseMessage Get var response Request CreateResponse HttpStatusCode OK response
在弹出窗口中显示地图 v2 在 Android 中不显示？

我想打开弹出窗口我使用地图 v2 在弹出窗口中显示地图 v2 但不显示在这里我放置了我的 xml 布局和活动类 main xml
如何在 CUDA 中使用 2D 数组？

如何分配大小为 MXN 的二维数组那么如何在 CUDA 中遍历该数组呢 global void test int A BLOCK SIZE BLOCK SIZE int B BLOCK SIZE BLOCK SIZE int C BLOC

如何在 CUDA 中使用 2D 数组？

如何在 CUDA 中使用 2D 数组？ 的相关文章

随机推荐

热门标签

如何在 CUDA 中使用 2D 数组？的相关文章