无法在 CUDA 中执行设备内核

2024-04-28

我正在尝试在全局内核中调用设备内核。我的全局内核是矩阵乘法，我的设备内核正在查找乘积矩阵每列中的最大值和索引。以下是代码：

__device__ void MaxFunction(float* Pd, float* max)
{
  int x = (threadIdx.x + blockIdx.x * blockDim.x);  
  int y = (threadIdx.y + blockIdx.y * blockDim.y); 
  int k = 0;
  int temp = 0; int temp_idx = 0;
  for (k = 0; k < wB; ++k) {
   if(Pd[x*wB + y] > temp){
    temp = Pd[x*wB + y];
    temp_idx = x*wB + y;
   }
       max[y*2 + 0] = temp;
       max[y*2 + 1] = temp_idx;
  }
}

__global__ void MatrixMulKernel(float* Md, float* Nd, float* Pd, float* max)
{
  // declare cache in the shared memory
  __shared__ float Mds[blockD][blockD];
  __shared__ float Nds[blockD][blockD];

  float Pvalue = 0;
  // Loop over the Md and Nd block dimension required to compute the Pd element
  for (int m = (wA * blockD * blockIdx.y), n = (blockD * blockIdx.x); 
                            m < ((wA * blockD * blockIdx.y)+wA-1); 
                                        m += blockD, n += (blockD*hB)){

    // collaboratively loading of Md and Nd blocks into shared memory    
    Mds[threadIdx.y][threadIdx.x] = Md[m + wA * threadIdx.y + threadIdx.x];
    Nds[threadIdx.y][threadIdx.x] = Nd[n + wA * threadIdx.y + threadIdx.x];
    __syncthreads();

    // keep track of the running sum    
    for (int k = 0; k < blockD; k++)
      Pvalue += Mds[threadIdx.y][k] * Nds[k][threadIdx.x];
    __syncthreads();
  }

  // write back to the global memory
  int p = hB * blockD * blockIdx.y + blockD * blockIdx.x;
  Pd[p + hB * threadIdx.y + threadIdx.x] = Pvalue;
  __syncthreads();

  MaxFunction(Pd, max);

}

主要代码：

#include<stdio.h>
#include "cuda.h"
#include<stdlib.h>

#define blockD 32


const int wA = 128;
const int hA = 1024;

const int wB = 128;
const int hB = wA;

main(void){

    void MatrixMultiplication(float *, float *, float *, float *);

    int size_A = wA * hA * sizeof(float);
    int size_B = wB * hB * sizeof(float);
    int size_C = wB * hA * sizeof(float);
    int size_max = 2 * wB * sizeof(float);
    float *M, *N, *P, *C;   


    // allocate memory on the CPU
    M = (float*)malloc(size_A);
    N = (float*)malloc(size_B);
    P = (float*)malloc(size_max);
    C = (float*)malloc(size_C);

    // initialize the matrices
    for (int y=0; y < hA; y++) {
        for (int x=0; x < wA; x++){
            M[y*wA + x] = x;
       }
    }

    for (int y=0; y<hB; y++) {
        for (int x=0; x<wB; x++){
            N[y*wB + x] = x;
       }
    }

    MatrixMultiplication(M, N, P, C);

    //Write
    FILE *f1;
    int i, j;
    f1 = fopen("max_val.txt","w");
    for(i=0; i < (wB * 2); i+=2){
    fprintf(f1,"%d\t%d\n",int(P[i]),int(P[i+1]));
    }
    fclose(f1);

    f1 = fopen("Prod_mat.txt","w");
    for(i=0; i < 2; i++){
    for(j=0; j < wB; j++){
        fprintf(f1,"%d\t",int(C[i*wB + j]));
    }
    fprintf(f1,"\n");
    }
    fclose(f1);

    free( M );
    free( N );
    free( P ); 
            free( C );

    cudaDeviceReset();
    return 0;
}


void MatrixMultiplication(float *M, float *N, float *P, float *C) {

    int size_A = wA * hA * sizeof(float);
    int size_B = wB * hB * sizeof(float);
    int size_C = wB * hA * sizeof(float);
    int size_max = 2 * wB * sizeof(float);
    float *Md, *Nd, *Pd, *max; 

    // allocate memory on the GPU
    cudaMalloc((void**)&Md, size_A);
    cudaMalloc((void**)&Nd, size_B);
    cudaMalloc((void**)&Pd, size_C);
    cudaMalloc((void**)&max, size_max);

    // transfer M and N to device memory
    cudaMemcpy(Md, M, size_A, cudaMemcpyHostToDevice);
    cudaMemcpy(Nd, N, size_B, cudaMemcpyHostToDevice);

    // kernel invocation code
    dim3 dimBlock(blockD, blockD);
    dim3 dimGrid(wA/blockD, hB/blockD);

    //Execute Kernel
    MatrixMulKernel<<<dimGrid, dimBlock>>>( Md, Nd, Pd, max);

    // transfer P from device    
    cudaMemcpy(P, max, size_max, cudaMemcpyDeviceToHost);
    cudaMemcpy(C, Pd, size_C, cudaMemcpyDeviceToHost);

    cudaFree(Md);
    cudaFree(Nd);
    cudaFree(Pd);
    cudaFree(max);
}

矩阵乘法结果很好（使用 Matlab 验证），但我无法获得最大值及其相应的索引。如果有人能指出我做错了什么，我将不胜感激。当我运行上面的代码时， max 变量只有垃圾。

显然，您正在尝试查找每列中的最大值以及该值的偏移量。

但你所有的线程y在同一位置锤击以获得最大值（max[x*2 + 0]）。不建议这样做，因为无法解决竞争条件。您应该使用原子操作或其他方法（例如归约）来处理多个线程以这种方式更新单个最大值。

由于您需要自动更新两个值（最大值及其位置），因此将普通访问替换为标准原子函数 http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#atomic-functions。但是，由于您正在处理两个 32 位相邻数量，您可能对我的答案感兴趣here https://stackoverflow.com/questions/17411493/custom-atomic-functions/17414007#17414007.

顺便说一句，我认为 matlab 的本机矩阵乘法gpuArray应该比您编写的任何矩阵乘法代码都要快。但这需要并行计算工具箱。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

NVIDIA

matrixmultiplication

GPU

无法在 CUDA 中执行设备内核的相关文章

PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
在没有 SurfaceView 的 Android 上获取 GPU 信息

在Android上有没有一种方法可以在不创建SurfaceView的情况下获取GPU信息我不想使用 OpenGL 绘制任何内容但我只需要获取硬件信息例如供应商 OpenGL ES 版本可用扩展等抱歉我不知道如何在 Androi
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY
Bank 在字长方面存在冲突

我读过一些关于共享内存的好文章但我对银行冲突有初步疑问据说如果线程 1 和线程 2 从存储体 0 访问字 0 则不存在存储体冲突但如果他们访问不同的单词就会出现银行冲突但我的问题是不同的单词如何可以驻留在一个银行中由于bank
为什么 cuCtxCreate 返回旧上下文？

我已经安装了 CUDA SDK 4 2 64 CUDA工具包4 2 64 CUDA 驱动程序 4 2 64 我检查了 windows 中的每个 nvcuda dll 所有这些都是 4 2 版本但是当我使用驱动程序 api 创建上下文并使用
CUDA计算能力2.0。全局内存访问模式

CUDA 计算能力 2 0 Fermi 全局内存访问通过 768 KB L2 缓存进行看起来开发人员不再关心全局内存库但全局内存仍然非常慢因此正确的访问模式很重要现在的重点是尽可能多地使用重用 L2 我的问题是如何我将感谢一
设备内存刷新cuda

我正在运行一个 C 程序其中调用了两次 cuda 主机函数我想清理这两个调用之间的设备内存有没有办法可以刷新 GPU 设备内存我使用的是计算能力为2 0的Tesla M2050 如果你只想将内存归零那么cudaMemset可能是最
NVCC 警告级别

我希望 NVCC 将以下警告视为错误 warning calling a host function foo from a host device function bar NVCC 文档 NVIDIA CUDA 编译器驱动程序 NVCC
CUDA 的嵌套循环

我想将我的 C 代码移植到 CUDA 主要计算部分包含3个for嵌套循环 for int i 0 i lt Nx i for int j 0 j
CUDA Thrust 库中counting_iterators 的用途和用法

我很难理解counting iterator在 CUDA 的推力库中它的目的是什么以及如何使用它在其他编程语言例如 C 中也可用吗计数迭代器只是一个迭代器它从每次迭代器递增时前进的序列中返回下一个值最简单的例子是这样的 incl
如何检查 webgl(two.js) 的客户端性能

我有一个使用 Three JS 的图形项目现在我想自动检查客户端 GPU 性能并计算可以在应用程序中加载多少元素我想到了诸如 GPU 基准测试之类的东西看一眼stats js https github com mrdoob stats
无法在 CUDA 中找到 1 到 100 数字的简单和？

我正在研究使用 CUDA 的图像处理算法在我的算法中我想使用 CUDA 内核找到图像所有像素的总和所以我在cuda中制作了内核方法来测量16位灰度图像的所有像素的总和但我得到了错误的答案所以我在cuda中编写了一个简单的程序来查
使用 Cuda 并行读取多个文本文件

我想使用 CUDA 在多个文件中并行搜索给定字符串我计划使用 pfac 库来搜索给定的字符串问题是如何并行访问多个文件示例我们有一个包含 1000 个文件的文件夹需要搜索这里的问题是我应该如何访问给定文件夹中的多个文件应该动态
使用矩阵代数来操作字符串：可行吗？

我正在尝试使用矩阵代数来操作字符串这意味着能够使用字符串或字符串数组的串联和粘贴来实现多个类似矩阵的结构我之前尝试在 R 上实现这个东西但这是不可能的因为矩阵只能有一维条目我希望足够的与语言无关和抽象但为了清楚起见我将使用类
CUDA-Kernel 应该根据块大小动态崩溃

我想做稀疏矩阵密集向量乘法假设用于压缩矩阵中条目的唯一存储格式是压缩行存储 CRS 我的内核如下所示 global void krnlSpMVmul1 float data mat int num nonzeroes unsigned
布尔实现的atomicCAS

我想弄清楚是否存在错误答案 https stackoverflow com a 57444538 11248508 现已删除关于Cuda like的实现atomicCAS for bool是答案中的代码重新格式化 static inl
了解流式多处理器 (SM) 和流式处理器 (SP)

我正在尝试了解 GPU 的基本架构我已经阅读了很多材料包括这个非常好的答案 https stackoverflow com a 2213744 2386113 但我仍然很困惑无法得到一个好的图片我的理解 GPU 包含两个或多个流式多
如何从尖点库矩阵格式获取原始指针

我需要从尖点库矩阵格式获取原始指针例如 cusp coo matrix
将 cuda 数组传递给 Thrust::inclusive_scan

我可以对 cpu 上的数组使用包容性扫描但是否可以对 gpu 上的数组执行此操作注释是我知道有效但我不需要的方式或者是否有其他简单的方法可以对设备内存中的数组执行包含扫描 Code include
如何转储所有 NVCC 预处理器定义？

我想达到同样的效果 gcc dM E lt dev null 如所描述的here https stackoverflow com q 2224334 1593077 但对于 nvcc 也就是说我想转储所有 nvcc 的预处理器定义唉 n

随机推荐

未找到神奇函数“bash”

我有一堆模拟想要在高性能集群上运行我应该在这些集群上进行预留以获得计算时间由于预订是有时间限制的我正在开发一个自动化脚本我可以scp进入集群并运行然后该脚本将下载相关的模拟文件运行它们并上传结果该自动化脚本的一部分位于ba
转义 C++ 字符串

将 C std string 转换为另一个 std string 的最简单方法是什么它转义了所有不可打印的字符例如对于两个字符的字符串 0x61 0x01 结果字符串可能是 a x01 或 a 01 看看Boost的字符串算法库 ht
在 getElementsByClassName 的数组上使用 forEach 会导致“TypeError: undefined is not a function”

In 我的 JSFiddle http jsfiddle net jer2 zcrh9 3 我只是想迭代一个元素数组正如日志语句所证明的那样该数组非空然而呼叫forEach给了我不太有帮助未捕获TypeError undefin
Emacs lisp：将字符翻译为标准 ASCII 转录

我正在尝试编写一个函数将包含 unicode 字符的字符串转换为某种默认的 ASCII 转录理想情况下我想要例如 ngstr m成为Angstroem或者如果不可能的话 Angstrom 同样地应该成为a x c 或类似的 Ema
如何使用我自己的声明文件解决“无法找到模块的声明文件”错误？

我有一个测试项目正在其中测试类型定义文件该项目有一个文件名为index ts看起来像这样 import i18nFu require gettext js The 获取文本 js包是使用 Node js 安装的如下所示 npm ins
iOS 7 中的后台任务间隔时间

我在 appdidEnterBackground 中有以下代码我看到在 IOS 6 中我看到后台时间段约为 10 分钟而 IOS 7 中的相同代码打印 2 分钟这是代码 void applicationDidEnterBackgrou
当有太多需要滚动的项目时，Windows 窗体列表框会溢出

我正在构建一个基于后缀树的索引器应用程序它使我能够非常快地索引整个文档并搜索字符串子字符串等我正在做的是在文本框中输入一个字符串按下按钮然后运行一个函数来查询后缀树并将所有出现的字符串的位置添加到列表框中所以列表框里面有很多整数
用于从 PHP 更新实时
的 jQuery 插件

有没有任何 jQuery 插件可以创建类似实时 feed 的东西推特主页 http www twitter com 使用 PHP 它从 MySQL 数据库获取数据 PHP 文件必须如何 Thanks 您确实不需要为此使用插件您可以使用 j
MS Access 2007 中 NVL 功能的替代方法是什么

我在 MS Access 中编写了一个 SQL 查询 select NVL count re rule status 0 from validation result re validation rules ru where re cycl
实体框架 LINQ To Entities 生成奇怪的慢速 SQLWhere 子句

我需要理解这一点 EF5 0 和 EF6 在 TSQL 代码生成方面存在很大差异在我的代码中这是我的 LINQ 语句 var qry2 context viw overview 1 Where i gt i article EAN17
设置div内的div滚动，而父级不滚动

我有一个容器 div 其中包含许多子 div 我的容器中的 div 之一包含评论我不想将整个 div 设置为滚动而是希望所有内容都保持在原位只留下评论 div 滚动我尝试将父级溢出设置为隐藏将注释 div 设置为滚动滚动条实际上
为什么旋转图像时会出现黑色边框？ PHP GD

此代码使用 GD 生成两张图像并旋转其中一张当我旋转图像时黑色边框开始出现有人知道如何解决这个问题吗
如何更改传单弹出窗口的背景颜色？

我正在使用 Leafletjs 创建地图我想将弹出窗口当前显示图像和链接的背景颜色从白色更改为其他颜色看起来基本的背景颜色 CSS 语法并不能解决这个问题有什么建议吗谢谢斯科特调用 leaflet css 后您可以包含
std::array<> 的初始化

考虑以下代码 include
ssh：无法确定主机“主机名”的真实性

当我 ssh 到一台机器时有时我会收到此错误警告并提示说是或否当从自动 ssh 到其他机器的脚本运行时这会导致一些问题警告信息 The authenticity of host
如何根据 MuMIn model.avg() 摘要进行绘图

有没有一种方法可以直接绘制 MuMIn model avg 对于具有置信带的不同变量的模型平均摘要输出以前我一直使用 ggplot 和 ggpredict 来绘制实际模型中的项但我一直无法找到一种方法来绘制平均模型的结果显然我可以手
iPhone：如何删除/清除蓝牙 4.0 数据

我有一些大麻烦 https stackoverflow com questions 11557500 corebluetooth central manager callback diddiscoverperipheral twice co
发生错误时如何停止powershell脚本？

我有一个主 powershell 脚本它执行多个在虚拟机上安装应用程序的脚本我正在尝试在主脚本上实现错误控制意思是如果安装应用程序的脚本之一失败则不会执行其余脚本这是我的主要脚本 try powershell exe Exec
gets() 和 put() 未在 dev C++ 范围内声明

这是我的书店的简单代码代码没有任何问题我正在使用 DevC 运行代码编译后给出一个错误指出 gets 未在此范围内声明并且 put 也出现相同的错误请帮我 include
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx

无法在 CUDA 中执行设备内核

无法在 CUDA 中执行设备内核 的相关文章

随机推荐

热门标签

无法在 CUDA 中执行设备内核的相关文章