cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

2024-04-10

我试图找出原因cudaMemcpyToSymbol不适合我。（但cudaMemcpy does.)

// symbols:
__constant__ float flt[480];   // 1920 bytes
__constant__ int   ints[160];  // 640 bytes

// func code follows:
float* pFlts;
cudaMalloc((void**)&pFlts, 1920+640);  // chunk of gpu mem  (floats & ints)

// This does NOT work properly:
cudaMemcpyToSymbol(flt,pFlts,1920,0,cudaMemcpyDeviceToDevice);  // first copy
cudaMemcpyToSymbol(ints,pFlts,640,1920,cudaMemcpyDeviceToDevice);  // second copy

第二个副本正在丢弃第一个副本 (flt) 的内容，而第二个副本不会发生。（如果我删除第二个副本，第一个副本就可以正常工作。）

Results:

GpuDumpFloatMemory<<<1,1>>>(0x500500000, 13, 320)  TotThrds=1   ** Source of 1st copy
  0x500500500: float[320]= 1.000
  0x500500504: float[321]= 0.866
  0x500500508: float[322]= 0.500
  0x50050050c: float[323]= -0.000
  0x500500510: float[324]= -0.500
  0x500500514: float[325]= -0.866
  0x500500518: float[326]= -1.000
  0x50050051c: float[327]= -0.866
  0x500500520: float[328]= -0.500
  0x500500524: float[329]= 0.000
  0x500500528: float[330]= 0.500
  0x50050052c: float[331]= 0.866
  0x500500530: float[332]= 1.000
  GpuDumpFloatMemory<<<1,1>>>(0x500100a98, 13, 320)  TotThrds=1     ** Dest of 1st copy
  0x500100f98: float[320]= 0.000
  0x500100f9c: float[321]= 0.500
  0x500100fa0: float[322]= 0.866
  0x500100fa4: float[323]= 1.000
  0x500100fa8: float[324]= 0.866
  0x500100fac: float[325]= 0.500
  0x500100fb0: float[326]= -0.000
  0x500100fb4: float[327]= -0.500
  0x500100fb8: float[328]= -0.866
  0x500100fbc: float[329]= -1.000
  0x500100fc0: float[330]= -0.866
  0x500100fc4: float[331]= -0.500
  0x500100fc8: float[332]= 0.000
  GpuDumpIntMemory<<<1,1>>>(0x500500780, 13, 0)  TotThrds=1      ** Source of 2nd copy
  0x500500780: int[0]= 1
  0x500500784: int[1]= 1
  0x500500788: int[2]= 1
  0x50050078c: int[3]= 1
  0x500500790: int[4]= 1
  0x500500794: int[5]= 1
  0x500500798: int[6]= 1
  0x50050079c: int[7]= 1
  0x5005007a0: int[8]= 1
  0x5005007a4: int[9]= 1
  0x5005007a8: int[10]= 1
  0x5005007ac: int[11]= 1
  0x5005007b0: int[12]= 0
  GpuDumpIntMemory<<<1,1>>>(0x500100818, 13, 0)  TotThrds=1      ** Dest of 2nd copy
  0x500100818: int[0]= 0
  0x50010081c: int[1]= 0
  0x500100820: int[2]= 0
  0x500100824: int[3]= 0
  0x500100828: int[4]= 0
  0x50010082c: int[5]= 0
  0x500100830: int[6]= 0
  0x500100834: int[7]= 0
  0x500100838: int[8]= 0
  0x50010083c: int[9]= 0
  0x500100840: int[10]= 0
  0x500100844: int[11]= 0
  0x500100848: int[12]= 0

以下工作正常：

cudaMemcpyToSymbol(flt,pFlts,1920,0,cudaMemcpyDeviceToDevice);  // first copy
int* pTemp;
cudaGetSymbolAddress((void**) &pTemp, ints);
cudaMemcpy(ints,pFlts+480,640,cudaMemcpyDeviceToDevice);  // second copy

Results:

  GpuDumpFloatMemory<<<1,1>>>(0x500500000, 13, 320)  TotThrds=1   ** Source of first copy
  0x500500500: float[320]= 1.000
  0x500500504: float[321]= 0.866
  0x500500508: float[322]= 0.500
  0x50050050c: float[323]= -0.000
  0x500500510: float[324]= -0.500
  0x500500514: float[325]= -0.866
  0x500500518: float[326]= -1.000
  0x50050051c: float[327]= -0.866
  0x500500520: float[328]= -0.500
  0x500500524: float[329]= 0.000
  0x500500528: float[330]= 0.500
  0x50050052c: float[331]= 0.866
  0x500500530: float[332]= 1.000
  GpuDumpFloatMemory<<<1,1>>>(0x500100a98, 13, 320)  TotThrds=1    ** Dest of first copy
  0x500100f98: float[320]= 1.000
  0x500100f9c: float[321]= 0.866
  0x500100fa0: float[322]= 0.500
  0x500100fa4: float[323]= -0.000
  0x500100fa8: float[324]= -0.500
  0x500100fac: float[325]= -0.866
  0x500100fb0: float[326]= -1.000
  0x500100fb4: float[327]= -0.866
  0x500100fb8: float[328]= -0.500
  0x500100fbc: float[329]= 0.000
  0x500100fc0: float[330]= 0.500
  0x500100fc4: float[331]= 0.866
  0x500100fc8: float[332]= 1.000
  GpuDumpIntMemory<<<1,1>>>(0x500500780, 13, 0)  TotThrds=1    ** Source of 2nd copy
  0x500500780: int[0]= 1
  0x500500784: int[1]= 1
  0x500500788: int[2]= 1
  0x50050078c: int[3]= 1
  0x500500790: int[4]= 1
  0x500500794: int[5]= 1
  0x500500798: int[6]= 1
  0x50050079c: int[7]= 1
  0x5005007a0: int[8]= 1
  0x5005007a4: int[9]= 1
  0x5005007a8: int[10]= 1
  0x5005007ac: int[11]= 1
  0x5005007b0: int[12]= 0
  GpuDumpIntMemory<<<1,1>>>(0x500100818, 13, 0)  TotThrds=1    ** Destination of 2nd copy
  0x500100818: int[0]= 1
  0x50010081c: int[1]= 1
  0x500100820: int[2]= 1
  0x500100824: int[3]= 1
  0x500100828: int[4]= 1
  0x50010082c: int[5]= 1
  0x500100830: int[6]= 1
  0x500100834: int[7]= 1
  0x500100838: int[8]= 1
  0x50010083c: int[9]= 1
  0x500100840: int[10]= 1
  0x500100844: int[11]= 1
  0x500100848: int[12]= 0

当我查看坏情况时，符号表似乎发生了一些事情。如图所示，第一个复制目的地的数据非常熟悉。不像是被覆盖了，只是移动了。就像指针错了一样。

第二个副本对我来说看起来很糟糕。您已经定义了这个数组：

__constant__ int   ints[160];  // 640 bytes

正如正确指出的那样，其长度为 640 字节。

你的第二个副本是这样的：

cudaMemcpyToSymbol(ints,pFlts,640,1920,cudaMemcpyDeviceToDevice);  // second copy

其中表示，“总共复制 640 个字节，从pFlts数组到ints数组，存储位置在ints数组从数组开头的 1920 字节开始。”

这行不通。这ints数组只有 640 字节长。您无法选择 1920 字节的位置作为目的地。

从文档中cudaMemcpyToSymbol http://docs.nvidia.com/cuda/cuda-runtime-api/index.html#group__CUDART__MEMORY_1g2a229a704ade54887f7784e2e2dbd895 :

offset- 距符号开头的偏移量（以字节为单位）

在这种情况下，符号是ints

也许你想要的是：

cudaMemcpyToSymbol(ints,pFlts+480,640,0,cudaMemcpyDeviceToDevice);  // second copy

EDIT:为了回答评论中有关错误检查的问题，我制作了这个简单的测试程序：

#include <stdio.h>

#define cudaCheckErrors(msg) \
    do { \
        cudaError_t __err = cudaGetLastError(); \
        if (__err != cudaSuccess) { \
            fprintf(stderr, "Fatal error: %s (%s at %s:%d)\n", \
                msg, cudaGetErrorString(__err), \
                __FILE__, __LINE__); \
            fprintf(stderr, "*** FAILED - ABORTING\n"); \
            exit(1); \
        } \
    } while (0)

__constant__ int ints[160];

int main(){

  int *d_ints;
  cudaError_t mystatus;

  cudaMalloc((void **)&d_ints, sizeof(int)*160);
  cudaCheckErrors("cudamalloc fail");
  mystatus = cudaMemcpyToSymbol(ints, d_ints, 160*sizeof(int), 1920, cudaMemcpyDeviceToDevice);
  if (mystatus != cudaSuccess) printf("returned value was not cudaSuccess\n");
  cudaCheckErrors("cudamemcpytosymbol fail");

  printf("OK!\n");
  return 0;
}

当我编译并运行它时，我得到以下输出：

returned value was not cudaSuccess
Fatal error: cudamemcpytosymbol fail (invalid argument at t94.cu:26)
*** FAILED - ABORTING

这表明bothcudaMemcpyToSymbol 函数调用的错误返回值and the cudaGetLastError()方法在这种情况下返回错误。如果我在此测试用例中将 1920 参数更改为零，错误就会消失。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

cudaMemcpyToSymbol 与 cudaMemcpy [关闭] 的相关文章

如何在 CUDA 中执行多个矩阵乘法？

我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出我看到有不同的可能性分配不同元素的计算M i 到不同的线程例如我
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do
如何运行和理解CUDA Visual Profiler？

我已经设置了 CUDA 5 0 并且我的 CUDA 项目运行良好但我不知道如何使用 Visual Profiler 分析我的 CUDA 项目如何运行它我还需要安装更多吗又该如何做呢我的电脑使用Window 7 64位 CUDA 5
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
Bank 在字长方面存在冲突

我读过一些关于共享内存的好文章但我对银行冲突有初步疑问据说如果线程 1 和线程 2 从存储体 0 访问字 0 则不存在存储体冲突但如果他们访问不同的单词就会出现银行冲突但我的问题是不同的单词如何可以驻留在一个银行中由于bank
CUDA计算能力2.0。全局内存访问模式

CUDA 计算能力 2 0 Fermi 全局内存访问通过 768 KB L2 缓存进行看起来开发人员不再关心全局内存库但全局内存仍然非常慢因此正确的访问模式很重要现在的重点是尽可能多地使用重用 L2 我的问题是如何我将感谢一
设备内存刷新cuda

我正在运行一个 C 程序其中调用了两次 cuda 主机函数我想清理这两个调用之间的设备内存有没有办法可以刷新 GPU 设备内存我使用的是计算能力为2 0的Tesla M2050 如果你只想将内存归零那么cudaMemset可能是最
如何在CUDA应用程序中正确应用线程同步？

一般来说我在应用程序中偶尔会使用线程同步因为我并不经常需要此功能我并不是真正的高级 C C 程序员但我也不是初学者我开始学习 CUDA C 对当今 GPU 与 CPU 的能力相比感到兴奋我意识到 CUDA 编程主要是关于并行线程
C 中的 CUDA：如何使用 cudaMemcpyAsync 修复错误 11

我目前正在尝试使用 CUDA 运行一个简单的多 GPU 程序它的基本作用是将一个包含一些虚拟数据的大型数组复制到 GPU GPU 进行一些数学计算然后将结果数组复制回来我在 VS2017 的输出中没有收到任何错误但我设置的一些错误消
摆脱异步 cuda 流执行期间的忙等待

我正在寻找一种方法如何摆脱以下代码中主机线程中的忙等待不要复制该代码它仅显示我的问题的想法它有许多基本错误 cudaStream t steams S N for int i 0 i lt S N i cudaStreamCreat
使用 GPU 进行 Matlab 卷积

我用gpuArray尝试了matlab的卷积函数conv2 convn 例如 convn gpuArray rand 100 100 10 single gpuArray rand 5 single 并将其与 cpu 版本 convn ra
使用 cudamalloc()。为什么是双指针？

我目前正在浏览有关的教程示例http code google com p stanford cs193g sp2010 http code google com p stanford cs193g sp2010 学习CUDA 演示的代码 g
对 CUDA 操作进行计时

我需要计算 CUDA 内核执行的时间最佳实践指南说我们可以使用事件或标准计时函数例如clock 在Windows中我的问题是使用这两个函数给出了完全不同的结果事实上与实践中的实际速度相比事件给出的结果似乎是巨大的我实际上需要这
CUDA-Kernel 应该根据块大小动态崩溃

我想做稀疏矩阵密集向量乘法假设用于压缩矩阵中条目的唯一存储格式是压缩行存储 CRS 我的内核如下所示 global void krnlSpMVmul1 float data mat int num nonzeroes unsigned
CUDA 中的 JPEG 库

我正在尝试在 CUDA 中压缩和解压缩图像到目前为止我已经找到了这个库 http sourceforge net projects cuj2k source navbar http sourceforge net projects cuj
将数据从 GPU 复制到 CPU - CUDA

我在将数据从 GPU 复制到 CPU 时遇到问题一开始我在 GPU 空间中创建变量 device float gpu array 在此 GPU 函数中我想将数据从 od fS gi 值 0 43 复制到 gpu array global

随机推荐

为什么我的 C# winforms 应用程序中的第一个 HttpClient.PostAsync 调用非常慢？

我有一个像这样的 httpclient var client new HttpClient 我像这样发布 var result client PostAsync endpointUri requestContent 并得到这样的响应 Htt
IShellLink::SetIconLocation 将我的图标路径转换为 %Program Files% 这是错误的

有谁知道如何纠正这种行为目前当我们的安装程序安装我们的应用程序时它会获得一个IShellLink 然后加载我们的快捷方式图标在开始菜单和桌面中所需的数据然后使用IPersistFile 保存写出快捷方式问题是为图标指定的路径
中缀表示法的有趣行为

有时有人试图躲在电脑屏幕后面试图摆脱女朋友然而我发现Scala有时和我的女孩一模一样这将打印两个列表之间的交集 val boys List Person John Person Kim Person Joe Person Piet
MVVM - 分离视图之间的通信

我试图弄清楚如何执行以下操作我有一个CustomerListViewModel其中包含一个ObservableCollection
在 Swift 中使用 Tab 键选择下一个 NSTextField

在 Swift 中有没有办法通过按键盘上的 Tab 来更改响应者或选择另一个文本字段笔记这是填空式申请我的 VC 创建了一个单词列表 Word 每个单词都有自己的 WordView word wordView WordView 就是
Maven 3.5.2 无法将工件部署到 Artifactory，并出现错误 417

我正在创建简单的pom项目如下
在故事板中使用 UIPageViewController

有没有一种方法可以在故事板中为 UIPageViewController 配置数据源委托和视图控制器而无需编写代码我确实在 UIPageViewController 中看到了数据源和委托的出口但无法在场景之间建立连接也无法将额外的控
Laravel 5.2：未找到 Imagick 类

我们正在将 PDF 页面转换为多个单个图像我们在stackoverflow中找到了一段代码片段并将其转换为服务类我们安装了 Imagick 它也显示在 phpinfo 中然而在我们的 Laravel 应用程序版本 5 2 中我们
如何设置 intel_idle.max_cstate=0 来禁用 c 状态？

我想在我的计算机上禁用 c 状态我在 BIOS 上禁用了 c state 但没有获得任何结果不过我找到了一个解释大多数较新的 Linux 发行版在配备 Intel 处理器的系统上使用 intel idle 驱动程序可能编译到内
如何从Python列表中的前一个值中减去该值？

我正在尝试获取列表中的值例如 1 2 3 并将它们彼此相减所以它会返回 1 1 因为第一个值是1 2第二个值是2 3 我如何在 python 中实现这一点我努力了 x y for x y in list 但这会出现需要多个值才能解包
带有数组赋值的 JavaScript 意外控制台输出；

在 webkit 浏览器 Chrome 16 0 912 77 和 Safari 5 1 2 7534 52 7 中进行数组分配后我收到意外的控制台输出这是我的函数它演示了该错误 function test var myArray c
即使用户不接受照片，相机意图 onActivityResult 代码也会保存（空白）图像

当用户单击叉号不接受照片时它会以与接受拍摄的照片时相同的方式结束意图它将文件保存到设备库但它是空白的单击叉号不应该意味着 resultCode RESULT OK 吗我还缺少一张支票吗谢谢这是代码等等我正在保存活动结果之前
如何从 zip 中打开 html 文件？

有什么方法可以从包含 html 引用的图像的 zip 文件中打开 html 文件吗我生成带有资源相对路径的 html 但浏览器不会在 zip 文件中找到它们我必须先将其提取从拉链打开它是理想的选择有什么办法可以做到吗据我所知只有
创建 Angular/React 应用程序时的 .Net 本地主机服务器

我正在使用 VS2017 2019 和 NET Core 2 1 来创建Angular or React应用程序 Angular CLI or create react app用于设置一切以下所有内容都与开发阶段有关当我们构建 NET
针对数字板难题的优化 CLP(FD) 求解器

考虑问题从https puzzling stackexchange com questions 20238 explore the square with 100 hops https puzzling stackexchange com
let* 和 set 之间的区别？在 Common Lisp 中

我正在从事一个基因编程爱好项目我有一个函数宏设置当以 setq setf 形式评估时将生成一个如下所示的列表 setq trees make trees 2 gt x abs x 然后它将绑定到 lambda 函数
如何使用 Swift 在 stderr 上打印？

我在 Linux 上使用 Swift 2 2 需要在标准错误流上编写一些调试输出目前我正在执行以下操作 import Foundation public struct StderrOutputStream OutputStreamTyp
在没有窗口的windows桌面上绘制OpenGL

我见过这样的事情我想知道这是否可能假设我运行我的应用程序它会显示其下方的渲染结果所以基本上在没有窗口的情况下在屏幕上渲染可能还是谎言注意想要在 Windows 和 C 中执行此操作可以使用您的应用程序在其他应用程序的窗口上
Perl 函数中的引用返回值是否更好？

与返回数组或哈希的引用相比返回数组或哈希有哪些优缺点对内存或执行时间有影响吗两者在功能上有何区别 sub i return an array my a push things in a return a sub i return a
cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我试图找出

cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

cudaMemcpyToSymbol 与 cudaMemcpy [关闭] 的相关文章

随机推荐

热门标签