CUDA 主机和设备使用相同的 constant 内存

2024-01-07

我有使用恒定内存的设备/主机功能。它在设备上运行正常，但在主机上似乎该内存仍未初始化。

#include <iostream>
#include <stdio.h>


const __constant__ double vals[2] = { 0.0, 1000.0 };

__device__ __host__ double f(size_t i)
{
    return vals[i];
}

__global__ void kern()
{
    printf("vals[%d] = %lf\n", threadIdx.x, vals[threadIdx.x]);
}

int main() {
    std::cerr << f(0) << " " << f(1) << std::endl;
    kern<<<1, 2>>>();
    cudaThreadSynchronize();
}

打印此内容（需要 CC 2.0 或更高版本）

0 0
vals[0] = 0.000000
vals[1] = 1000.000000

问题是什么？如何同时初始化设备和主机内存常量？

由于 CygnusX1 误解了我对 MurphEngineer 答案的评论的意思，也许我应该发布我自己的答案。我什么meant是这样的：

__constant__ double dc_vals[2] = { 0.0, 1000.0 };
       const double hc_vals[2] = { 0.0, 1000.0 };

__device__ __host__ double f(size_t i)
{
#ifdef __CUDA_ARCH__
    return dc_vals[i];
#else
    return hc_vals[i];
#endif
}

这与 Cygnus 具有相同的结果，但面对实际代码更灵活：例如，它允许您在常量数组中拥有运行时定义的值，并允许您使用 CUDA API 函数，例如cudaMemcpyToSymbol/cudsaMemcpyFromSymbol on the __constant__ array.

一个更现实的完整例子：

#include <iostream>
#include <stdio.h>

__constant__ double dc_vals[2];
       const double hc_vals[2];

__device__ __host__ double f(size_t i)
{
#ifdef __CUDA_ARCH__
    return dc_vals[i];
#else
    return hc_vals[i];
#endif
}

__global__ void kern()
{
    printf("vals[%d] = %lf\n", threadIdx.x, vals[threadIdx.x]);
}

int main() {
    hc_vals[0] = 0.0;
    hc_vals[1] = 1000.0;

    cudaMemcpyToSymbol(dc_vals, hc_vals, 2 * sizeof(double), 0, cudaMemcpyHostToDevice);

    std::cerr << f(0) << " " << f(1) << std::endl;
    kern<<<1, 2>>>();
    cudaThreadSynchronize();
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA 主机和设备使用相同的 constant 内存的相关文章

无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I
最小化 MC 模拟期间存储的 cuRAND 状态数量

我目前正在 CUDA 中编写蒙特卡罗模拟因此我需要生成lots使用随机数cuRAND图书馆每个线程处理一个巨大的元素floatarray 示例中省略并在每次内核调用时生成 1 或 2 个随机数通常的方法参见下面的示例似乎是为每
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
云或烟雾的粒子系统

我正在尝试使用 OpenGL 和 CUDA 制作一个简单的用于云和烟雾模拟的粒子系统如何使粒子系统中的粒子表现得像真正的云或烟雾在低湍流风中的表现我现在遇到的一些问题是颗粒聚集成一个大球粒子扩散到无限远粒子突然弹射离开我已经完成
OpenCV 2.4.3rc 和 CUDA 4.2：“OpenCV 错误：没有 GPU 支持”

我在这张专辑中上传了几张截图 https i stack imgur com TELST jpg https i stack imgur com TELST jpg 我正在尝试在 Visual Studio 2008 中的 OpenCV 中
NVCC 警告级别

我希望 NVCC 将以下警告视为错误 warning calling a host function foo from a host device function bar NVCC 文档 NVIDIA CUDA 编译器驱动程序 NVCC
CUDA Thrust 库中counting_iterators 的用途和用法

我很难理解counting iterator在 CUDA 的推力库中它的目的是什么以及如何使用它在其他编程语言例如 C 中也可用吗计数迭代器只是一个迭代器它从每次迭代器递增时前进的序列中返回下一个值最简单的例子是这样的 incl
Cuda：最小二乘求解，速度较差

最近我使用Cuda编写了一个名为正交匹配追踪的算法在我丑陋的 Cuda 代码中整个迭代需要 60 秒而 Eigen lib 只需 3 秒在我的代码中矩阵 A 是 640 1024 y 是 640 1 在每一步中我从 A 中
在 CUDA 中的设备内存上分配 2D 数组

如何在 Cuda 中的设备内存中分配和传输往返于主机 2D 数组我找到了解决这个问题的方法我不必展平阵列内置的cudaMallocPitch 函数完成了这项工作我可以使用以下命令将阵列传输到设备或从设备传输阵列cudaMemcpy
在 Cuda 中简单添加两个 int，结果始终相同

我开始了学习Cuda的旅程我正在玩一些 hello world 类型的 cuda 代码但它不起作用我不知道为什么代码非常简单取两个整数并将它们添加到 GPU 上并返回结果但无论我将数字更改为什么我都会得到相同的结果如果数学那
我们如何在每次运行时使用不同的种子在 CUDA C 中生成随机数？

我正在研究一个随机过程我想在每次运行程序时在 CUDA 内核中生成不同的系列随机数这类似于我们在 C 中声明种子时间空接下来是 srand 种子和兰特我可以通过内核将种子从主机传递到设备但是这样做的问题是我必须将整个种子
如何从C++头文件调用CUDA文件？

我知道从 c 文件调用 cu 文件的方法但现在我想从 C 头文件调用 cu 文件有可能做到吗如果是这样我应该如何设置我的项目请帮忙这是一个有效的例子 file1 h int hello file2 h include
CUDA 代码会损坏 GPU 吗？

在测试包含内存错误的 CUDA 时我的屏幕被冻结了重新启动后我无法再检测到显卡我的代码是否有可能物理损坏该卡这发生在 Ubuntu 14 04 下我不知道该卡的型号因为我无法检测到它但我记得它是一张相当新的卡感谢所有的评论我
CUDA 中的 JPEG 库

我正在尝试在 CUDA 中压缩和解压缩图像到目前为止我已经找到了这个库 http sourceforge net projects cuj2k source navbar http sourceforge net projects cuj
将 cuda 数组传递给 Thrust::inclusive_scan

我可以对 cpu 上的数组使用包容性扫描但是否可以对 gpu 上的数组执行此操作注释是我知道有效但我不需要的方式或者是否有其他简单的方法可以对设备内存中的数组执行包含扫描 Code include

随机推荐

“border-style: double”如何分割像素？

浏览器如何决定 3 行每行将获得多少像素以下是我的一些案例希望能帮助您理解 border 1px double black gt 1 0 0 or 0 1 0 or 0 0 1 border 2px double black gt 0
OpenGL ES - 更改纹理中颜色的色调

我正在用 OpenGL ES 为 iPhone 开发一个简单的 2D 游戏我的问题是我想使用不同的色调渲染纹理基本上我想改变我渲染的纹理中颜色的色调仅仅改变 glColor 是不行的因为它还会影响图像中没有颜色的部分有任何想法吗
r - 根据另一列中的匹配复制值

在此数据框中 Item lt c A B A A A A A B Trial lt c Fam Fam Test Test Test Test Test Test Condition lt c apple cherry Trash Tras
循环弹出混乱

有人可以告诉我如何让我的网址正确循环到window open我创建我想知道循环是否是使每个 URL 根据我的旋转的正确答案setInterval 如果是的话我想知道循环是否需要在var rotate for var i 0 i lt u
如何删除未来的子模块，但保留其历史记录（与父历史记录链接）？

假设我有一个项目它具有使用实现的依赖项git submodule 现在我正在进行更改不再需要这种依赖关系我想提交一个更改其工作原理如下如果有人检查此提交或任何后代则该子模块不存在但是如果有人签出较旧的提交或者未与此分支合并
C++11 decltype 可用于从现有函数创建函数指针的 typedef 吗？

Given struct A int foo double a std string b const 我可以像这样创建一个成员函数指针 typedef int A PFN FOO double std string const 很容易除了
访问器和修改器方法 (Python)

我正在尝试找出Python 中的封装我在 shell 中做了一个简单的小测试看看有些东西是如何工作的但它并不像我预期的那样工作我无法让它发挥作用这是我的代码 class Car def init self carMake yrMo
如何更改 createStartScripts 任务中的 unixStartScriptGenerator.template 以便 distTar 使用 build.gradle 中的自定义模板文件？

我需要修改 gradle 生成的启动脚本distTar https docs gradle org current userguide distribution plugin html任务我似乎可以设置unixStartScriptGen
Hazelcast 客户端线程安全吗？

我在中找不到这个docs http hazelcast org docs 3 2 manual html single hazelcast documentation html java client or javadocs http h
带有嵌入变量的现有字符串的 Scala 字符串插值器

我可能缺少 Scala 字符串插值机制的一些基本内容我想做的事 this could come from a config file string here to demo val brown BROWN val cow Moo val
Webkit 滚动条 CSS，始终是角落里的白框

有没有办法避免自定义样式的 webkit 滚动条上出现默认的白框仅当水平和垂直溢出时才会出现白框使用谷歌浏览器编辑我尝试过设置body背景颜色不同仍然只看到一个白色的盒子 Screenshot CSS webkit scrollb
JSON.NET 读取 JObject 时出错

我通过 AJAX 和 Web Api 向我的服务器发送 JSON 对象 var data fdsfsd Kifdsfa fsdfsa fadsf fasdfsd fadsf fasdfsd 2008 5 11 12 13 2009 20 1
无法在 GeoDjango 应用程序中同步数据库

我在设置空间数据库并将其与 GeoDjango 同步时遇到了真正的麻烦我能够根据 geodjango 文档设置空间数据库并创建一个 django 应用程序但是当我运行时 python manage py sqlall world 我明白
如何使用 RSpec 测试 ActionText？

我正在尝试编写一个 RSpec 系统测试其中涉及填写页面上的 ActionText Trix 字段好像ActionText SystemTestHelper按照定义here https github com rails rails bl
C++中“保留状态”是什么意思？

我在 MSDN 页面上阅读了此解释了解 lambda 表达式相对于函子和函数指针的优点保持状态的能力是什么意思它与通过引用或封闭范围内的值捕获某些变量的能力有关吗 http msdn microsoft com en us libr
通过服务更新 wso2 ESB 中的本地条目

有什么方法可以从 esb 服务更新本地条目我必须在全局变量中存储一个令牌并且需要在它过期时更新它我想将其保留在本地条目中看起来我无法从 ESB 服务序列更新它
未使用的 ES6 模块会影响性能吗？

我知道未使用的 Java NET 导入不会影响性能但我也知道的实现require 过去只需在编译时拉取并连接整个所需的模块文件并且import声明是一种演变实际上有什么不同吗在导入列表中忘记一个非常大的未使用的 ES6 模块会影
使用 devise_token_auth 和 active_model_serializers 解决多个用户模型的问题？

多个用户模型 User Admin 和 Master 与 devise token auth 的组合在使用非 User 模型 Admin 和 Master 登录时无法成功设置响应标头 uid token 等然而用户模型是有效的原因看起
Runtime.exec() ：在 Android 中重新启动？

我正在寻找一种可用于重新启动已取得 root 权限的设备的解决方案我知道重新启动设备对于用户来说是非常糟糕的设计如这里所述 https stackoverflow com questions 4030037 how to reboot
CUDA 主机和设备使用相同的 __constant__ 内存

我有使用恒定内存的设备主机功能它在设备上运行正常但在主机上似乎该内存仍未初始化 include

CUDA 主机和设备使用相同的 __constant__ 内存

CUDA 主机和设备使用相同的 __constant__ 内存 的相关文章

随机推荐

热门标签

CUDA 主机和设备使用相同的 constant 内存

CUDA 主机和设备使用相同的 constant 内存的相关文章