Cuda 从设备内存创建 3d 纹理和 cudaArray(3d)

2023-12-09

我正在尝试从设备阵列的一部分创建纹理 3D。

为此，我的步骤如下：

malloc 设备数组
写入设备数组
创建 CudaArray (3D)
将纹理绑定到 CudaArray

我这样做的方式不会产生编译器错误，但是当我运行 cuda-memcheck 时，当我尝试从纹理中获取数据时，它会失败。

Invalid global读取大小 8 ..地址 0x10dfaf3a0 超出范围

这就是为什么我猜测我声明纹理数组是错误的。这是我访问纹理的方法：

tex3D(噪声纹理[i],x,y,z)

我执行上述步骤的方式：

1.Malloc设备数组

cudaMalloc((void **)&d_Noise, sqrSizeNoise*nNoise*sizeof(float));

2.写入设备数组

curandCreateGenerator(&gen,CURAND_RNG_PSEUDO_DEFAULT);
curandSetPseudoRandomGeneratorSeed(gen,Seed);
curandGenerateUniform(gen, d_Noise, sqrSizeNoise*nNoise);
curandDestroyGenerator(gen);

3+4.创建Cuda数组并将其绑定到纹理（我猜错误就在这里）

cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<float>();//cudaCreateChannelDesc(32, 0, 0, 0, cudaChannelFormatKindFloat);
cudaArray *d_cuArr;
cudaMalloc3DArray(&d_cuArr, &channelDesc, make_cudaExtent(SizeNoise,SizeNoise,SizeNoise), 0);
cudaMemcpy3DParms copyParams = {0};

//Loop for every separated Noise Texture (nNoise = 4)
for(int i = 0; i < nNoise; i++){

    //initialize the textures
    NoiseTextures[i] = texture<float, 3, cudaReadModeElementType>(1,cudaFilterModeLinear,cudaAddressModeWrap,channelDesc);

    //Array creation
    //+(sqrSizeNoise*i) is to separate the created Noise Array into smaller parts with the size of SizeNoise^3
    copyParams.srcPtr   = make_cudaPitchedPtr(d_Noise+(sqrSizeNoise*i), SizeNoise*sizeof(float), SizeNoise, SizeNoise);
    copyParams.dstArray = d_cuArr;
    copyParams.extent   = make_cudaExtent(SizeNoise,SizeNoise,SizeNoise);
    copyParams.kind     = cudaMemcpyDeviceToDevice;
    checkCudaErrors(cudaMemcpy3D(&copyParams));
    //Array creation End

    //new Bind
    // set texture parameters
    NoiseTextures[i].normalized = true;                      // access with normalized texture coordinates
    NoiseTextures[i].filterMode = cudaFilterModeLinear;      // linear interpolation
    NoiseTextures[i].addressMode[0] = cudaAddressModeWrap;   // wrap texture coordinates
    NoiseTextures[i].addressMode[1] = cudaAddressModeWrap;
    NoiseTextures[i].addressMode[2] = cudaAddressModeWrap;

    // bind array to 3D texture
    checkCudaErrors(cudaBindTextureToArray(NoiseTextures[i], d_cuArr, channelDesc));
    //end Bind
}
cudaFreeArray(d_cuArr);

我已将此代码片段粘贴到 Pastebin，以便更容易使用颜色等查看。http://pastebin.com/SM3dYd38

我希望我清楚地描述了我的问题。如果没有请评论！

你能帮我解决这个问题吗？谢谢阅读，

Cery

编辑：这是完整的代码，您可以在自己的机器上尝试：

#include <helper_cuda.h>  
#include <helper_functions.h>
#include <helper_cuda_gl.h>
#include <texture_types.h>
#include <cuda_runtime.h>
#include <curand.h>

static texture<float, 3, cudaReadModeElementType> NoiseTextures[4];//texture Array
float *d_NoiseTest;//Device Array with random floats
int SizeNoiseTest = 32;
int sqrSizeNoiseTest = 32768;

void CreateTexture();

__global__ void AccesTexture(texture<float, 3, cudaReadModeElementType>* NoiseTextures)
{
        int test = tex3D(NoiseTextures[0],threadIdx.x,threadIdx.y,threadIdx.z);//by using this the error occurs
}

int
main(int argc, char **argv)
{
        CreateTexture();
}
void CreateTexture()
{
        //curand Random Generator (needs compiler link -lcurand)
        curandGenerator_t gen;
        cudaMalloc((void **)&d_NoiseTest, sqrSizeNoiseTest*4*sizeof(float));//Allocation of device Array
        curandCreateGenerator(&gen,CURAND_RNG_PSEUDO_DEFAULT);
        curandSetPseudoRandomGeneratorSeed(gen,1234ULL);
        curandGenerateUniform(gen, d_NoiseTest, sqrSizeNoiseTest*4);//writing data to d_NoiseTest
        curandDestroyGenerator(gen);

        //cudaArray Descriptor
        cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<float>();
        //cuda Array
        cudaArray *d_cuArr;
        cudaMalloc3DArray(&d_cuArr, &channelDesc, make_cudaExtent(SizeNoiseTest*sizeof(float),SizeNoiseTest,SizeNoiseTest), 0);
        cudaMemcpy3DParms copyParams = {0};

        //Loop for every separated Noise Texture (4 = 4)
        for(int i = 0; i < 4; i++){

                //initialize the textures
                NoiseTextures[i] = texture<float, 3, cudaReadModeElementType>(1,cudaFilterModeLinear,cudaAddressModeWrap,channelDesc);

                //Array creation
                //+(sqrSizeNoise*i) is to separate the created Noise Array into smaller parts with the size of SizeNoise^3
                copyParams.srcPtr   = make_cudaPitchedPtr(d_NoiseTest+(sqrSizeNoiseTest*i), SizeNoiseTest*sizeof(float), SizeNoiseTest, SizeNoiseTest);
                copyParams.dstArray = d_cuArr;
                copyParams.extent   = make_cudaExtent(SizeNoiseTest*sizeof(float),SizeNoiseTest,SizeNoiseTest);
                copyParams.kind     = cudaMemcpyDeviceToDevice;
                checkCudaErrors(cudaMemcpy3D(&copyParams));
                //Array creation End

                //new Bind
                // set texture parameters
                NoiseTextures[i].normalized = true;                      // access with normalized texture coordinates
                NoiseTextures[i].filterMode = cudaFilterModeLinear;      // linear interpolation
                NoiseTextures[i].addressMode[0] = cudaAddressModeWrap;   // wrap texture coordinates
                NoiseTextures[i].addressMode[1] = cudaAddressModeWrap;
                NoiseTextures[i].addressMode[2] = cudaAddressModeWrap;

                // bind array to 3D texture
                checkCudaErrors(cudaBindTextureToArray(NoiseTextures[i], d_cuArr, channelDesc));
                //end Bind
        }
        cudaFreeArray(d_cuArr);

        AccesTexture<<<1,dim3(4,4,4)>>>(NoiseTextures);
}

不过，您需要链接 -lcurand 。并包含 CUDA-6.0/samples/common/inc

我现在在这段代码中遇到了不同的错误

代码=11(cudaErrorInvalidValue)“cudaMemcpy3D(&copyParams)”

即使它与我原来的代码完全相同。 - 我开始完全困惑了。感谢您的帮助

这是一个工作示例，显示了纹理对象数组的创建，大致遵循您提供的代码的路径。你可以看到，通过与我放置的纹理参考代码进行比较here，从第一个纹理对象（即第一个内核调用）读取的第一组纹理与从纹理参考示例读取的一组纹理的数值相同（您可能需要调整两个示例代码的网格大小以匹配）。

纹理对象的使用需要计算能力 3.0 或更高。

example:

$ cat t507.cu
#include <helper_cuda.h>
#include <curand.h>
#define NUM_TEX 4

const int SizeNoiseTest = 32;
const int cubeSizeNoiseTest = SizeNoiseTest*SizeNoiseTest*SizeNoiseTest;
static cudaTextureObject_t texNoise[NUM_TEX];

__global__ void AccesTexture(cudaTextureObject_t my_tex)
{
        float test = tex3D<float>(my_tex,(float)threadIdx.x,(float)threadIdx.y,(float)threadIdx.z);//by using this the error occurs
        printf("thread: %d,%d,%d, value: %f\n", threadIdx.x, threadIdx.y, threadIdx.z, test);
}

void CreateTexture()
{

    float *d_NoiseTest;//Device Array with random floats
    cudaMalloc((void **)&d_NoiseTest, cubeSizeNoiseTest*sizeof(float));//Allocation of device Array
    for (int i = 0; i < NUM_TEX; i++){
        //curand Random Generator (needs compiler link -lcurand)
        curandGenerator_t gen;
        curandCreateGenerator(&gen,CURAND_RNG_PSEUDO_DEFAULT);
        curandSetPseudoRandomGeneratorSeed(gen,1235ULL+i);
        curandGenerateUniform(gen, d_NoiseTest, cubeSizeNoiseTest);//writing data to d_NoiseTest
        curandDestroyGenerator(gen);

        //cudaArray Descriptor
        cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<float>();
        //cuda Array
        cudaArray *d_cuArr;
        checkCudaErrors(cudaMalloc3DArray(&d_cuArr, &channelDesc, make_cudaExtent(SizeNoiseTest*sizeof(float),SizeNoiseTest,SizeNoiseTest), 0));
        cudaMemcpy3DParms copyParams = {0};


        //Array creation
        copyParams.srcPtr   = make_cudaPitchedPtr(d_NoiseTest, SizeNoiseTest*sizeof(float), SizeNoiseTest, SizeNoiseTest);
        copyParams.dstArray = d_cuArr;
        copyParams.extent   = make_cudaExtent(SizeNoiseTest,SizeNoiseTest,SizeNoiseTest);
        copyParams.kind     = cudaMemcpyDeviceToDevice;
        checkCudaErrors(cudaMemcpy3D(&copyParams));
        //Array creation End

        cudaResourceDesc    texRes;
        memset(&texRes, 0, sizeof(cudaResourceDesc));
        texRes.resType = cudaResourceTypeArray;
        texRes.res.array.array  = d_cuArr;
        cudaTextureDesc     texDescr;
        memset(&texDescr, 0, sizeof(cudaTextureDesc));
        texDescr.normalizedCoords = false;
        texDescr.filterMode = cudaFilterModeLinear;
        texDescr.addressMode[0] = cudaAddressModeClamp;   // clamp
        texDescr.addressMode[1] = cudaAddressModeClamp;
        texDescr.addressMode[2] = cudaAddressModeClamp;
        texDescr.readMode = cudaReadModeElementType;
        checkCudaErrors(cudaCreateTextureObject(&texNoise[i], &texRes, &texDescr, NULL));}
}

int main(int argc, char **argv)
{
        CreateTexture();
        AccesTexture<<<1,dim3(2,2,2)>>>(texNoise[0]);
        AccesTexture<<<1,dim3(2,2,2)>>>(texNoise[1]);
        AccesTexture<<<1,dim3(2,2,2)>>>(texNoise[2]);
        checkCudaErrors(cudaPeekAtLastError());
        checkCudaErrors(cudaDeviceSynchronize());
        return 0;
}

编译：

$ nvcc -arch=sm_30 -I/shared/apps/cuda/CUDA-v6.0.37/samples/common/inc -lcurand -o t507 t507.cu

output:

$ cuda-memcheck ./t507
========= CUDA-MEMCHECK
thread: 0,0,0, value: 0.310691
thread: 1,0,0, value: 0.627906
thread: 0,1,0, value: 0.638900
thread: 1,1,0, value: 0.665186
thread: 0,0,1, value: 0.167465
thread: 1,0,1, value: 0.565227
thread: 0,1,1, value: 0.397606
thread: 1,1,1, value: 0.503013
thread: 0,0,0, value: 0.809163
thread: 1,0,0, value: 0.795669
thread: 0,1,0, value: 0.808565
thread: 1,1,0, value: 0.847564
thread: 0,0,1, value: 0.853998
thread: 1,0,1, value: 0.688446
thread: 0,1,1, value: 0.733255
thread: 1,1,1, value: 0.649379
thread: 0,0,0, value: 0.040824
thread: 1,0,0, value: 0.087417
thread: 0,1,0, value: 0.301392
thread: 1,1,0, value: 0.298669
thread: 0,0,1, value: 0.161962
thread: 1,0,1, value: 0.316443
thread: 0,1,1, value: 0.452077
thread: 1,1,1, value: 0.477722
========= ERROR SUMMARY: 0 errors

在本例中，我使用多次调用的相同内核来读取各个纹理对象。应该可以将多个对象传递给同一个内核，但是不建议使用单个对象warp从多个纹理读取（如果可以在代码中避免这种情况）。实际的问题在于四级，我不想深入讨论。最好可以安排代码，以便在任何给定周期上都从同一纹理对象读取扭曲。

请注意，为了简化演示，这CreateTexture()函数会覆盖先前分配的设备指针，例如d_cuArr，在循环处理期间。这不是非法的，也不是功能问题，但它增加了内存泄漏的可能性。

如果这是一个问题，我假设您可以修改代码来处理这些代码的释放。此代码的目的是演示使事情正常运行的方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Cuda 从设备内存创建 3d 纹理和 cudaArray(3d) 的相关文章

如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
确保 StreamReader 不会挂起等待数据

下面的代码读取从 tcp 客户端流读取的所有内容并且在下一次迭代中它将仅位于 Read 上我假设正在等待数据我如何确保它不会在没有任何内容可供读取时返回我是否必须设置低超时并在失败时响应异常或者有更好的办法吗 TcpClient
计算 Richtextbox 中所有单词的最有效方法是什么？

我正在编写一个文本编辑器需要提供实时字数统计现在我正在使用这个扩展方法 public static int WordCount this string s s s TrimEnd if String IsNullOrEmpty s re
在 LINQ 中按 Id 连接多表和分组

我想按categoryId显示列表产品的名称组这是我的代码我想要我的视图显示结果 Desktop PC HP Red PC Dell Yellow PC Asus Red SmartPhone Lumia 720 Blue 我的组模型
当我们想要返回对象的引用时，为什么我们在赋值运算符中返回 *this 而通常（而不是 this）？

我正在学习 C 和指针我以为我理解了指针直到我看到这个一方面 asterix 运算符是解引用的这意味着它返回值所指向的地址中的值而与号运算符则相反它返回值存储的地址记忆现在阅读有关赋值重载的内容它说我们返回 this因
为什么极端下派生类（多重虚拟继承）的大小包括超类成员大小的两倍？

include
java.io.Serialized 在 C/C++ 中的等价物是什么？

C C 的等价物是什么java io Serialized https docs oracle com javase 7 docs api java io Serializable html 有对序列化库的引用用 C 序列化数据结构 ht
使用接口有什么好处？

使用接口有什么用我听说它用来代替多重继承并且还可以用它来完成数据隐藏还有其他优点吗哪些地方使用了接口程序员如何识别需要该接口有什么区别explicit interface implementation and implicit
回发后刷新时提示确认表单重新提交。我做错了什么？

我有一个以空白默认状态启动的仪表板我让用户能够将保存的状态加载到仪表板中当他们单击应用按钮时我运行以下代码 function CloseAndSave var radUpload find radUpload1ID var in
是否有实用的理由使用“if (0 == p)”而不是“if (!p)”？

我倾向于使用逻辑非运算符来编写 if 语句 if p some code 我周围的一些人倾向于使用显式比较因此代码如下所示 if FOO p some code 其中 FOO 是其中之一false FALSE 0 0 0 NULL etc
如何在 32 位或 64 位配置中以编程方式运行任何 CPU .NET 可执行文件？

我有一个可在 32 位和 64 位处理器上运行的 C 应用程序我试图枚举给定系统上所有进程的模块当尝试从 64 位应用程序枚举 32 位进程模块时这会出现问题 Windows 或 NET 禁止它我认为如果我可以从应用程序内部重新启动
使用自定义堆的类似 malloc 的函数

如果我希望使用自定义预分配堆构造类似 malloc 的功能那么 C 中最好的方法是什么我的具体问题是我有一个可映射类似内存的设备已将其放入我的地址空间中但我需要获得一种更灵活的方式来使用该内存来存储将随着时间的推移分配和释放的
“接口”类似于 boost::bind 的语义

我希望能够将 Java 的接口语义与 C 结合起来起初我用过boost signal为给定事件回调显式注册的成员函数这非常有效但后来我发现一些函数回调池是相关的因此将它们抽象出来并立即注册所有实例的相关回调是有意义的但我了解到的
如何设置 log4net 每天将我的文件记录到不同的文件夹中？

我想将每天的所有日志保存在名为 YYYYMMdd 的文件夹中 log4net 应该根据系统日期时间处理创建新文件夹我如何设置它我想将一天中的所有日志保存到 n 个 1MB 的文件中我不想重写旧文件但想真正拥有一天中的所有日志我该如
Cmake 链接共享库：包含库中的头文件时“没有这样的文件或目录”

我正在学习使用 CMake 构建库构建库的代码结构如下 include Test hpp ITest hpp interface src Test cpp ITest cpp 在 CMakeLists txt 中我用来构建库的句子是 f
为什么 gcc 抱怨“错误：模板参数 '0' 的类型 'intT' 取决于模板参数”？

我的编译器是gcc 4 9 0 以下代码无法编译 template
System.IO.FileNotFoundException：找不到网络路径。在 Windows 7 上使用 DirectoryEntry 对象时出现异常

我正在尝试使用 DirectoryEntry 对象连接到远程 Windows 7 计算机这是我的代码 DirectoryEntry obDirEntry new DirectoryEntry WinNT hostName hostName
如何从 ODBC 连接获取可用表的列表？

在 Excel 中我可以转到数据 gt 导入外部数据 gt 导入数据然后选择要使用的数据源然后在提供登录信息后它会给我一个表格列表我想知道如何使用 C 以编程方式获取该列表您正在查询什么类型的数据源 SQL 服务器使用权看
当从finally中抛出异常时，Catch块不会被评估

出现这个问题的原因是之前在 NET 4 0 中运行的代码在 NET 4 5 中因未处理的异常而失败部分原因是 try finallys 如果您想了解详细信息请阅读更多内容微软连接 https connect microsoft com
如何将 PostgreSql 与 EntityFramework 6.0.2 集成？ [复制]

这个问题在这里已经有答案了我收到以下错误实体框架提供程序类型的实例成员 Npgsql NpgsqlServices Npgsql 版本 2 0 14 2 文化中性 PublicKeyToken 5d8b90d52f46fda7 没

随机推荐

Google QUERY 公式包含下拉列表中的“全部”

我有 3 个单独的下拉菜单来在我的 Google 表格中生成以下 QUERY 函数 QUERY HISOP Training A2 D select A B C D where A contains M5 and C contains M6
将字符串变量传递给 MySQL，作为元组失败

使用新购买的 RaspberryPi 我对 Python MySQL 非常陌生所以请原谅我发布的天真问题我已经看过很多关于此问题的问答但我似乎无法理解为什么这会失败我收到错误必须是字符串或只读缓冲区而不是元组如果我用 TY
批处理命令删除文件夹中除一个文件之外的所有内容（子文件夹和文件）

首先过去已经回答过类似的问题但不完全是我的问题在其他一些解决方案中建议隐藏文件夹文件和更改属性但我不希望这样做除非没有更简单的方法可用另外我已经尝试了这里建议的解决方案以及其他几个 MS DOS命令删除除一个之外的所有文
使用 TEXT_DETECTION 来自 Cloud Vision API 的结果区域设置

我在用着npm node cloud vision api API 正确检测文档的语言但结果字符以与区域设置不对应的西方字符子集返回我假设它们应该以 UTF 8 字符返回但所有区域设置特定字符都映射到基本西方字符子集例如 Warto
如何查看 HttpWebRequest 类发送的原始 HTTP 请求？

我知道你们都会回答使用像 Fiddler 这样的调试代理服务器但事情没那么简单这是我的情况我有一些代码在服务器上运行位于 ASP NET 页面代码隐藏 aspx cs 中它除其他外建立了到another服务器抓取一些东西
创建注册表项时出现 UnauthorizedAccessException

我正在研究如何添加shortcut在我的应用程序的 Windows 上下文菜单中我碰到this文章我尝试了一下这是它用来在注册表中创建密钥的代码 private void btnAddMenu Click object sender
Git - 将存储库与签出分支同步的最简单方法

我的工作流程基本上是在我的台式电脑上创建一个存储库对其进行一些工作并提交更改克隆到我的笔记本电脑上致力于此提交更改现在我想将更改与我的桌面同步试git push desktop local my repo会失败因为maste
如何在具有命名空间前缀的 TXMLDocument 上使用 XPath？

我有一个从第三方 Web 服务器收到的 XML 数据包
IIS applicationHost“setEnvironment”属性
PHP 刷新所有级别的输出缓冲

我正在尝试实现一个简单的 Http Response 类该类实现 Http Streaming 或 Chunked Encoding 为了做到这一点我需要设置output buffering Off在 php ini 中并以一定的时间
即使以管理员身份运行，在 Windows 上运行 Spark 也会出现错误 5（访问被拒绝）

我从 Spark 开始所以不太确定我的问题出在哪里并在这里寻找有用的提示我正在尝试以管理员身份在 Windows 7 计算机上运行 Spark pyspark 但它似乎不起作用我仍然收到 WindowsError 5 见下图我已经
在语义 URL 中使用“/”作为分隔符是否始终需要绝对路径

我们对 mod rewrite 和语义 URL 很陌生尽管研究了 Google 和 SO 但我们仍无法找到这个问题的明确答案当我们在 htaccess 中使用正斜杠作为分隔符时 html 中所有的图像 css 和 js 引用都必须从相对
如何获取数组中VB.net（VS08）项目中的所有表单？

好吧所以我需要一个方法来遍历 Visual Studio 2008 下的 VB net 项目内的所有表单并创建一个表单类型的数组并引用其中的所有表单以便该数组看起来像这样伪代码 FormsArray Form1 Form2 For
类外的成员函数定义

是否可以在类声明之外定义函数或方法例如 class A int foo A foo 10 int A bar return foo 可以在类外部定义但不声明方法类似于在 C 中创建函数原型然后稍后定义它们的方式即 class A in
如何解决 org.xmlpull.v1.XmlPullParserException: 意外类型 (position:END_DOCUMENT null@1:1 in java.io.InputStreamReader@40d310f0)

我使用 jax ws 创建了简单的 Web 服务我需要在android中使用该网络服务当我使用该网络服务时我收到此错误org xmlpull v1 XmlPullParserException unexpected type posi
从C程序执行php脚本并将结果存储到变量中

我想从 C 程序执行 PHP 脚本并将返回内容存储到 C 变量中我尝试了以下操作但它不起作用 C printf calling php function n execl usr bin php q var www html phpinf
为什么使用正则表达式解析 XML 是一个坏主意？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我刚刚回顾了我之前发表的一
QML：如何拒绝放置操作

我有一个DropArea和两个元素我想DropArea拒绝丢弃事件如果DropArea已经有一个元素被删除另一个元素不允许删除除非第一个元素移出 DropArea property bool dropped false onDrop
C++ Qt：从线程重定向 cout 以发出信号

在单个线程中我有这个漂亮的类它将所有 cout 输出重定向到 QTextEdit include
Cuda 从设备内存创建 3d 纹理和 cudaArray(3d)

我正在尝试从设备阵列的一部分创建纹理 3D 为此我的步骤如下 malloc 设备数组写入设备数组创建 CudaArray 3D 将纹理绑定到 CudaArray 我这样做的方式不会产生编译器错误但是当我运行 cuda memchec

Cuda 从设备内存创建 3d 纹理和 cudaArray(3d)

Cuda 从设备内存创建 3d 纹理和 cudaArray(3d) 的相关文章

随机推荐

热门标签