仅使用 CUDA 进行奇异值计算

2024-04-24

我正在尝试使用新的cusolverDnSgesvdCUDA 7.0 用于计算奇异值的例程。完整代码如下：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <stdio.h>

#include<iostream>
#include<stdlib.h>
#include<stdio.h>
#include <cusolverDn.h>
#include <cuda_runtime_api.h>

/***********************/
/* CUDA ERROR CHECKING */
/***********************/
void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
   if (code != cudaSuccess)
   {
      fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
      if (abort) { exit(code); }
   }
}
void gpuErrchk(cudaError_t ans) { gpuAssert((ans), __FILE__, __LINE__); }

/********/
/* MAIN */
/********/
int main(){

    int M = 10;
    int N = 10;

    // --- Setting the host matrix
    float *h_A = (float *)malloc(M * N * sizeof(float));
    for(unsigned int i = 0; i < M; i++){
        for(unsigned int j = 0; j < N; j++){
            h_A[j*M + i] = (i + j) * (i + j);
        }
    }

    // --- Setting the device matrix and moving the host matrix to the device
    float *d_A;         gpuErrchk(cudaMalloc(&d_A,      M * N * sizeof(float)));
    gpuErrchk(cudaMemcpy(d_A, h_A, M * N * sizeof(float), cudaMemcpyHostToDevice));

    // --- host side SVD results space
    float *h_U = (float *)malloc(M * M * sizeof(float));
    float *h_V = (float *)malloc(N * N * sizeof(float));
    float *h_S = (float *)malloc(N *     sizeof(float));

    // --- device side SVD workspace and matrices
    int work_size = 0;

    int *devInfo;       gpuErrchk(cudaMalloc(&devInfo,          sizeof(int)));
    float *d_U;         gpuErrchk(cudaMalloc(&d_U,      M * M * sizeof(float)));
    float *d_V;         gpuErrchk(cudaMalloc(&d_V,      N * N * sizeof(float)));
    float *d_S;         gpuErrchk(cudaMalloc(&d_S,      N *     sizeof(float)));

    cusolverStatus_t stat;

    // --- CUDA solver initialization
    cusolverDnHandle_t solver_handle;
    cusolverDnCreate(&solver_handle);

    stat = cusolverDnSgesvd_bufferSize(solver_handle, M, N, &work_size);
    if(stat != CUSOLVER_STATUS_SUCCESS ) std::cout << "Initialization of cuSolver failed. \N";

    float *work;    gpuErrchk(cudaMalloc(&work, work_size * sizeof(float)));
    //float *rwork; gpuErrchk(cudaMalloc(&rwork, work_size * sizeof(float)));

    // --- CUDA SVD execution
    //stat = cusolverDnSgesvd(solver_handle, 'A', 'A', M, N, d_A, M, d_S, d_U, M, d_V, N, work, work_size, NULL, devInfo);
    stat = cusolverDnSgesvd(solver_handle, 'N', 'N', M, N, d_A, M, d_S, d_U, M, d_V, N, work, work_size, NULL, devInfo);
    cudaDeviceSynchronize();

    int devInfo_h = 0;
    gpuErrchk(cudaMemcpy(&devInfo_h, devInfo, sizeof(int), cudaMemcpyDeviceToHost));
    std::cout << "devInfo = " << devInfo_h << "\n";

    switch(stat){
        case CUSOLVER_STATUS_SUCCESS:           std::cout << "SVD computation success\n";                       break;
        case CUSOLVER_STATUS_NOT_INITIALIZED:   std::cout << "Library cuSolver not initialized correctly\n";    break;
        case CUSOLVER_STATUS_INVALID_VALUE:     std::cout << "Invalid parameters passed\n";                     break;
        case CUSOLVER_STATUS_INTERNAL_ERROR:    std::cout << "Internal operation failed\n";                     break;
    }

    if (devInfo_h == 0 && stat == CUSOLVER_STATUS_SUCCESS) std::cout    << "SVD successful\n\n";

    // --- Moving the results from device to host
    gpuErrchk(cudaMemcpy(h_S, d_S, N * sizeof(float), cudaMemcpyDeviceToHost));

    for(int i = 0; i < N; i++) std::cout << "d_S["<<i<<"] = " << h_S[i] << std::endl;

    cusolverDnDestroy(solver_handle);

    return 0;

}

如果我要求计算完整的 SVD（注释行为jobu = 'A' and jobvt = 'A'）一切正常。如果我只要求计算奇异值（与jobu = 'N' and jobvt = 'N'), cusolverDnSgesvd回报

CUSOLVER_STATUS_INVALID_VALUE

请注意，在这种情况下devInfo = 0，所以我无法发现无效参数。

另请注意，文档 PDF 缺少有关rwork参数，以便我将其作为虚拟参数处理。

此时cuSolvergesvd功能仅支持jobu = 'A' and jobvt = 'A'

因此，当您指定其他组合时出现错误是预料之中的。来自文档 http://docs.nvidia.com/cuda/cusolver/index.html#cuds-lt-t-gt-gesvd:

备注2：gesvd仅支持jobu='A'和jobvt='A'并返回矩阵U和VH

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

SVD

cusolver

仅使用 CUDA 进行奇异值计算的相关文章

Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
使用 CUDA 进行逐元素向量乘法

我已经在 CUDA 中构建了一个基本内核来执行逐元素两个复向量的向量向量乘法内核代码插入如下 multiplyElementwise 它工作正常但由于我注意到其他看似简单的操作如缩放向量在 CUBLAS 或 CULA 等库中进行了
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
将 nvidia 运行时添加到 docker 运行时

我正在运行虚拟机GCP配备特斯拉 GPU 并尝试部署一个PyTorch基于应用程序使用 GPU 加速我想让 docker 使用这个 GPU 可以从容器访问它我设法在主机上安装了所有驱动程序并且该应用程序在那里运行良好但是当我尝试在
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
CUDA：获取数组中的最大值及其索引

我有几个块每个块在整数数组的单独部分上执行举个例子块一从 array 0 到 array 9 块二从 array 10 到 array 20 我可以获得每个块的数组最大值的索引的最佳方法是什么示例块一 a 0 到 a 10 具有以下
cudaDeviceScheduleBlockingSync 和 cudaDeviceScheduleYield 之间有什么区别？

正如这里所说如何减少 CUDA 同步延迟延迟 https stackoverflow com questions 11953722 how to reduce cuda synchronize latency delay 等待设备结果有
CUDA Thrust 库中counting_iterators 的用途和用法

我很难理解counting iterator在 CUDA 的推力库中它的目的是什么以及如何使用它在其他编程语言例如 C 中也可用吗计数迭代器只是一个迭代器它从每次迭代器递增时前进的序列中返回下一个值最简单的例子是这样的 incl
使用 cudamalloc()。为什么是双指针？

我目前正在浏览有关的教程示例http code google com p stanford cs193g sp2010 http code google com p stanford cs193g sp2010 学习CUDA 演示的代码 g
使用推力来处理 CUDA 类中的向量？

我对 C 类的推力的适用性有疑问我正在尝试实现一个类对象该对象接收顶点的 x y z 坐标作为 ver1 ver2 和 ver3 然后分配给一个三角形并计算面积和法向量然而我不太明白如何创建一类推力向量这是我从文件中读取的顶点坐
如何在没有 nvcc 的情况下在编译时获取 CUDA 工具包版本？

我在 cpp 文件中对 cuSPARSE 库进行了一些调用这些调用在旧工具包中不可用为了支持使用旧工具包的系统我想使用编译器指令编译不同的代码部分特别是我想使用旧工具包的 CSR 格式矩阵和新工具包的 BSR 格式矩阵来求解稀疏三
完全禁用 NVCC 优化

我正在尝试测量 GPU 上的峰值单精度触发器为此我正在修改 PTX 文件以在寄存器上执行连续的 MAD 指令不幸的是编译器正在删除所有代码因为它实际上没有做任何有用的事情因为我没有执行任何数据的加载存储是否有编译器标志或编译指
了解流式多处理器 (SM) 和流式处理器 (SP)

我正在尝试了解 GPU 的基本架构我已经阅读了很多材料包括这个非常好的答案 https stackoverflow com a 2213744 2386113 但我仍然很困惑无法得到一个好的图片我的理解 GPU 包含两个或多个流式多
如何转储所有 NVCC 预处理器定义？

我想达到同样的效果 gcc dM E lt dev null 如所描述的here https stackoverflow com q 2224334 1593077 但对于 nvcc 也就是说我想转储所有 nvcc 的预处理器定义唉 n

随机推荐

如何在 C# 库中创建全局对象[重复]

这个问题在这里已经有答案了可能的重复使整个应用程序可以访问数据可能在运行时发生变化的最佳方法是什么 https stackoverflow com questions 11781131 best way to make data t
由于 bs4 与 BeautifulSoup 导致的导入错误

我正在尝试使用beautifulsoup兼容的lxml它给了我一个错误 from lxml html soupparser import fromstring Traceback most recent call last File
Flutter 启动画面不适用于 launch_background.xml

我似乎无法显示自己的启动屏幕每次启动应用程序时都会显示默认的空白启动屏幕即使我已在其中设置了所有内容launch background xml和其他文件res 我还设置了所有相关的图标drawable and mipmap 启动背景
将图像保存在 watir-webdriver 中

我需要将图像从 recaptcha 保存到本地主机磁盘我使用 watir webdriver 获取图像 dom 元素但它不支持保存方法如 watir 那样那么如何将图像保存到我的磁盘上呢网页 div style width 300
Webpack 2 的语义 UI 问题

一直在努力使用 Webpack 2 进行语义 ui 设置我遇到了一些与默认语义 ui 主题中的字体相关的错误以及另一个关于image webpack loader ERROR in css loader lessPlugins opti
无论如何，使用javascript（或类似jquery）获取图像文件大小[重复]

这个问题在这里已经有答案了 like img src http www google com intl en ALL images srpr logo1w png 我想要得到 logo1w png 文件大小 7 3kb 如何实施您可以对图
LocationManager requestLocationUpdates minTime OR minDistance

我用的是安卓系统LocationManager及其方法requestLocationUpdates像这样 locationManager requestLocationUpdates LocationManager GPS PROVIDER
Michael Hartl 的 Ruby on Rails 教程。第 9 章测试失败

我是一名正在学习 Michael Hartl Ruby on Rails 教程的新手在第 9 章的测试中有几个失败的项目运行 RSPEC 测试返回 sis macbook pro sample app Lagaspi bundle ex
使用 Visual Studio 测试运行器运行的 xUnit 测试的输出未显示在输出窗口中

我创建了一个新的 NET Core 类库项目名为FooBarBaz 然后我使用包管理器控制台来运行 Install Package xunit xunit Install Package xunit xunit runners visua
将 R 与 Jupyter 笔记本安装结合使用

我已经从官方网站安装了 R 并想从 jupyter notebook 和 jupyterlab 中使用它为此我使用以下命令在 R 中安装了 IRkernal install packages IRkernel 然后当我输入时IRkern
如何检查YML语法是否正确（gitlab.yml）

GitLab 服务器无法启动 https stackoverflow com questions 17690321 bitnami gitlab 5 2 0 gitlab sidekiq not running and could not
每次使用 scikit 运行线性回归时都会得到不同的结果

您好我有一个正在尝试优化的线性回归模型我正在优化指数移动平均线的跨度以及回归中使用的滞后变量的数量然而我不断发现结果和计算的均方误差不断得出不同的最终结果不知道为什么有人可以帮忙启动循环后的流程 1 使用三个变量创建新的数据框
Firebase CommonJS 或 AMD 依赖项可能会导致优化救援

Angular 10 更新后我收到了有关 Firebase 和 CommonJS 或 AMD 依赖项的警告 WARNING in Users knewtone yet projects WorkSpace customers smart
MySQL 5.6 InnoDB 全文搜索

我意识到 MySQL 5 6 仍处于测试阶段但是有人有使用新的 InnoDB FTS 引擎的经验吗它与狮身人面像之类的东西相比如何谢谢贾森从未使用过 Sphinx 但在大约 170k 行的 Innodb 表上尝试过 MySQL 5
有没有办法在 gdb 中设置一个以调用堆栈为条件的断点？

我正在 Linux 上的 gdb 7 1 中调试 C 我有一个函数a 代码中很多地方都会调用它我想在其中设置一个断点但前提是它是从b 有什么办法可以做到吗有没有办法做到这一点只有当b 被叫自c 等等无穷无尽 Update 现在有一个
btk_FaceFinder_putDCR 中存在 FaceDetector 错误

我正在尝试从相机图片中检测人脸但总是会出现以下错误错误返回 0 个面孔因为 btk FaceFinder putDCR 中存在错误 My code FaceDetector fd new FaceDetector bmp getWi
使用 ansible SSH 到远程服务器

我正在使用 ansible 来自动化一些任务其中之一要求我ssh到服务器A 然后从A到B 然后从B到C 我似乎找不到任何方法来做到这一点有什么建议么鉴于您不使用 Paramiko 进行 ssh transport ssh https
Spring OAuth2 中 /check_token 和 user-info-uri 端点有什么区别？

春天暴露 check token终点看这个链接 http projects spring io spring security oauth docs oauth2 html For check token我们需要配置RemoteToken
您可以在 Amazon Athena 中创建视图吗？

是否可以在 Amazon Athena 中创建视图由于外部表本质上是存储在 S3 上的文件中的数据的元数据因此不涉及任何转换因此您无法处理数据不一致问题通常这可能会导致表被定义为包含大量字符串字段您能否在外部表的顶部创建一个包
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include

仅使用 CUDA 进行奇异值计算

仅使用 CUDA 进行奇异值计算 的相关文章

随机推荐

热门标签

仅使用 CUDA 进行奇异值计算的相关文章