与 MATLAB 相比，使用 cuSolver 时 SVD 非常慢

2023-12-24

我正在尝试使用gesvd函数来自cuSOLVER我发现它比svdMATLAB 中的函数，对于这两种情况都使用double数组或gpuArray.

C++ 代码 [使用cuSolver]:

#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
#include <cuda_runtime.h>
#include <cusolverDn.h>
// Macro for timing kernel runs
#define START_METER {\
    cudaEvent_t start, stop;\
    float elapsedTime;\
    cudaEventCreate(&start);\
    cudaEventRecord(start, 0);
#define STOP_METER cudaEventCreate(&stop);\
    cudaEventRecord(stop, 0);\
    cudaEventSynchronize(stop);\
    cudaEventElapsedTime(&elapsedTime, start, stop);\
    printf("Elapsed time : %f ms\n", elapsedTime);\
                }

void cusolverSVD_Test()
{
    const int m = 64;
    const int rows = m;
    const int cols = m;
    /*       | 3.5 0.5 0 |
    *   A = | 0.5 3.5 0 |
    *       | 0   0   2 |
    *
    */
    double A[rows*m];
    for (int i = 0; i < cols; i++)
    {
        for (int j = 0; j < rows; j++)
        {
            A[i*rows + j] = (double)rand() / RAND_MAX;
            if (i == j){
                A[i*rows + j] += 1;
            }
        }
    }

    cusolverDnHandle_t handle;
    cusolverDnCreate(&handle);
    int lwork;

    cusolverDnDgesvd_bufferSize(
        handle,
        rows,
        cols,
        &lwork);

    double *d_A;
    cudaMalloc(&d_A, sizeof(double)*rows*cols);
    cudaMemcpy(d_A, A, sizeof(double)*rows*cols, cudaMemcpyHostToDevice);

    double *d_S;
    cudaMalloc(&d_S, sizeof(double)*rows);

    double *d_U;
    cudaMalloc(&d_U, sizeof(double)*rows*rows);

    double *d_VT;
    cudaMalloc(&d_VT, sizeof(double)*rows*rows);

    double *d_work;
    cudaMalloc(&d_work, sizeof(double)*lwork);

    double *d_rwork;
    cudaMalloc(&d_rwork, sizeof(double)*(rows - 1));

    int *devInfo;
    cudaMalloc(&devInfo, sizeof(int));

    for (int t = 0; t < 10; t++)
    {
        signed char jobu = 'A';
        signed char jobvt = 'A';
        START_METER
            cusolverDnDgesvd(
            handle,
            jobu,
            jobvt,
            rows,
            cols,
            d_A,
            rows,
            d_S,
            d_U,
            rows,
            d_VT,
            rows,
            d_work,
            lwork,
            d_rwork,
            devInfo);
        STOP_METER
    }

    cudaFree(d_A);
    cudaFree(d_rwork);
    cudaFree(d_S);
    cudaFree(d_U);
    cudaFree(d_VT);
    cudaFree(d_work);

}

int main()
{
    cusolverSVD_Test();
}

Output:

Elapsed time : 63.318016 ms
Elapsed time : 66.745316 ms
Elapsed time : 65.966530 ms
Elapsed time : 65.999939 ms
Elapsed time : 64.821053 ms
Elapsed time : 65.184547 ms
Elapsed time : 65.722916 ms
Elapsed time : 60.618786 ms
Elapsed time : 54.937569 ms
Elapsed time : 53.751263 ms
Press any key to continue . . .

**Matlab 代码使用svd功能*：

%% SVD on gpu
A = rand(64, 64) + eye(64);
tic
[~, ~, ~] = svd(A);
t = toc;
fprintf('CPU time: %f ms\n', t*1000);


d_A = gpuArray(A);
tic
[~, ~, ~] = svd(d_A);
t = toc;
fprintf('GPU time: %f ms\n', t*1000);

%% Output
% >> CPU time: 0.947754 ms
% >> GPU time: 2.168100 ms

Matlab 是否使用一些更快的算法？或者我只是犯了一些错误？我真的需要一个好的 SVD 实现/算法，我可以在其中使用CUDA.

更新：使用 1000 x 1000 矩阵时的执行时间

C++:

3655 ms (Double Precision)
2970 ms (Single Precision)

Matlab:

CPU time: 280.641123 ms
GPU time: 646.033498 ms

SVD 算法并行性不佳是一个已知问题。您会发现需要非常大的数组才能看到双精度的好处。您的 GPU 的单精度可能会获得更好的结果。如果您只请求一个输出，您也会获得更好的结果，因为单独计算奇异值使用更快的算法。

这也很大程度上取决于 GPU 的质量。如果您使用的是 GeForce GTX 等显卡，对于 SVD 等算法，双精度 GPU 确实不会带来太多好处。

从根本上来说，GPU 核心的性能比现代 CPU 核心要低得多，它们通过非常广泛的并行性来弥补这一点。 SVD 算法过于依赖串行分解迭代。也许您可以通过重新思考代数来解决您的问题，这样您就不需要每次都计算完整的因式分解。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

与 MATLAB 相比，使用 cuSolver 时 SVD 非常慢的相关文章

我如何才能等待多个事情

我正在使用 C 11 和 stl 线程编写一个线程安全队列 WaitAndPop 方法当前如下所示我希望能够将一些内容传递给 WaitAndPop 来指示调用线程是否已被要求停止如果 WaitAndPop 等待并返回队列的元素则应返回
GLKit的GLKMatrix“列专业”如何？

前提A 当谈论线性存储器中的列主矩阵时列被一个接一个地指定使得存储器中的前 4 个条目对应于矩阵中的第一列另一方面行主矩阵被理解为依次指定行以便内存中的前 4 个条目指定矩阵的第一行 A GLKMatrix4看起来像这样 u
在结构中使用 typedef 枚举并避免类型混合警告

我正在使用 C99 我的编译器是 IAR Embedded workbench 但我认为这个问题对于其他一些编译器也有效我有一个 typedef 枚举其中包含一些项目并且我向该新类型的结构添加了一个元素 typedef enum fo
为什么当实例化新的游戏对象时，它没有向它们添加标签？ [复制]

这个问题在这里已经有答案了 using System Collections using System Collections Generic using UnityEngine public class Test MonoBehaviou
嵌套接口：将 IDictionary> 转换为 IDictionary>？

我认为投射一个相当简单IDictionary
类模板参数推导 - clang 和 gcc 不同

下面的代码使用 gcc 编译但不使用 clang 编译 https godbolt org z ttqGuL template
在 Windows 窗体中保存带有 Alpha 通道的单色位图会保存不同（错误）的颜色

在 C NET 2 0 Windows 窗体 Visual Studio Express 2010 中我保存由相同颜色组成的图像 Bitmap bitmap new Bitmap width height PixelFormat Form
Clang 3.1 + libc++ 编译错误

我已经构建并安装了在前缀下 alt LLVM Clang trunk 2012 年 4 月 23 日在 Ubuntu 12 04 上成功使用 GCC 4 6 然后使用此 Clang 构建的 libc 当我想使用它时我必须同时提供 lc
不同枚举类型的范围和可转换性

在什么条件下可以从一种枚举类型转换为另一种枚举类型让我们考虑以下代码 include
堆栈溢出：堆栈空间中重复的临时分配？

struct MemBlock char mem 1024 MemBlock operator const MemBlock b const return MemBlock global void foo int step 0 if ste
C#中如何移动PictureBox？

我已经使用此代码来移动图片框pictureBox MouseMove event pictureBox Location new System Drawing Point e Location 但是当我尝试执行时图片框闪烁并且无法识别确切
使用 x509 证书签署 json 文档或字符串

如何使用 x509 证书签署 json 文档或字符串 public static void fund string filePath C Users VIKAS Desktop Data xml Read the file XmlDocum
@(t)在Matlab中是什么意思？ [复制]

这个问题在这里已经有答案了正如标题所示考虑到下面的上下文 t 在 Matlab 中到底意味着什么 computeNumericalGradient 是一个函数 cofiCostFunc 也是一个接受一堆参数的函数问题是 t 对 cof
通过指向其基址的指针删除 POD 对象是否安全？

事实上我正在考虑那些微不足道的可破坏物体而不仅仅是POD http en wikipedia org wiki Plain old data structure 我不确定 POD 是否可以有基类当我读到这个解释时is triviall
如何在Xamarin中删除ViewTreeObserver？

假设我需要获取并设置视图的高度在 Android 中众所周知只有在绘制视图之后才能获取视图高度如果您使用 Java 有很多答案最著名的方法之一如下取自这个答案 https stackoverflow com a 24035591
将控制台重定向到 .NET 程序中的字符串

如何重定向写入控制台的任何内容以写入字符串对于您自己的流程 Console SetOut http msdn microsoft com en us library system console setout aspx并将其重定向到构建在
C# 成员变量继承

我对 C 有点陌生但我在编程方面有相当广泛的背景我想做的事情为游戏定义不同的 MapTiles 我已经像这样定义了 MapTile 基类 public class MapTile public Texture2D texture pu
检测数据集中线性行为的算法

我已经发布了一个关于对数据集的一部分进行多项式拟合的算法 https stackoverflow com q 17595932 2320757前一段时间收到一些建议去做我想做的事但我现在面临另一个问题我尝试应用答案中建议的想法我的目标
是否可以在 .NET Core 中将 gRPC 与 HTTP/1.1 结合使用？

我有两个网络服务 gRPC 客户端和 gRPC 服务器服务器是用 NET Core编写的然而客户端是托管在 IIS 8 5 上的 NET Framework 4 7 2 Web 应用程序所以它只支持HTTP 1 1 https le
C# 模拟VolumeMute按下

我得到以下代码来模拟音量静音按键 DllImport coredll dll SetLastError true static extern void keybd event byte bVk byte bScan int dwFlags

随机推荐

在fabricJS 中如何使用transformMatrix 变换点？

我正在尝试放置点通过fabric Circle 在一个角落fabric Polygon 用户可以移动缩放或旋转多边形但是每次修改后我都希望获得多边形的新坐标来将我的圆放置在那里在深入研究这个主题时我发现this http www
ASP .NET MVC 中 web.config 中的 TargetFramework 设置有何含义？

我们的 ASP NET MVC 5 Web 应用程序之一具有以下 web config 设置
如何阅读XMI？

我需要读取序列化为 XMI 的 UML 图是否有任何库可以让我方便地阅读 UML XMI 方便我的意思是有一些方法来迭代模型中的类包方法属性测试等我尝试了 EMF 但找不到任何教程来展示如何导入包含 UML 的 XMI 我也发现了
Android：如何将整个ImageView转换为Bitmap？

我的应用程序显示不同比例的图像并在 centerInside imageView 内调整大小我需要的是从 ImageView 创建位图包括背景在本例中为黑色例如我的设备屏幕为 320x480 全屏 imageView 的图像大小
使用字符串参数调用 Web api

我有一个 Web api 其中有 2 种方法一种没有参数两种具有不同类型的参数字符串和整数调用字符串方法时它不起作用我在这里缺少什么 public class MyControllerController ApiControlle
来自对象库和 DLL 导出的 CMake 共享库

背景我使用 cmake 构建一个开源库 https github com simulton gpds 该项目设置为执行以下操作构建一个cmakeOBJECT图书馆名为gpds objs Build a STATIC图书馆名为gpds s
在 pygame 中渲染文本会导致延迟

I have write我的函数模块中的函数如下所示 def write size writing color x y font pygame font SysFont corbel size text font render writin
MySql 偏移量查询不起作用

我有 MySql Workbench 6 2CE 希望这有帮助我正在尝试像这样的偏移查询 SELECT id FROM nameTable OFFSET 10 ROWS 但它给了我一个关于 10 的语法错误在这个位置不是有效的输入有谁
停止页面加载并在内容脚本中重定向

我正在 Chrome 中制作扩展程序需要停止页面加载不完全加载页面并重定向到 url 如果与 ajax 查询匹配我在用content scripts 并尝试使用 window location replace http facebo
Android Studio 3.1.3 中缺少 LogCat

我最近在我的笔记本电脑上安装了 Android Studio 3 1 3 以便开始学习 android 移动开发我对这一切仍然陌生不过 LogCat 选项似乎丢失了参见下图为了解决这个问题我尝试做的事情卸载并重新安装android
如何将 Django 模型设置为只读？

是否可以将 Django 模型设置为只读无需创建更新等注意这个问题不同于将 Django 模型设置为只读 https stackoverflow com questions 4334049 make a django model
Symfony2/Doctrine2：在侦听器内管理多个实体管理器的问题

我正在按照那个食谱做http docs doctrine project org projects doctrine mongodb odm en latest cookbook blending orm and mongodb odm h
如何修复剥离失败“因为它是在重定位中命名的”

我正在构建一个静态库并试图删除所有非公共例程但出现此错误 strip not stripping symbol g722 state update because it is named in a relocation 我该如何解决这个
WCF - Binding.ReceiveTimeout 和 ReliableSession.InactivityTimeout

我正在尝试创建一个使用客户端回调的 WCF 服务我希望只要有连接互联网网络并且客户端或通道没有明确关闭通道通道就保持打开状态为了保持通道开放即使没有活动我找到了 WCF 支持的可靠会话我发现通过使用可靠会话需要考虑两个计
0x00051526处未处理的异常读取位置0x00000004时访问冲突

class ByteBuffer public ByteBuffer std shared ptr
如何告知 PyCharm 自定义模块的位置？

我在工作中有一个应用程序其结构如下 project root applications app1 init py app2 init py appN pkg database init py toolbox init py init py
IE8：Internet Explorer 无法打开此 Internet 站点。请求的站点不可用或找不到

这应该是IE8下载问题的老问题了我使用 PHP 设置响应头如下所示 header Pragma public header Expires 0 header Content type application octet stream h
如何检查 2 列中的重复项并将整行复制到另一张纸中？

I want to check for the duplicates in columns A F if either of that contains a duplicate I need the macro to copy the en
如何为 Jenkins 多分支管道项目中的作业设置作业属性？

有谁知道在 Jenkinsfile 中设置作业属性特别是构建触发器的正确方法声明式管道脚本在多分支管道作业中为了清楚起见我需要为多分支项目中的基础作业设置特定的构建触发器我可以在 GUI 中配置总体多分支项目的触发器已尝试过
与 MATLAB 相比，使用 cuSolver 时 SVD 非常慢

我正在尝试使用gesvd函数来自cuSOLVER我发现它比svdMATLAB 中的函数对于这两种情况都使用double数组或gpuArray C 代码使用cuSolver include

与 MATLAB 相比，使用 cuSolver 时 SVD 非常慢

与 MATLAB 相比，使用 cuSolver 时 SVD 非常慢 的相关文章

随机推荐

热门标签

与 MATLAB 相比，使用 cuSolver 时 SVD 非常慢的相关文章