将 cuBLAS 与 Thrust 的复数结合使用

2024-01-07

在我的代码中，我使用推力库中的复数数组，我想使用 cublasZgeam() 来转置数组。

使用 cuComplex.h 中的复数并不是一个更好的选择，因为我对数组进行了大量算术运算，并且 cuComplex 没有定义的运算符，例如 * +=。

这就是我定义要转置的数组的方式

thrust::complex<float> u[xmax][xmax];

我找到了这个https://github.com/jtravs/cuda_complex https://github.com/jtravs/cuda_complex，但这样使用它：

#include "cuComplex.hpp"

使用 nvcc 编译时不允许我使用提到的运算符

error: no operator "+=" matches these operands
        operand types are: cuComplex += cuComplex

有什么解决办法吗？ github 上的代码很旧，可能存在问题，或者可能是我使用错误

编辑：这是有效的代码，与talonmies代码的唯一区别是添加简单的内核和指向相同数据的指针，但推力::复杂

#include <iostream>
#include <thrust/fill.h>
#include <thrust/complex.h>
#include <cublas_v2.h>

using namespace std;

__global__ void test(thrust::complex<double>* u) {

  u[0] += thrust::complex<double>(3.3,3.3);
}

int main()
{
  int xmax = 100;
  thrust::complex<double>  u[xmax][xmax];
  double arrSize = sizeof(thrust::complex<double>) * xmax * xmax;

  thrust::fill(&u[0][0], &u[0][0] + (xmax * xmax), thrust::complex<double>(1.0,1.0));
  u[49][51] += thrust::complex<double>(665.0,665.0);
  u[51][49] *= 2.0;

  cout << "Before:" << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;
  cout << u[0][0] << endl;

  thrust::complex<double> alpha(1.0, 0.0);
  thrust::complex<double> beta(0.0, 0.0);
  cublasHandle_t handle;
  cublasCreate(&handle);

  cuDoubleComplex* d_u;
  cuDoubleComplex* d_v;
  cuDoubleComplex* _alpha = reinterpret_cast<cuDoubleComplex*>(&alpha);
  cuDoubleComplex* _beta = reinterpret_cast<cuDoubleComplex*>(&beta);
  cudaMalloc(&d_u, arrSize);
  cudaMalloc(&d_v, arrSize);
  cudaMemcpy(d_u, &u[0][0], arrSize, cudaMemcpyHostToDevice);
  thrust::complex<double>* d_vTest = reinterpret_cast<thrust::complex<double>* >(d_v);
  cublasZgeam(handle, CUBLAS_OP_T, CUBLAS_OP_N, xmax, xmax,
                  _alpha, d_u, xmax,
                  _beta,  d_u, xmax,
                  d_v, xmax);
  test<<<1,1>>>(d_vTest);
  cudaMemcpy(u, d_v, arrSize, cudaMemcpyDeviceToHost);
  cout << "After:" << endl;
  cout << u[0][0] << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;

  return 0;
}

尽管您提出相反的抗议，C++ 标准库complex (or thrust::complex）肯定可以与 CUBLAS 配合使用。这cuComplex and cuDoubleComplex设计为与标准主机复杂类型二进制兼容，以便数据在传递到在设备上使用复杂数据的 CUBLAS 函数时不会被转换。

对您在评论中发布的代码进行简单修改，其效果与您想象的完全一样：

#include <algorithm>
#include <iostream>
#include <complex>
#include <cublas_v2.h>

using namespace std;

int main()
{
  int xmax = 100;
  complex<double>  u[xmax][xmax];
  size_t arrSize = sizeof(complex<double>) * xmax * xmax;

  fill(&u[0][0], &u[0][0] + (xmax * xmax), complex<double>(1.0,1.0));
  u[49][51] += complex<double>(665.0,665.0);
  u[51][49] *= 2.0;

  cout << "Before:" << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;

  complex<double> alpha(1.0, 0.0);
  complex<double> beta(0.0, 0.0);
  cublasHandle_t handle;
  cublasCreate(&handle);

  cuDoubleComplex* d_u;
  cuDoubleComplex* d_v;
  cuDoubleComplex* _alpha = reinterpret_cast<cuDoubleComplex*>(&alpha);
  cuDoubleComplex* _beta = reinterpret_cast<cuDoubleComplex*>(&beta);
  cudaMalloc(&d_u, arrSize);
  cudaMalloc(&d_v, arrSize);
  cudaMemcpy(d_u, &u[0][0], arrSize, cudaMemcpyHostToDevice);
  cublasZgeam(handle, CUBLAS_OP_T, CUBLAS_OP_N, xmax, xmax,
                  _alpha, d_u, xmax,
                  _beta,  d_u, xmax,
                  d_v, xmax);

  cudaMemcpy(u, d_v, arrSize, cudaMemcpyDeviceToHost);
  
  cout << "After:" << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;

  return 0;
}

像这样构建和运行：

~/SO$ nvcc -std=c++11 -arch=sm_52 -o complex_transpose complex_transpose.cu -lcublas
~/SO$ ./complex_transpose 
Before:
(666,666)
(2,2)
After:
(2,2)
(666,666)

唯一需要的修改是显式转换std::complex<double>类型为cuDoubleComplex。这样做，一切都会按预期进行。

使用推力，代码看起来几乎相同：

#include <iostream>
#include <thrust/fill.h>
#include <thrust/complex.h>
#include <cublas_v2.h>

using namespace std;

int main()
{
  int xmax = 100;
  thrust::complex<double>  u[xmax][xmax];
  size_t arrSize = sizeof(thrust::complex<double>) * xmax * xmax;

  thrust::fill(&u[0][0], &u[0][0] + (xmax * xmax), thrust::complex<double>(1.0,1.0));
  u[49][51] += thrust::complex<double>(665.0,665.0);
  u[51][49] *= 2.0;

  cout << "Before:" << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;

  thrust::complex<double> alpha(1.0, 0.0);
  thrust::complex<double> beta(0.0, 0.0);
  cublasHandle_t handle;
  cublasCreate(&handle);

  cuDoubleComplex* d_u;
  cuDoubleComplex* d_v;
  cuDoubleComplex* _alpha = reinterpret_cast<cuDoubleComplex*>(&alpha);
  cuDoubleComplex* _beta = reinterpret_cast<cuDoubleComplex*>(&beta);
  cudaMalloc(&d_u, arrSize);
  cudaMalloc(&d_v, arrSize);
  cudaMemcpy(d_u, &u[0][0], arrSize, cudaMemcpyHostToDevice);
  cublasZgeam(handle, CUBLAS_OP_T, CUBLAS_OP_N, xmax, xmax,
                  _alpha, d_u, xmax,
                  _beta,  d_u, xmax,
                  d_v, xmax);

  cudaMemcpy(u, d_v, arrSize, cudaMemcpyDeviceToHost);
  
  cout << "After:" << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;

  return 0;
}

也许更接近您的用例，使用推力设备容器，内核在 CUBLAS 调用之前执行一些初始化：

#include <iostream>
#include <thrust/device_vector.h>
#include <thrust/complex.h>
#include <thrust/execution_policy.h>
#include <thrust/copy.h>
#include <cublas_v2.h>

__global__ void setup_kernel(thrust::complex<double>* u, int xmax)
{
  u[51 + 49*xmax] += thrust::complex<double>(665.0,665.0);
  u[49 + 51*xmax] *= 2.0;
}

int main()
{
  int xmax = 100;

  thrust::complex<double> alpha(1.0, 0.0);
  thrust::complex<double> beta(0.0, 0.0);
  cublasHandle_t handle;
  cublasCreate(&handle);

  thrust::device_vector<thrust::complex<double>> d_u(xmax * xmax, thrust::complex<double>(1.0,1.0));
  thrust::device_vector<thrust::complex<double>> d_v(xmax * xmax, thrust::complex<double>(0.,0.));
  setup_kernel<<<1,1>>>(thrust::raw_pointer_cast(d_u.data()), xmax);

  cuDoubleComplex* _d_u = reinterpret_cast<cuDoubleComplex*>(thrust::raw_pointer_cast(d_u.data()));
  cuDoubleComplex* _d_v = reinterpret_cast<cuDoubleComplex*>(thrust::raw_pointer_cast(d_v.data()));
  cuDoubleComplex* _alpha = reinterpret_cast<cuDoubleComplex*>(&alpha);
  cuDoubleComplex* _beta = reinterpret_cast<cuDoubleComplex*>(&beta);

  cublasZgeam(handle, CUBLAS_OP_T, CUBLAS_OP_N, xmax, xmax,
                  _alpha, _d_u, xmax,
                  _beta, _d_u, xmax,
                  _d_v, xmax);

  thrust::complex<double>  u[xmax][xmax];

  thrust::copy(d_u.begin(), d_u.end(), &u[0][0]); 
  std::cout << "Before:" << std::endl;
  std::cout << u[49][51] << std::endl;
  std::cout << u[51][49] << std::endl;

  thrust::copy(d_v.begin(), d_v.end(), &u[0][0]); 
  std::cout << "After:" << std::endl;
  std::cout << u[49][51] << std::endl;
  std::cout << u[51][49] << std::endl;

  return 0;

}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

CUDA

Thrust

cublas

将 cuBLAS 与 Thrust 的复数结合使用的相关文章

如何在 .NET Framework 2.0 中模拟“Func<(Of <(TResult>)>) 委托”？

我尝试使用这个类代码项目文章 http www codeproject com KB threads AsyncVar aspx在 VB NET 和 NET Framework 2 0 中除了这一行之外所有内容似乎都可以编译Privat
复制 std::function 的成本有多高？

While std function是可移动的但在某些情况下不可能或不方便复制它会受到重大处罚吗它是否可能取决于捕获变量的大小如果它是使用 lambda 表达式创建的它依赖于实现吗 std function通常被实现为值语义小缓
当我们想要返回对象的引用时，为什么我们在赋值运算符中返回 *this 而通常（而不是 this）？

我正在学习 C 和指针我以为我理解了指针直到我看到这个一方面 asterix 运算符是解引用的这意味着它返回值所指向的地址中的值而与号运算符则相反它返回值存储的地址记忆现在阅读有关赋值重载的内容它说我们返回 this因
java.io.Serialized 在 C/C++ 中的等价物是什么？

C C 的等价物是什么java io Serialized https docs oracle com javase 7 docs api java io Serializable html 有对序列化库的引用用 C 序列化数据结构 ht
使用接口有什么好处？

使用接口有什么用我听说它用来代替多重继承并且还可以用它来完成数据隐藏还有其他优点吗哪些地方使用了接口程序员如何识别需要该接口有什么区别explicit interface implementation and implicit
回发后刷新时提示确认表单重新提交。我做错了什么？

我有一个以空白默认状态启动的仪表板我让用户能够将保存的状态加载到仪表板中当他们单击应用按钮时我运行以下代码 function CloseAndSave var radUpload find radUpload1ID var in
标准化 UTF-8 到底是什么？

The 重症监护室项目 http userguide icu project org transforms normalization 现在也有一个PHP库 http us php net manual en class normalize
具有交替类型的可变参数模板参数包

我想知道是否可以使用参数包捕获交替参数模式例如 template
DbContext 和 ObjectContext 有什么区别

From MSDN 表示工作单元和存储库模式的组合使您能够查询数据库并将更改分组在一起然后将这些更改作为一个单元写回存储 DbContext在概念上类似于ObjectContext 我虽然DbContext只处理与数据库的连接以及针对数
使用自定义堆的类似 malloc 的函数

如果我希望使用自定义预分配堆构造类似 malloc 的功能那么 C 中最好的方法是什么我的具体问题是我有一个可映射类似内存的设备已将其放入我的地址空间中但我需要获得一种更灵活的方式来使用该内存来存储将随着时间的推移分配和释放的
如何禁用 fread() 中的缓冲？

我正在使用 fread 和 fwrite 读取和写入套接字我相信这些函数用于缓冲输入和输出有什么方法可以在仍然使用这些功能的同时禁用缓冲吗 Edit 我正在构建一个远程桌面应用程序远程客户端似乎落后于服务器我不知道可能是什么原因
为什么 std::strstream 被弃用？

我最近发现std strstream已被弃用取而代之的是std stringstream 我已经有一段时间没有使用它了但它做了我当时需要做的事情所以很惊讶听到它的弃用我的问题是为什么做出这个决定有什么好处std stringstr
使用管道时，如果子进程数量大于处理器数量，进程是否会被阻塞？

当子进程数量很大时我的程序停止运行我不知道问题是什么但我猜子进程在运行时以某种方式被阻止下面是该程序的主要工作流程 void function int process num int i initial variables for
动态添加 ASP.Net 控件

我有一个存储过程它根据数据库中存储的记录数返回多行现在我想有一种方法来创建 div 带有包含该行值的控件的标记如果从数据库返回 10 行则 10 div 必须创建标签我有下面的代码来从数据库中获取结果但我不知道如何从这里继续 S
为什么 gcc 抱怨“错误：模板参数 '0' 的类型 'intT' 取决于模板参数”？

我的编译器是gcc 4 9 0 以下代码无法编译 template
使用 %d 打印 unsigned long long

为什么我打印以下内容时得到 1 unsigned long long int largestIntegerInC 18446744073709551615LL printf largestIntegerInC d n largestInte
使用 C# 读取 Soap 消息
如何部署“SQL Server Express + EF”应用程序

这是我第一次部署使用 SQL Server Express 数据库的应用程序我首先使用实体框架模型来联系数据库我使用 Install Shield 创建了一个安装向导来安装应用程序这些是我在目标计算机中安装应用程序所执行的步骤安装
我的班级应该订阅自己的公共活动吗？

我正在使用 C 3 0 遵循标准事件模式我有 public event EventHandler
Oracle Data Provider for .NET 不支持 Oracle 19.0.48.0.0

我们刚刚升级到 Oracle 19c 19 3 0 所有应用程序都停止工作并出现以下错误消息 Oracle Data Provider for NET 不支持 Oracle 19 0 48 0 0 我将 Oracle ManagedData

随机推荐

如何偏移行高基线？

这是很常见的问题font face e g font 20px 20px ITC Avant Garde Gothic Std font style book letter spacing 1px text transform upperc
如何编辑 wp_head() 来覆盖 WordPress 中的默认字体？

我正在使用 font face 更改默认字体但导航菜单字体没有改变它不会覆盖默认字体如果我删除 wp head 它工作正常但我需要 wp head 只有默认字体必须从 wp head 中删除吗 font face font fami
如何通过 IdentityServer4 将 OpenId Connect 添加到 ASP.NET Core 服务器端 Blazor Web 应用程序？

我执行了以下操作它应该有效但没有没有重定向没有错误什么也没有它只是显示未经身份验证的页面我做错了什么 ASP NET Core 3 1 Blazor Step 1 安装包 Microsoft AspNetCore Authen
我们应该将格式字符串存储在资源中吗？

对于我当前正在进行的项目我必须将特殊格式的字符串传递给第三方服务进行处理所以我像这样构建字符串 string someString string Format 0 1 2 Some message Some percentage 3 t
ASP MVC 尝试从字符串模型加载布局

我正在尝试加载一个简单的视图 model string ViewBag Title TestPage Layout Views Shared Model cshtml h2 Page Import h2 正如您可能看到的我正在尝试从控制器
查找从服务器接收的数据的文件类型

我正在通过 TCP IP 从套接字接收文本文件由于数据以字节形式接收因此没有文件扩展名或文件名我可以从中获取数据以 NSData 的形式并将其加载到 UITextView 中并正常显示我想将这些数据保存到文件中但是我不知道
将 JSON 数据加载到 ExtJS 数据存储中时遇到问题

关于如何配置 ExtJS 数据存储来读取传入的 JSON 数据我已经尝试了所有我能想到的组合我在以下位置获取 JSON 数据 data type attribute1 value1 attribute2 value2 attribute
自定义排序（三个字段上的 IComparer）

我有一个包含三个字段的人员类标题姓名性别我想为其创建一个自定义排序首先按标题然后按姓名然后按性别升序对其进行排序 public class SortPerson IComparer public int Compare obj
获取字体缩放因子以计算字体大小

这个问题与Android应用程序如何读取设置下的字体大小 https stackoverflow com q 12987958 995926我读过的答案通用软件 https stackoverflow com a 12987970 9
有没有办法反转 ActiveRecord::Relation 查询？

假设我们有以下内容 irb gt Post where hidden gt true to sql gt SELECT posts FROM posts WHERE posts hidden 1 我们能以某种方式从中得到一个反向 SQL 查
变量在 C# 版本 x64 中不递增

有人可以向我解释为什么这段代码在 x86 平台上执行时运行良好而在 x64 平台上执行时失败吗结果 x86 调试 12345678910 x64 调试 12345678910 x86 版本 12345678910 x64 版本 1111
如何将数据发送到正在运行的 python 线程？

我有一个类在我的应用程序中的单独线程中运行我可以同时运行多个线程并且这些线程是守护进程经过一段时间后 some这些线程需要接收并处理消息我该怎么做呢我的代码示例如下所示 import threading import time c
如何使用 Requirejs 在模块构建中使用 Web Workers？

我有一个使用 Requirejs 和 Backbonejs 编写的运行良好的应用程序但有时它确实很慢例如当需要进行一些算术工作时我尝试使用 Web Worker 来完成这样的算术工作我的模块 traffic js define j
为什么使用 START_STICKY 重新启动 Android 服务如此缓慢？

我有一个后台服务我正在这个服务上进行所有操作该服务有时会与活动配合使用但如果应用程序关闭服务将重新启动START STICKY 它工作正常但有时需要很长时间才能重新启动例如一分多钟 Override public void on
Angular.js 以编程方式将表单字段设置为脏

我正在以编程方式更新表单上的一些字段的值我想将字段状态设置为 dirty 做类似的事情 scope myForm username dirty true 似乎不起作用有一个方法 setPristine我可以用它来重置字段的状态但没有
React Router 4 正则表达式路径 - 匹配找不到参数

我正在尝试为 React Router 4 进行正则表达式模式匹配但不幸的是this props match params id未正确解析路径并显示为未定义我希望能够访问的路径示例 gps gps air gps a0b6dc45 1
选择 jQuery 中每个可见的最后一个子项

我想得到最后一个visible td每一个tr在一个表中这不起作用因为它尝试选择最后一个孩子if可见 var last visible cells table find tr td visible last child 到目前为止我想
从网站启动 Chrome 打包的 Web 应用程序

我有一个 Chrome 打包的 Web 应用程序这是必需的因为它需要访问串行端口并且当我单击该应用程序上的链接按钮时我希望能够从我的网站启动它带有一些数据网站如果它能够检测用户是否没有运行 chrome 或者没有安装网络应用
多线程控制台应用程序何时退出？

class Program public static void Main String args var c new C var thread new Thread new ThreadStart c F thread Start Con
将 cuBLAS 与 Thrust 的复数结合使用

在我的代码中我使用推力库中的复数数组我想使用 cublasZgeam 来转置数组使用 cuComplex h 中的复数并不是一个更好的选择因为我对数组进行了大量算术运算并且 cuComplex 没有定义的运算符例如这就是我定义

将 cuBLAS 与 Thrust 的复数结合使用

将 cuBLAS 与 Thrust 的复数结合使用 的相关文章

随机推荐

热门标签

将 cuBLAS 与 Thrust 的复数结合使用的相关文章