CUDA 素数生成器性能低下

2024-01-09

我正在用 CUDA 编写我的第一个程序。它是一个素数生成器。它可以工作，但只比同等的单线程 C++ 代码快 50%。 CPU版本100%使用一个核心。 GPU版本仅使用20%的GPU。 CPU 是 i5 (2310)。 GPU是GF104。

如何提高该算法的性能？

我的完整程序如下。

int* d_C;

using namespace std;

__global__ void primo(int* C, int N, int multi)
{
  int i = blockIdx.x*blockDim.x + threadIdx.x;
  if (i < N) 
  {
    if(i%2==0||i%3==0||i%5==0||i%7==0)
    {
      C[i]=0;           
    }
    else
    {
      C[i]=i+N*multi;
    }
  }
}

int main()
{
  cout<<"Prime numbers \n";
  int N=1000;
  int h_C[1000];
  size_t size=N* sizeof(int);
  cudaMalloc((void**)&d_C, size);

  int threadsPerBlock = 1024;
  int blocksPerGrid = (N + threadsPerBlock - 1) / threadsPerBlock;
  vector<int> lista(100000000);
  int c_z=0;

  for(int i=0;i<100000;i++)
  {
    primo<<<blocksPerGrid, threadsPerBlock>>>(d_C, N,i);    
    cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);         
    for(int c=0;c<N;c++)
    {   
      if(h_C[c]!=0)
      {
        lista[c+N*i-c_z]=h_C[c];
      }
      else
      {
        c_z++;
      }
    }   
  }
  lista.resize(lista.size()-c_z+1);
  return(0);
}

我尝试使用二维数组和for在内核中循环，但无法得到正确的结果。

欢迎来到堆栈溢出。

以下是一些潜在的问题：

N = 1000 太低。既然你有1024threadsPerBlock，您的内核将只运行一个块，这不足以利用 GPU。尝试 N = 1000000，以便您的内核启动接近 1000 个块。
您在 GPU 上所做的工作非常少（每个测试数字 4 次模运算）。因此，在 CPU 上执行这些操作可能比从 GPU（通过 PCIe 总线）复制它们更快。

为了值得使用 GPU 来查找素数，我认为您需要在 GPU 上实现整个算法，而不仅仅是模数运算。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA 素数生成器性能低下的相关文章

在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
通过 cuFFT 进行逆 FFT 缩放

每当我使用 cuFFT 绘制程序获得的值并将结果与 Matlab 的结果进行比较时我都会得到相同形状的图形并且最大值和最小值位于相同的点然而 cuFFT 得到的值比 Matlab 得到的值大得多 Matlab代码是 fs 1000 s
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug
如何运行和理解CUDA Visual Profiler？

我已经设置了 CUDA 5 0 并且我的 CUDA 项目运行良好但我不知道如何使用 Visual Profiler 分析我的 CUDA 项目如何运行它我还需要安装更多吗又该如何做呢我的电脑使用Window 7 64位 CUDA 5
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
CUDA 5.0错误LNK2001：cuda方法无法解析的外部符号

我的链接器有错误 1 gt ManifestResourceCompile 1 gt All outputs are up to date 1 gt kernel cu obj error LNK2001 unresolved extern
CUDA Thrust 的多 GPU 使用

我想使用我的两张显卡通过 CUDA Thrust 进行计算我有两张显卡在单卡上运行对于两张卡都适用即使我在 std vector 中存储两个 device vector 也是如此如果我同时使用两张卡循环中的第一个周期将起作用并且不
CUDA NSight 未随 Windows 8 上的 CUDA 5.0 安装文件一起安装？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案据我所知 Nvidia 网站上没有 Nsight Eclipse 的下载链接它说它将由 CUDA 5 安装本机安装但并没有随CUDA安装一起安装
为什么 cuCtxCreate 返回旧上下文？

我已经安装了 CUDA SDK 4 2 64 CUDA工具包4 2 64 CUDA 驱动程序 4 2 64 我检查了 windows 中的每个 nvcuda dll 所有这些都是 4 2 版本但是当我使用驱动程序 api 创建上下文并使用
使用 cudamalloc()。为什么是双指针？

我目前正在浏览有关的教程示例http code google com p stanford cs193g sp2010 http code google com p stanford cs193g sp2010 学习CUDA 演示的代码 g
在 Cuda 中简单添加两个 int，结果始终相同

我开始了学习Cuda的旅程我正在玩一些 hello world 类型的 cuda 代码但它不起作用我不知道为什么代码非常简单取两个整数并将它们添加到 GPU 上并返回结果但无论我将数字更改为什么我都会得到相同的结果如果数学那
CUDA 和 Eigen 的成员“已声明”错误

我只是 CUDA 和 Nsight 的初学者希望利用出色的 GPU 性能进行线性代数运算例如 CUBLAS 我在以下人员的帮助下编写了很多自定义代码Eigen http eigen tuxfamily org index php tit
如何在没有 nvcc 的情况下在编译时获取 CUDA 工具包版本？

我在 cpp 文件中对 cuSPARSE 库进行了一些调用这些调用在旧工具包中不可用为了支持使用旧工具包的系统我想使用编译器指令编译不同的代码部分特别是我想使用旧工具包的 CSR 格式矩阵和新工具包的 BSR 格式矩阵来求解稀疏三
CUDA-Kernel 应该根据块大小动态崩溃

我想做稀疏矩阵密集向量乘法假设用于压缩矩阵中条目的唯一存储格式是压缩行存储 CRS 我的内核如下所示 global void krnlSpMVmul1 float data mat int num nonzeroes unsigned
CUDA 代码会损坏 GPU 吗？

在测试包含内存错误的 CUDA 时我的屏幕被冻结了重新启动后我无法再检测到显卡我的代码是否有可能物理损坏该卡这发生在 Ubuntu 14 04 下我不知道该卡的型号因为我无法检测到它但我记得它是一张相当新的卡感谢所有的评论我
为什么使用 boost::none 无法通过 nvcc 编译？

我正在尝试编译以下代码 include

随机推荐

html5和xamarin有什么区别？

我是一名 C NET 开发人员我想开发可以在 iPhone Android 和 Windows Phone 上运行的移动应用程序到目前为止我发现www xamarin com提供了一个可以使用C 开发iphone和android的解决
如何禁用复选框抖动

我在 ListTile 中使用 Checkbox 如下所示 ListTile leading Checkbox value isChecked onChanged v setState isChecked isChecked title T
正则表达式查找代码中的空注释

我正在寻找一个正则表达式它只能找到空的java注释如下所示 Eclipse 创建这些时例如生成序列版本 ID 还有另一个thread https stackoverflow com questions 1657066 java reg
angularjs 过滤器不适用于 $http

我是 angular js 的新手但我不知道如何制作 filter xxx 处理通过 http 服务生成的数据在下面的代码中我根本无法让过滤器处理 http 生成的数据当我在输入框中键入内容时它根本不执行任何操作但是如果我在
如何在 PHP 中按日期对文件进行排序

我目前有一个脚本它允许我输出同一目录中的文件列表输出显示名称然后我使用filemtime 函数显示文件修改日期如何对输出进行排序以显示最新修改的文件这就是我现在所拥有的 if handle opendir while false
使用 NextJS 动态添加变量到外部 js 脚本

我里面有这个外部 hotjar 脚本 static js of my nextjs应用 function h o t j a r h hj h hj function h hj q h hj q push arguments h hjSet
端口 443 上出现 SSL 错误，页面未显示并导致错误 404

我最近必须找到一种方法来为我的域名获取 SSL 证书正如您可能知道的那样 Facebook 要求在 10 月 1 日之前提供此证书因此我在我的服务器上签署并安装了startssl 证书现在我的问题是当我尝试访问我的 https 站
将 XML 发送到 Android 中的 Web 服务

我想将其作为 XML 发送到我的 Web 服务我该怎么做呢
动画滚动顶部在 Firefox 中不起作用

这个功能运行良好它将主体滚动到所需容器的偏移量 function scrolear destino var stop destino offset top var delay 1000 body animate scrollTop sto
如何将动画渐变添加到 svg 路径？

我有一个像这样的 heart svg 路径
从 ndb.KeyProperty() 添加、更新、删除 - Google Cloud Datastore NDB

这是我的多对多关系 models class ModelA ndb Model name ndb StringProperty required true model b ndb KeyProperty kind ModelB repeat
无法为数据库添加种子；由于连接被拒绝而无法工作？

当我尝试为我的应用程序播种时出现错误无法建立连接因为目标机器主动拒绝连接连接 2 我相信原因是因为我遇到了 mysql2 的问题所以我将它与 MySQL 5 5 服务器一起卸载然后切换到 sqlite3 我认为 mysql2
列表推导式替代 Python 中的 reduce()

以下 python 教程说列表推导式完全替代 lambda 函数以及函数map filter and reduce http python course eu python3 list compressive php http pytho
如何为 JavaFX 应用程序的窗口设置图标？

我在 Netbeans 上制作了一个 JavaFX 应用程序并放置了用于将图标设置到窗口的代码 primaryStage getIcons add new Image file sicadcam png 当我从 Netbeans 运行该项
通过 Google Drive API 从本地 CSV 文件转换并创建 Google Drive 电子表格

我正在尝试将本地 CSV 文件上传到 Google 云端硬盘并像 Google 电子表格一样显示它但是当我转到 Google 云端硬盘并单击文件链接时我只能下载它而不能将其作为电子表格查看我尝试使用 convert true 但文
自定义 Facebook 之类的链接？

是否可以添加自定义 facebook 之类的图标我希望它成为 ul 我真的不想加载另一个库他们的 SDK 或所有标签有人实现了自定义的按钮吗我不需要他们的按钮提供的计数器等说实话它们很丑在过去的两个小时里我一直在四处寻找但没
如何在 Python 中创建常量？

如何在 Python 中声明常量在 Java 中我们这样做 public static final String CONST NAME Name 在 Python 中不能将变量或值声明为常量 To indicate对于程序员来说变量是
重复排列：避免溢出

背景 Given n球使得 a balls are of colour GREEN b balls are of colour BLUE c balls are of colour RED 当然a b c n 这些球可以排列的排列数量由下式
如果只需要结果的低位部分，可以使用哪种 2 的补码整数运算而无需将输入中的高位清零？

在汇编编程中想要从寄存器的低位计算某些内容是相当常见的但不能保证其他位清零在 C 等高级语言中您只需将输入转换为小尺寸然后让编译器决定是否需要分别将每个输入的高位清零或者是否可以在事实 This is especially co
CUDA 素数生成器性能低下

我正在用 CUDA 编写我的第一个程序它是一个素数生成器它可以工作但只比同等的单线程 C 代码快 50 CPU版本100 使用一个核心 GPU版本仅使用20 的GPU CPU 是 i5 2310 GPU是GF104 如何提高该算法的性

CUDA 素数生成器性能低下

CUDA 素数生成器性能低下 的相关文章

随机推荐

热门标签

CUDA 素数生成器性能低下的相关文章