OpenCL 双精度与 CPU 双精度不同

2024-02-15

我正在 Linux 中使用 GeForce GT 610 卡进行 OpenCL 编程。我的CPU和GPU双精度结果不一致。我可以在这里发布部分代码，但我首先想知道是否有其他人遇到过这个问题。当我运行多次迭代的循环时，GPU 和 CPU 双精度结果之间的差异变得很明显。该代码确实没有什么特别的，但如果有人感兴趣，我可以将其发布在这里。多谢。这是我的代码。请原谅 __ 和错误的格式，因为我是新来的:) 如您所见，我有两个循环，我的 CPU 代码本质上几乎是相同的版本。

#ifdef cl_khr_fp64
#pragma OPENCL EXTENSION cl_khr_fp64 : enable
#elif defined(cl_amd_fp64)
#pragma OPENCL EXTENSION cl_amd_fp64 : enable
#else
#error "Double precision floating point not supported by OpenCL implementation."

#endif

__kernel void simpar(__global double* fp, __global double* fp1,
  __global double* fp3, __global double* fp5,
 __global double* fp6, __global double* fp7,
 __global double* fp8, __global double* fp8Plus,
 __global double* x, __global double* v, __global double* acc,
 __global double* keBuf, __global double* peBuf,
 unsigned int prntstps, unsigned int nprntstps, double dt
 ) {
unsigned int m,i,j,k,l,t;
unsigned int chainlngth=100;
double dxi, twodxi, dxipl1, dximn1, fac, fac1, fac2, fac13, fac23;
double ke,pe,tke,tpe,te,dx;
double hdt, hdt2;
double alpha=0.16;
double beta=0.7;
double cmass;
double peTemp;
nprntstps=1001;
dt=0.01;
prntstps=100;
double alphaby4=beta/4.0;
hdt=0.5*dt;
hdt2=dt*0.5*dt;
double Xlocal,Vlocal,Acclocal;
unsigned int global_id=get_global_id(0);
if (global_id<chainlngth){
Xlocal=x[global_id];
Vlocal=v[global_id];
Acclocal=acc[global_id];
for (m=0;m<nprntstps;m++){

for(l=0;l<prntstps;l++){
               Xlocal =Xlocal+dt *Vlocal+hdt2*Acclocal; 
               x[global_id]=Xlocal;
               barrier(CLK_LOCAL_MEM_FENCE);

              Vlocal =Vlocal+ hdt * Acclocal; 
              barrier(CLK_LOCAL_MEM_FENCE);

            j = global_id - 1;
            k = global_id + 1;
            if (j == -1) {
                    dximn1 = 0.0;
            } else {
                    dximn1 = x[j];
            }
            if (k == chainlngth) {
                    dxipl1 = 0.0;
            } else {
                    dxipl1 = x[k];
            }
            dxi = Xlocal;
            twodxi = 2.0 * dxi;
            fac = dxipl1 + dximn1 - twodxi;
            fac1 = dxipl1 - dxi;
            fac2 = dxi - dximn1;
            fac13 = fac1 * fac1 * fac1;
            fac23 = fac2 * fac2 * fac2;
            Acclocal = alpha * fac + beta * (fac13 - fac23);

            barrier(CLK_GLOBAL_MEM_FENCE);

            Vlocal += hdt * Acclocal;
            v[global_id]=Vlocal;
            acc[global_id]=Acclocal;
            barrier(CLK_GLOBAL_MEM_FENCE);
       }
            barrier(CLK_GLOBAL_MEM_FENCE);

            tke = tpe = te = dx = 0.0;
            ke=0.5*Vlocal*Vlocal;//Vlocal*Vlocal;
           barrier(CLK_GLOBAL_MEM_FENCE);
            fp6[(m*100)+global_id]=ke;
            keBuf[global_id]=ke;
            ke=0.0; 
            barrier(CLK_GLOBAL_MEM_FENCE);


            j = global_id - 1;
            k = global_id + 1;
            if (j == -1) {
                    dximn1 = 0.0;
            } else {
                    dximn1 = x[j];
            }
            if (k == chainlngth) {
                    dxipl1 = 0.0;
            } else {
                    dxipl1 = x[k];
            }
            dxi = Xlocal;
            twodxi = 2.0 * dxi;
            fac = dxipl1 + dximn1 - twodxi;
            fac1 = dxipl1 - dxi;
            fac2 = dxi - dximn1;
            fac13 = fac1 * fac1 * fac1;
            fac23 = fac2 * fac2 * fac2;
            Acclocal = alpha * fac + beta * (fac13 - fac23);

            barrier(CLK_GLOBAL_MEM_FENCE);

            Vlocal += hdt * Acclocal;
            v[global_id]=Vlocal;
            acc[global_id]=Acclocal;
            barrier(CLK_GLOBAL_MEM_FENCE);
       }
            barrier(CLK_GLOBAL_MEM_FENCE);

            tke = tpe = te = dx = 0.0;
            ke=0.5*Vlocal*Vlocal;//Vlocal*Vlocal;
           barrier(CLK_GLOBAL_MEM_FENCE);
            fp6[(m*100)+global_id]=ke;
            keBuf[global_id]=ke;
            ke=0.0; 
            barrier(CLK_GLOBAL_MEM_FENCE);
            j = global_id - 1;
            k = global_id + 1;
            if (j == -1) {
                    dximn1 = 0.0;
            } else {
                    dximn1 = x[j];
            }
            if (k == chainlngth) {
                    dxipl1 = 0.0;
            } else {
                    dxipl1 = x[k];
            }
            dxi = Xlocal;
            twodxi = 2.0 * dxi;
            fac = dxipl1 + dximn1 - twodxi;
            fac1 = dxipl1 - dxi;
            fac2 = dxi - dximn1;
            fac13 = fac1 * fac1 * fac1;
            fac23 = fac2 * fac2 * fac2;
            Acclocal = alpha * fac + beta * (fac13 - fac23);

            barrier(CLK_GLOBAL_MEM_FENCE);

            Vlocal += hdt * Acclocal;
            v[global_id]=Vlocal;
            acc[global_id]=Acclocal;
            barrier(CLK_GLOBAL_MEM_FENCE);
       }
            barrier(CLK_GLOBAL_MEM_FENCE);

            tke = tpe = te = dx = 0.0;
            ke=0.5*Vlocal*Vlocal;//Vlocal*Vlocal;
           barrier(CLK_GLOBAL_MEM_FENCE);
            fp6[(m*100)+global_id]=ke;
            keBuf[global_id]=ke;
            ke=0.0; 
            barrier(CLK_GLOBAL_MEM_FENCE);
     if (global_id ==0){
             for(t=0;t<100;t++)
                  tke+=keBuf[t];
            }

            barrier(CLK_GLOBAL_MEM_FENCE); 
            k = global_id-1;
            if (k == -1) {
                dx = Xlocal;
            }else{
              dx = Xlocal-x[k];
            }

              fac = dx * dx;
              peTemp = alpha * 0.5 * fac + alphaby4 * fac * fac;
              fp8[global_id*m]=peTemp;
              if (global_id == 0)
                    tpe+=peTemp;

              barrier(CLK_GLOBAL_MEM_FENCE);  
              cmass=0.0;  
              dx = -x[100-1];
              fac = dx*dx;

              pe=alpha*0.5*fac+alphaby4*fac*fac;
              if (global_id==0){
              fp8Plus[m]=pe;
              tpe+=peBuf[0];
              fp5[m*2]=i;
              fp5[m*2+1]=cmass;
              te=tke+tpe;
              fp[m*2]=m;
              fp[m*2+1]=te;

             }
   barrier(CLK_GLOBAL_MEM_FENCE);
              //cmass /=100;
             fp1[(m*chainlngth)+global_id]=Xlocal-cmass; 
             // barrier(CLK_GLOBAL_MEM_FENCE);
              fp3[(m*chainlngth)+global_id]=Vlocal;
             // barrier(CLK_GLOBAL_MEM_FENCE);
             fp7[(m*chainlngth)+global_id]=Acclocal;

              barrier(CLK_GLOBAL_MEM_FENCE);
  }
 }

}

实际上，这在某种程度上是预期的行为。

在较旧的 x86 CPU 上，浮点数的长度为 80 位（Intel 的“长双” http://en.wikipedia.org/wiki/Long_double），并且仅在需要时截断为 64 位。当浮点运算的 SIMD 单元/指令到达 x86 CPU 时，浮点双精度默认变为 64 位；但是，80 位仍然是可能的，具体取决于您的编译器设置。关于这一点，有很多值得阅读的内容：维基百科：浮点 http://en.wikipedia.org/wiki/Floating_point.

检查 OpenCL 的编译器设置and浮点“魔术”上的主机代码，以获得更好的结果一致性。计算absolute http://mathworld.wolfram.com/AbsoluteError.html and 相对误差 http://mathworld.wolfram.com/RelativeError.html您的值并检查此误差范围对于您的应用程序是否安全。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

opencl

OpenCL 双精度与 CPU 双精度不同的相关文章

OpenCL 中的最佳本地/全局工作规模

我想知道如何在 OpenCL 中为不同设备选择最佳的本地和全局工作大小 AMD NVIDIA INTEL GPU 有什么通用规则吗我是否应该分析设备的物理构建多处理器数量多处理器中的流处理器数量等这取决于算法实现吗因为我看到一些
在 OpenCL 中，mem_fence() 与 Barrier() 相比有何作用？

Unlike barrier 我想我明白 mem fence 不影响工作组中的所有项目 OpenCL 规范指出第 6 11 10 节对于mem fence 命令加载和存储执行内核的工作项所以它适用于single工作项但同时在第 3
性能：boost.compute vs. opencl C++ 包装器

以下代码分别使用 boost compute 和 opencl C 包装器将两个向量相加结果显示 boost compute 几乎比 opencl c 包装器慢 20 倍我想知道我是否错过了使用 boost compute 或者它确实很
并行化 std::nth_element 和 std::partition

我正在移植使用的 C 代码std nth element and std partition到 OpenCL nth element http www cplusplus com reference algorithm nth elemen
工作组之间的 OpenCL 同步

是否可以同步 OpenCL 工作组例如我有 100 个工作组每个工作组只有一个项目不要问我为什么这是一个例子我需要对每个工作项设置障碍以确保所有工作组都会在这 100 个工作组中的每个工作项达到此障碍点后继续不你不能您可
如何在 OpenCL 中验证波前/扭曲大小？

我使用的是 AMD Radeon HD 7700 GPU 我想使用以下内核来验证波前尺寸是否为 64 kernel void kernel test warpsize global T dataSet uint size size t id
OpenCL 内核是异步执行的吗？

对于 CUDA 我知道它们是在向默认流空流发出启动命令后异步执行的那么在 OpenCL 中又如何呢示例代码如下 cl context context cl device id device id cl int err cl kern
CMake找不到NVIDIA的opencl sdk

我刚刚安装了 NVIDIA CUDA 工具套件用它在 Windows 8 1 上开发 OpenCL 应用程序我遇到了一些问题 1 FinedOpenCl cmake 不起作用因为 Nvidia 工具包未设置 opencl dir cm
GPU 显存带宽理论与实际

作为在 GPU 上运行的算法分析的一部分我觉得我正在达到内存带宽的要求我有几个复杂的内核执行一些复杂的操作稀疏矩阵乘法归约等和一些非常简单的操作当我计算每个内核读取写入的总数据时似乎所有重要的都达到了约 79GB s 的
GPGPU：普通 PC 陷入困境的后果

我在一本书中读到在波前或扭曲中所有线程共享一个公共程序计数器那么它的后果是什么呢为什么这很重要 NVIDIA GPU 一次执行 32 个线程扭曲 AMD GPU 一次执行 64 个线程波前控制逻辑读取和数据路径的共享减少了面
在 OpenCL 内核中动态创建本地数组

我有一个 OpenCL 内核需要将一个数组作为多个数组进行处理其中每个子数组总和都保存在本地缓存数组中例如想象一下捕鸟数组 1 2 3 4 10 30 1 23 每个工作组都有一个数组在示例中我们有 2 个工作组每个工作项处理两
CUDA PTX 代码 %envreg<32> 特殊寄存器

我尝试使用 CUDA 驱动程序 API 运行由 cl 内核生成的 PTX 汇编代码我采取的步骤是这些标准 opencl 程序 1 加载 cl内核 2 JIT编译 3 获取编译好的ptx代码并保存到目前为止一切都很好我注意到 ptx
多个 OpenCl 内核

我只是想问是否有人可以提醒我在相继使用几个简单内核时要注意什么我可以用同样的吗CommandQueue 我可以跑几次吗clCreateProgramWithSource cl program与不同的cl program 我忘记了什么 T
OpenCL：为什么指向指针的指针不能作为参数传递给内核函数？

你好我只是想澄清一下为什么我们不能将 2D 数组指针作为参数传递给内核为什么不允许如果我使用它作为参数会发生什么在内部因为我知道代码会给出一些错误请只做那些需要的因为在 OpenCL 1 x 中设备有一个独立的地址空间在设备
使用 OpenCL 支持构建 OpenCV

在 CMake 中我使用 OpenCL Enable ON 构建了 OpenCV 它自动检测到OPENCL INCLUDE DIR路径但是OPENCL LIBRARY即使单击配置后也是空的为了OPENCL LIBRARY我也没有看到浏览
如何在 pyopencl 中创建可变大小的 __local 内存？

在我的 C OpenCL 代码中我使用clSetKernelArg创建可变尺寸 local我的内核中使用的内存 OpenCL 本身不提供该内存看我的例子 clSetKernelArg clKernel ArgCounter sizeof
OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

我的第一个问题是如何获取 Nvidia GPU 上 OpenCL 内核代码的寄存器使用信息因为 nvcc 编译器给出了相同的使用信息nvcc ptxas options vCUDA 内核代码的标志我还从 AMD GPU for Open
如何在 opencv 3.0 Beta 中从文件读取 UMat？

我想用UMat所以我的代码可以使用 OpenCL OpenCV 3 0 0 Beta 在 GPU 和 CPU 上运行但我找不到将图像文件读入的方法UMat或转换一个Mat to UMat 如何将图像读入UMat 样品用于Mat to UM
OpenCL 内核参数中的 Char***？

我需要通过一个vector
nvidia GPU 上的内核真的有超时吗？

寻找为什么我的内核产生奇怪的错误消息或仅 0 结果的答案我发现了这个answer https stackoverflow com questions 3988645 cl out of resources for 2 millions fl

随机推荐

如何将一些数据从一个控制器传递到另一个对等控制器[重复]

这个问题在这里已经有答案了我有以下两个对等控制器这些没有父级 div div div The value of xxx is xxx div angular module test controller QuestionsStatusC
Postgres：行级安全性不适用于视图

当通过视图访问受行级安全保护的表时该表是通过视图的所有者来访问的这使得 RLS 毫无用处我想要的是让用户的 RLS 与用户 test user 连接这包括表和访问表的视图该策略使用为事务设置的参数我发现当 test user 不
如何将 MySQL 中的列默认值分配给另一列的值？

我想向 MySQL 数据库中的表添加一个新列该新列应该获取同一表中另一列的值这可能吗如果是这样你会怎么做从 MySQL 5 0 2 开始您可以编写链接到TRIGGER http dev mysql com doc refman
在 nuget init.ps1 中，如何检测是作为安装运行还是作为控制台初始化运行

所以init ps1https docs nuget org create creating and publishing a package automatically running powershell scripts during
django 表单未在模板中呈现。输入字段不显示

我无法在模板中看到 django 表单它没有被正确渲染我已经尝试过解决这个问题但表格没有显示在一个新项目中尝试了相同的代码来测试效果很好但在这里不起作用这个 form as p 没有显示任何内容即没有输入字段供我输入详细信息
如何在现有的 Android Studio 项目中添加另一个项目？

我从网上获得了一些图像裁剪演示并且我正在尝试将该 lib 项目导入到我现有的 android studio 项目中我不明白如何在我的项目中导入 lib 项目这是从网上获取的演示看到它突出显示了文件夹名称cropper 这个演示来自网
如何在 React Native 中使用 setNativeProps 的 useRef 钩子？

我正在尝试将 React Native 的类组件转换为涉及的功能组件useRef 以下是类组件 import React Component from react import AppRegistry StyleSheet Text Vie
如何在没有任何透明度/淡入淡出效果的情况下执行kCATransitionPush动画[重复]

这个问题在这里已经有答案了可能的重复 iPhone CATransition 在任何动画的开始和结束处添加淡入淡出 https stackoverflow com questions 2375850 iphone catransition
使用 git lfs 存储的 MP4 文件无法在 Github Pages 中播放

我的存储库中有一个 mp4 文件用 git lfs 存储我希望能够在我的网站上播放当我打开带有 github 页面的网站时视频不可见有什么想法吗原始答案 2019 您可以查看中提出的解决方法git lfs git lfs 问题
如何在 Java 中快速检索目录列表？

假设有一个非常简单的程序列出给定目录的所有子目录听起来很简单吗除了在 Java 中列出所有子目录的唯一方法是使用文件名过滤器 http java sun com javase 6 docs api java io FilenameFi
php-fpm 和 nginx 会话问题

过去一周左右我一直遇到这个问题我一直在开发一个严重依赖会话的 PHP 项目由于某种原因过去几天我们在保存会话方面遇到了麻烦知道为什么吗这是错误 Warning Unknown open tmp sess mmd0ru5pl2h2h
Kendo 数据源参数映射

我是剑道新手我在模型绑定方面遇到问题当我用 firebug 调试时它显示options models 是不明确的因此 parrameterMap 中的 if 条件始终为 false 并且网格不会填充数据但是当我删除 parrame
Scientific Linux 上的 Grail（网络浏览器）安装

我不确定 Grail 浏览器现在是否是一个好的选择但是我想尝试一下因为我在 Firefox Fermi 上运行图形时遇到一些问题接下来是我尝试 grail 0 6 tgz 后获得的结果 python grail py Tracebac
是否有本地 Google App Engine 数据查看器？

我想离线使用谷歌的在线GAE数据查看器是否有一些 python 代码可以显示我所有的本地数据甚至模式是的去http localhost 8000 ah admin http localhost 8000 ah admin 假设您正在使
如何从服务器端 Blazor Net Core 5.0 调用 API 控制器操作？

我创建了一个标准 Blazor 服务器应用程序然后我添加了一个具有读写操作的 API 控制器现在我想从索引页调用一个操作但它不起作用应用程序运行没有错误但没有返回预期的结果状态等待激活方法空结果尚未计算我在控制器操
OpenNLP：类文件版本 55.0 错误，应为 52.0

我在 IntelliJ IDEA 版本 17 0 6 中使用 Open NLP 版本 apache opennlp 2 2 0 库但收到以下消息 java cannot access opennlp tools namefind Name
Castle ActiveRecord：映射到 C# 中的类中的 IUserType

对于我当前的项目我在 C 中使用 Castle 的 ActiveRecord 对于我的一个表我确实需要使用自定义类型类处理愚蠢的时间到时间跨度转换为了保持我的代码干净我喜欢定义派生自的类IUserType在对象映射类内但我找不到
如果 Moshi 中的值不匹配，如何回退到枚举

我有一个枚举类如果值与其中任何一个都不匹配则希望它回退到特定的枚举值我发现了一个关于使用 EnumJsonAdapter 的 Moshi 问题但我没有看到任何可供我使用的公共类我使用的是莫西 1 8 0 关于如何实现此目标的任何想
为什么我的 rdd 中的 println 会打印元素字符串？

当我尝试打印 RDD 的内容时它会打印如下所示的内容如何打印内容谢谢 scala gt lines res15 org apache spark rdd RDD Array String MapPartitionsRDD 3 at f
OpenCL 双精度与 CPU 双精度不同

我正在 Linux 中使用 GeForce GT 610 卡进行 OpenCL 编程我的CPU和GPU双精度结果不一致我可以在这里发布部分代码但我首先想知道是否有其他人遇到过这个问题当我运行多次迭代的循环时 GPU 和 CPU 双精

OpenCL 双精度与 CPU 双精度不同

OpenCL 双精度与 CPU 双精度不同 的相关文章

随机推荐

热门标签

OpenCL 双精度与 CPU 双精度不同的相关文章