如何找到 CUDA 的 epsilon、min 和 max 常量？

2023-12-24

我正在寻找 CUDA 设备的 epsilon（两个数字之间的最小步长）、min（最小量值）和 max（最大量值）的值。

即 FLT_EPSILON (DBL_EPSILON)、FLT_MIN (DBL_MIN) 和 FLT_MAX (DBL_MAX) 中定义的等效项<float.h>在 gcc 编译器中。

某些 CUDA 包含文件中是否有常量？有什么手册解释一下吗？有什么方法可以编写内核来计算它们吗？

提前致谢。

是的，如果您愿意，您当然可以自己计算这些。 Acouple http://en.wikipedia.org/wiki/Machine_epsilon#How_to_determine_machine_epsilon examples http://en.wikipedia.org/wiki/Machine_epsilon#Approximation_using_C维基百科页面上的 C 语言给出了如何计算机器 epsilon 的信息；类似地，您可以通过除/乘以二来找到最小值/最大值，直到低于/溢出。（然后，您应该在最后一个有效值和下一个二分之一之间进行搜索，以找到“真实”最小/最大值，但这为您提供了一个很好的起点）。

不过，如果您的设备的计算能力为 2.0 或更高，那么数学主要是 IEEE 754，有一些小偏差（例如，并非支持所有舍入模式），但这些偏差不足以影响像这样的基本数值常数;所以你会得到 5.96e-08 的单倍和 1.11e-16 的双倍的标准 emac； FLT_MIN/MAX 为 1.175494351e-38/3.402823466e+38，DBL_MIN/MAX 为 2.2250738585072014e-308/1.7976931348623158e+308。

在计算能力 1.3 的计算机上，单精度不支持非规范化数字，因此您的 FLT_MIN 将明显大于 CPU 上的数字。

在计算能力 2.0 机器上进行快速测试，对最小值/最大值进行快速而肮脏的计算：

#include <stdio.h>
#include <stdlib.h>
#include <getopt.h>
#include <cuda.h>
#include <sys/time.h>
#include <math.h>
#include <assert.h>
#include <float.h>

#define CHK_CUDA(e) {if (e != cudaSuccess) {fprintf(stderr,"Error: %s\n", cudaGetErrorString(e)); exit(-1);}}

/* from wikipedia page, for machine epsilon calculation */
/* assumes mantissa in final bits */
__device__ double machine_eps_dbl() {
    typedef union {
        long long i64;
        double d64;
    } dbl_64;

    dbl_64 s;

    s.d64 = 1.;
    s.i64++;
    return (s.d64 - 1.);
}

__device__ float machine_eps_flt() {
    typedef union {
        int i32;
        float f32;
    } flt_32;

    flt_32 s;

    s.f32 = 1.;
    s.i32++;
    return (s.f32 - 1.);
}

#define EPS 0
#define MIN 1
#define MAX 2

__global__ void calc_consts(float *fvals, double *dvals) {

    int i = threadIdx.x + blockIdx.x*blockDim.x;
    if (i==0) {
        fvals[EPS] = machine_eps_flt();
        dvals[EPS]= machine_eps_dbl();

        float xf, oldxf;
        double xd, oldxd; 

        xf = 2.; oldxf = 1.;
        xd = 2.; oldxd = 1.;

        /* double until overflow */
        /* Note that real fmax is somewhere between xf and oldxf */
        while (!isinf(xf))  {
            oldxf *= 2.;
            xf *= 2.;
        }

        while (!isinf(xd))  {
            oldxd *= 2.;
            xd *= 2.;
        }

        dvals[MAX] = oldxd;
        fvals[MAX] = oldxf;

        /* half until overflow */
        /* Note that real fmin is somewhere between xf and oldxf */
        xf = 1.; oldxf = 2.;
        xd = 1.; oldxd = 2.;

        while (xf != 0.)  {
            oldxf /= 2.;
            xf /= 2.;
        }

        while (xd != 0.)  {
            oldxd /= 2.;
            xd /= 2.;
        }

        dvals[MIN] = oldxd;
        fvals[MIN] = oldxf;

    }
    return;
}

int main(int argc, char **argv) {
    float  fvals[3];
    double dvals[3];
    float  *fvals_d;
    double *dvals_d;

    CHK_CUDA( cudaMalloc(&fvals_d, 3*sizeof(float)) );
    CHK_CUDA( cudaMalloc(&dvals_d, 3*sizeof(double)) );

    calc_consts<<<1,32>>>(fvals_d, dvals_d);

    CHK_CUDA( cudaMemcpy(fvals, fvals_d, 3*sizeof(float), cudaMemcpyDeviceToHost) );
    CHK_CUDA( cudaMemcpy(dvals, dvals_d, 3*sizeof(double), cudaMemcpyDeviceToHost) );

    CHK_CUDA( cudaFree(fvals_d) );
    CHK_CUDA( cudaFree(dvals_d) );

    printf("Single machine epsilon:\n");
    printf("CUDA = %g, CPU = %g\n", fvals[EPS], FLT_EPSILON);
    printf("Single min value (CUDA - approx):\n");
    printf("CUDA = %g, CPU = %g\n", fvals[MIN], FLT_MIN);
    printf("Single max value (CUDA - approx):\n");
    printf("CUDA = %g, CPU = %g\n", fvals[MAX], FLT_MAX);

    printf("\nDouble machine epsilon:\n");
    printf("CUDA = %lg, CPU = %lg\n", dvals[EPS], DBL_EPSILON);
    printf("Double min value (CUDA - approx):\n");
    printf("CUDA = %lg, CPU = %lg\n", dvals[MIN], DBL_MIN);
    printf("Double max value (CUDA - approx):\n");
    printf("CUDA = %lg, CPU = %lg\n", dvals[MAX], DBL_MAX);

    return 0;
}

编译/运行显示答案与 CPU 版本一致（最小值除外；FLT_MIN 是否给出了最小正常值而不是在 CPU 上进行了标准化？）

$ nvcc -o foo foo.cu -arch=sm_20
$ ./foo
Single machine epsilon:
CUDA = 1.19209e-07, CPU = 1.19209e-07
Single min value (CUDA - approx):
CUDA = 1.4013e-45, CPU = 1.17549e-38
Single max value (CUDA - approx):
CUDA = 1.70141e+38, CPU = 3.40282e+38

Double machine epsilon:
CUDA = 2.22045e-16, CPU = 2.22045e-16
Double min value (CUDA - approx):
CUDA = 4.94066e-324, CPU = 2.22507e-308
Double max value (CUDA - approx):
CUDA = 8.98847e+307, CPU = 1.79769e+308

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何找到 CUDA 的 epsilon、min 和 max 常量？的相关文章

处理小数字和准确性

我有一个程序可以处理很多非常小的数字接近双极限的下限在我的应用程序执行期间其中一些数字逐渐变小这意味着它们的估计不太准确我目前的解决方案是在进行任何计算之前将它们放大然后再次缩小但这让我思考这样做是否真的获得了更多的
在Python中创建32位浮点wav文件？

我想在 Python 2 x 中创建 32 位浮动 WAV 文件虽然标准 WAV 文件通常使用 int 但许多专业音频应用程序将音频数据处理并保存为 float 标准波形模块无法执行此操作 http bugs python org
如何在类中使用常量类变量声明常量数组？

如何在类中使用常量类变量声明常量数组是否可以我不想要动态数组我的意思是这样的 class test const int size int array size public test size 50 int main test t 5
如何按双精度值对 List 进行排序？

这听起来很简单但其实没那么简单我想根据 T 的一个属性 double 类型来排序 List 如果您在编译前知道属性名称 myList myList OrderBy a gt a propertyName ToList or myLis
IFormatProvider 从双精度数到字符串的科学转换 - 位数

我在从双精度型到字符串型的转换时遇到问题我想转换双精度值 0 0772486324655191 字符串值 0 0772486324655191 如果小数点后的长度大于 16 位我希望这样双精度值 0 0006350024483249
CUDA 代码会损坏 GPU 吗？

在测试包含内存错误的 CUDA 时我的屏幕被冻结了重新启动后我无法再检测到显卡我的代码是否有可能物理损坏该卡这发生在 Ubuntu 14 04 下我不知道该卡的型号因为我无法检测到它但我记得它是一张相当新的卡感谢所有的评论我
Kotlin 中 Float 和 Double 类型的最小值和最大值

找出确切的内容很简单min and max值Int and LongKotlin 中的整数有符号 32 位整数 Int MIN VALUE 2147483648 Int MAX VALUE 2147483647 有符号 64 位整数 Lo
Tensorflow新Op CUDA内核内存管理

我已经使用 GPU CUDA 内核在 Tensorflow 中实现了一个相当复杂的新 Op 该操作需要大量动态内存分配这些变量不是张量并且在操作完成后被释放更具体地说它涉及使用哈希表现在我正在使用cudaMalloc and cu
OpenMP 与浮点范围并行

我有以下程序 int main double sum 0 pragma omp parallel for reduction sum for double x 0 x lt 10 x 0 1 sum x x 当我编译它时我收到错误inva
为什么使用 boost::none 无法通过 nvcc 编译？

我正在尝试编译以下代码 include
将浮点数 1864.78 转换为二进制和 IEEE 格式

我一直在尝试将 S P 500 的值今天为 1864 78 转换为它在内存中以 IEEE 单精度格式表示的方式转换小数点左边 1864 很容易 11101001000 但如何获得十进制 78 的二进制表示形式呢我尝试使用该技术但它会
了解流式多处理器 (SM) 和流式处理器 (SP)

我正在尝试了解 GPU 的基本架构我已经阅读了很多材料包括这个非常好的答案 https stackoverflow com a 2213744 2386113 但我仍然很困惑无法得到一个好的图片我的理解 GPU 包含两个或多个流式多
如何手动（按位）执行（浮动）x？

现在这是我应该实现的函数的函数头 float from int Return bit level equivalent of expression float x Result is returned as unsigned int bu
如何降级cuda版本

我目前使用的是 cuda 版本 4 2 但我需要将其更改为 3 1 是否可以卸载当前版本 4 2 版然后安装以前的版本 3 1 版编辑请参阅我的操作系统是linux ubuntu 10 04 64位编辑我找到了如何获取 3 1 版
为什么我不能将一个非 const 指针传递给一个函数，该函数将以对 const 指针的引用作为其参数

这是一个代码片段希望能够传达我想要做的事情 void updatePointer const int i i int main int array 5 int arrayPtr array updatePointer arrayPtr r
浮点运算的最佳实践

我正在对精确到小数点后第二位的小数输入执行加法和减法我试图通过乘以 100 将它们转换为整数来提高准确性但效果却相反考虑以下代码和输出 double d 2 01 int a int d 100 0 cout lt lt a lt l
使用设备函数指针数组

我需要以下设备版本主机代码 double func double x double func1 double x return x 1 double func2 double x return x 2 double func3 doubl
为什么 std::numeric_limits::min() 在使用不同函数流式传输到输出时行为不同？

我有一个奇怪的行为 std numeric limits
static 变量和 const 变量有什么区别？

有人可以解释一下 a 之间的区别吗static and const多变的恒定值不能改变静态变量存在于函数或类中而不是实例或对象中这两个概念并不相互排斥可以一起使用
如何使用Slurm访问集群中不同节点上的GPU？

我可以访问由 Slurm 运行的集群其中每个节点都有 4 个 GPU 我有一个需要 8 个 GPU 的代码那么问题是如何在每个节点只有 4 个 GPU 的集群上请求 8 个 GPU 这就是我尝试通过以下方式提交的工作sbatch bi

随机推荐

如何更改 TemplateField 中 ItemTemplate 的命令文本和图像按钮

我有一个带有 ImageButton 的列我的数据库字段有bit数据类型我希望我的记录在该列中具有真正的价值True jpg我的命令变成MakeFalse当它有错误值时显示False jpg我的命令变成MakeTrue 我怎样才能做到这
如何在AS3中发送GET请求？

我在这里看到这个例子 http damn ihateblue net 2011 09 24 actionscript 3 send getpost http damn ihateblue net 2011 09 24 actionscrip
防止 Javascript 转义文本？

声明 text section main 结果是节主有没有办法阻止 Javascript 解释器将反斜杠视为转义字符并将其删除我希望能够声明 section main 并在输出中保留反斜杠节 main 注意我意识到如果我使用两个
JNI 中 jclass 的类名

这可能是一个愚蠢的问题暴露出对 JNI 缺乏理解我正在编写一个封装 Java VM 的 C 程序我使用 CallVoidMethod 等调用来调用 VM 内的函数这纯粹是背景知识与问题不太相关我希望能够找到给定 jclass 实
Struts2 排除模式不起作用

我正在将 struts2 用于基于 GAE 的应用程序我有一个 servlet 来上传这样的文件 Override protected void doPost HttpServletRequest req HttpServletRespo
如何在Amazon Linux系统中升级ruby版本？

我使用 padrino ruby 框架开发了 ruby 应用程序我想将其部署在亚马逊上我用了这张图片 Amazon Linux AMI 2017 09 1 HVM SSD 卷类型图像描述是 Amazon Linux AMI 是一个由
AWS Lambda：创建触发器

当我尝试添加触发器时出现以下错误创建触发器时出错配置定义不明确如果同一事件类型的前缀重叠则两个规则中不能有重叠的后缀我不确定这里出了什么问题原因之一可能是之前使用相同触发器的其他某个 lambda 函数已被删除这不会自动清除
提交时合并两个表单中的值

我在一个 html 页面上有两个表单使用 jQuery 是否可以在提交第一个表单时将两个表单中的数据放入 POST 数据中 jQuery序列化支持多个表单元素所以可以这样做 form1 form2 serialize 对于你的情况你可
ElasticSearch PutMapping API：MapperParsingException 解析后根类型映射不为空

我的本地实例上有一个 River ES 1 3 4 和 JDBC For MySql 1 3 4 4 这条河运行良好并在 ES 中导入数据我面临的问题是我的字段之一是文本字段并且其中有空格例如实时计算器 ES 将其索引为实时时间
如何在不使用 IDE 且不了解程序流程的情况下调试应用程序？

我正在尝试修改优秀书籍提供的朴素贝叶斯分类器的代码集体智慧编程 https rads stackoverflow com amzn click com 0596529325 使其适应 GAE 数据存储提供的代码使用 pysqlite2 但
django 1.3+ 的简单日志到文件示例

发行说明说 Django 1 3 添加了框架级别支持 Python 的日志记录模块那很好我想利用这一点很遗憾文档 http docs djangoproject com en 1 11 topics logging 并没有以完整的工
将图标放置在 div 的右上角

我创建了这段代码但我无法将图标放在 valori 类的 div 的右上角这里是期望的结果这里的代码 HTML div class circletop div class numberpr 3 anno div div class lo
运行 Firebase 模拟器时出现“确定执行环境时出现意外错误”

当我部署函数时一切正常但使用 Firebase 模拟器在本地运行相同的代码会出现以下错误 message Unexpected error determining execution environment request to htt
表单提交复选框将值设置为“on”而不是“true”

您好我有一个 html 表单我通过按钮上的单击事件提交该表单该事件触发 myform submit 问题是表单上有一个复选框并且在发布的参数下的 firebug 中它显示 mycheckbox1 on 而不是预期的 mycheckb
在嵌套元组中查找值

假设我有 t dog Dog cat Cat fish Fish 我需要检查一个值是否位于嵌套元组的第一位即小写位中我怎样才能做到这一点大写值实际上并不重要我只想搜索仅包含小写值的字符串 if fish in t print Fi
jspdf AutoTable ：表格特定行的目标样式

我正在为我的表格 pdf 使用 jsPDF AutoTable 插件我的资料来源 javaScriptIncludeTag jspdf min js javaScriptIncludeTag jspdf plugin autotable
类 CharField() 的参数

有什么区别CharField name max length 100 and CharField max length 100 参数是什么 name 用于什么是CharField 构造函数有人可以给我一个链接吗 CharField 继承
保持geom_rect半透明区域，但彩色轮廓

我正在尝试使用 R 中的plotly 创建一个带有矩形的交互式绘图我的主要想法正在发挥作用然而我所坚持的是允许每个矩形都有一个彩色轮廓如数据的填充列中所描绘的但是是一个完全透明的区域以下是正在运行的 MWE library
收款人不接受以该货币付款

我正在尝试执行链式付款其中主要收款人采用英镑 GBP 货币我是交易的第二接收者我的帐户设置为美元但不阻止任何货币如您所见以下是确切的错误消息接收方不接受此货币的付款请帮助我理解为什么会失败我的帐户需要进行其他设置吗我必
如何找到 CUDA 的 epsilon、min 和 max 常量？

我正在寻找 CUDA 设备的 epsilon 两个数字之间的最小步长 min 最小量值和 max 最大量值的值即 FLT EPSILON DBL EPSILON FLT MIN DBL MIN 和 FLT MAX DBL MAX 中定

如何找到 CUDA 的 epsilon、min 和 max 常量？

如何找到 CUDA 的 epsilon、min 和 max 常量？ 的相关文章

随机推荐

热门标签

如何找到 CUDA 的 epsilon、min 和 max 常量？的相关文章