SFU 的特殊 CUDA 双精度三角函数

2023-12-01

我想知道我将如何使用__cos(x)(和分别__sin(x))在带有 CUDA 的内核代码中。我在 CUDA 手册中查找到有这样一个设备函数,但是当我实现它时,编译器只是说我无法调用设备中的主机函数。

然而我发现有两个姐妹函数cosf(x) and __cosf(x)后者在 SFU 上运行,总体上比原来的快得多cosf(x)功能。编译器不会抱怨__cosf(x)当然是函数。

我缺少图书馆吗?我对这个三角函数有误解吗?


由于 SFU 仅支持某些单精度运算,因此不存在双精度 __cos() 和 __sin() 设备函数。有单精度 __cosf() 和 __sinf() 设备函数,以及 CUDA 4.2 编程手册的表 C-4 中详细介绍的其他函数。

我假设您正在寻找标准数学函数 sin() 和 cos() 的双精度版本的更快替代方案?如果需要相同参数的正弦和余弦,则应使用 sincos() 来显着提高性能。如果正弦或余弦的参数乘以 π,您可能需要使用 sinpi()、cospi() 或 sincospi() 来代替,以获得更高的性能。例如,sincospi() 在实现用于生成正态分布随机数的 Box-Muller 算法时非常有用。另外,请查看 CUDA 5.0 预览版以获得最佳性能(请注意,预览版提供 alpha 版本质量)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

SFU 的特殊 CUDA 双精度三角函数 的相关文章

  • Cuda 6.5 找不到 - libGLU。 (在 ubuntu 14.04 64 位上)

    我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时 模拟 粒子 我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
  • 尝试构建我的 CUDA 程序时出现错误 MSB4062

    当我尝试构建我的第一个 GPU 程序时 出现以下错误 有什么建议可能会出什么问题吗 错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务 无法从程序集 C Program 加载 文件 M
  • 如何在cmake中添加cuda源代码的定义

    我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译 例如 CMakeLists txt project Test add definitions D WINDOW
  • 在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗?

    CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
  • python 正弦和余弦精度

    如何提高Python正弦和余弦精度 例如 我想使用以下代码 只需计算随机复向量 x 的 y cos acos x import numpy as np N 100000 x np zeros N 1j np zeros N for k in
  • 如何以 JavaScript 编程方式获取旋转的 svg 文本边界

    我正在动态渲染 SVG 图像并创建旋转文本 如果旋转的文本与其他文本重叠 我需要删除该文本 但我无法测量旋转的文本来创建边界并检查下一个标签文本区域 我创建了 3 个 SVG 元素来解释 SVG 1 显示重叠的文本 SVG 2 显示重叠的旋
  • 通过 cuFFT 进行逆 FFT 缩放

    每当我使用 cuFFT 绘制程序获得的值并将结果与 Matlab 的结果进行比较时 我都会得到相同形状的图形 并且最大值和最小值位于相同的点 然而 cuFFT 得到的值比 Matlab 得到的值大得多 Matlab代码是 fs 1000 s
  • “gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别?

    在 CUDA 可视化分析器版本 5 中 我知道 gld st requested throughput 是应用程序请求的内存吞吐量 然而 当我试图找到硬件的实际吞吐量时 我很困惑 因为有两对似乎合格的指标 它们是 gld st throug
  • 如何在 C++ 中使用 PI 常数

    我想在一些 C 程序中使用 PI 常数和三角函数 我得到三角函数include
  • 有条件减少 CUDA

    我需要总结一下100000值存储在数组中 但带有条件 有没有办法在 CUDA 中做到这一点以快速产生结果 任何人都可以发布一个小代码来做到这一点吗 我认为 要执行条件约简 您可以直接将条件引入为乘法0 假 或1 真 加数 换句话说 假设您希
  • OpenCV 2.4.3rc 和 CUDA 4.2:“OpenCV 错误:没有 GPU 支持”

    我在这张专辑中上传了几张截图 https i stack imgur com TELST jpg https i stack imgur com TELST jpg 我正在尝试在 Visual Studio 2008 中的 OpenCV 中
  • CUDA 的嵌套循环

    我想将我的 C 代码移植到 CUDA 主要计算部分包含3个for嵌套循环 for int i 0 i lt Nx i for int j 0 j
  • CUDA 模型 - 什么是扭曲尺寸?

    最大工作组大小和扭曲大小之间有什么关系 假设我的设备有 240 个 CUDA 流处理器 SP 并返回以下信息 CL DEVICE MAX COMPUTE UNITS 30 CL DEVICE MAX WORK ITEM SIZES 512
  • 摆脱异步 cuda 流执行期间的忙等待

    我正在寻找一种方法 如何摆脱以下代码中主机线程中的忙等待 不要复制该代码 它仅显示我的问题的想法 它有许多基本错误 cudaStream t steams S N for int i 0 i lt S N i cudaStreamCreat
  • 在 CUDA 中的设备内存上分配 2D 数组

    如何在 Cuda 中的设备内存中分配和传输 往返于主机 2D 数组 我找到了解决这个问题的方法 我不必展平阵列 内置的cudaMallocPitch 函数完成了这项工作 我可以使用以下命令将阵列传输到设备或从设备传输阵列cudaMemcpy
  • 直接在主机上访问设备向量元素的最快方法

    我请您参考以下页面http code google com p thrust wiki QuickStartGuide Vectors http code google com p thrust wiki QuickStartGuide V
  • CUDA 和 Eigen 的成员“已声明”错误

    我只是 CUDA 和 Nsight 的初学者 希望利用出色的 GPU 性能进行线性代数运算 例如 CUBLAS 我在以下人员的帮助下编写了很多自定义代码Eigen http eigen tuxfamily org index php tit
  • 使用推力来处理 CUDA 类中的向量?

    我对 C 类的推力的适用性有疑问 我正在尝试实现一个类对象 该对象接收顶点的 x y z 坐标作为 ver1 ver2 和 ver3 然后 分配给一个三角形并计算面积和法向量 然而 我不太明白如何创建一类推力向量 这是我从文件中读取的顶点坐
  • 无法编译cuda_ndarray.cu:libcublas.so.7.5:无法打开共享对象文件

    我正在尝试在 aws 实例中导入 theano 库以使用 GPU 我已经使用 boto 编写了一个 python 脚本来自动执行 aws 设置 该脚本本质上会从我的本地计算机对实例执行 ssh 然后启动一个 bash 脚本 其中我执行 py
  • 围绕另一个点旋转一个点

    我的任务是绘制特定图形 作为此任务的一部分 我需要将一些点旋转 45 度 我已经花了两天时间尝试计算公式 但就是无法得到正确的结果 我一直在到处搜索 包括这个特定的网站 我已经非常接近了 但我仍然不在那里 这里是 我需要画4个不同的点 我有

随机推荐

  • 如何将相同程序集的两个版本从两个不同的子文件夹加载到两个不同的域中?

    我正在尝试构建一个小工具来比较一堆程序集中的类型 为此 我创建了两个子文件夹并将各自的 dll 放在那里 Dlls v1 1 Dlls v1 2 where 是应用程序文件夹 我还创建了一个代理对象 public class ProxyDo
  • 在waf中指定不同的编译器

    我想要在以下位置配置多个构建配置 即不同的 C 编译器 waf 我设法这样做了 但对我来说看起来有点臭 我目前该怎么做 我制作不同的环境 然后重置c compiler在加载下一个编译器之前列出 最后我将其重置为所有编译器 def confi
  • Laravel 4 表单生成器自定义字段宏

    我正在尝试创建一个自定义 HTML 5 日期字段以在 laravel 4 框架视图中使用 Form macro datetime function field name return Form label event start Event
  • (Facebook C# SDK) 获取访问令牌时出现问题

    我对 Facebook C SDK 5 0 3 很陌生 这可能就是这个问题的原因 基本上 我试图获取当前用户的个人资料 电子邮件 照片等 在下面您将找到我的两个页面 MyLogin aspx 和landpage aspx 的代码 我使用网络
  • 在嵌套类中声明固定长度的数组

    我有一个 A 类 它有一个嵌套的 B 类 A 类将创建 B 类的 n 个 运行时参数 实例 在 A 的构造函数中 在需要在运行时进行计算之后 我计算一个大小 假设为 s 现在 每个 B 类都会保存一个大小为 s 的数组 但是 我不允许使用
  • Django Rest 框架和 JSONField

    给定一个 Django 模型JSON字段 使用序列化和反序列化它的正确方法是什么Django 休息框架 我已经尝试过创建自定义serializers WritableField并压倒一切to native and from native f
  • 在数字字符串中添加逗号[重复]

    这个问题在这里已经有答案了 我的程序中运行一个值 该值最后会四舍五入到小数点后两位 如下所示 print Total cost is 0 2f format TotalAmount 有没有办法在小数点左边每 3 位插入一个逗号值 e g 1
  • 如何停止“setInterval”[重复]

    这个问题在这里已经有答案了 我该如何停止和开始setInterval 假设我有一个textarea 我想停下来setInterval聚焦并重新启动setInterval模糊 使用 jQuery 你必须存储timer id启动它时的时间间隔
  • 在 SwiftUI 中一一叠加视图

    我有以下带有一个结构和两个视图的代码 点击第一个屏幕覆盖按钮时 我想显示第二个屏幕覆盖并隐藏前一个 依此类推 任何帮助表示赞赏 import SwiftUI struct ContentView View var body some Vie
  • 将向量转换为具有多列的数据框

    我有一个向量 如下所示 99 Hershey 6 7 B 7 4 7 B 562 M Consumer Packaged Goods 100 Costco 6 7 B 14 117 3 B Retail 为了简单起见 我只提到了 700 个
  • 为静态Web应用程序购买域名

    I have deployed a static web application Gatsby now I want purchase a domain If the web was deployed to Azure App Servic
  • 如何选择/取消选择所有复选框?

    我有一个带有图像视图 文本视图和复选框的适配器 以及用于选择所有复选框的 全选 按钮 我搜索了很多关于如何执行此操作 选择所有复选框 的信息 但它不起作用 谁能解释更多我应该做什么 拜托 我必须做这件事紧急 这是我的适配器 Public c
  • 将 SQL 转换为 HQL [关闭]

    Closed 这个问题是无关 目前不接受答案 我正在尝试将以下 SQL 查询转换为 HQL 但遇到了一些问题 逐行直线转换不起作用 我想知道是否应该在 HQL 中使用 Inner Join SELECT UNIX TIMESTAMP cos
  • 为什么在安装 .NET Core 2.1.3 时出现 HTTP 错误 502.5

    我为运行 Windows Server 2016 的新计算机安装了 NET Core 版本 2 1 3 我将其托管在 IIS 10 中 但它给了我错误 502 HTTP 错误 502 5 进程失败 此问题的常见原因 申请进程无法启动 申请流
  • TYPO3 StoragePid 和当前

    我构建了一个简单的注释 extbase 扩展 我想将其与打字稿一起包含在项目扩展 也是 extbase 中 项目扩展中的流畅代码如下所示
  • UITableViewCell 重用良好实践

    UITableViewCell tableView UITableView tableView cellForRowAtIndexPath NSIndexPath indexPath static NSString CellIdentifi
  • React.js 中刷新时丢失 useState 值

    我正在发送一个id from ProductListing组件 我收到了id using useParams in ProductDetail成分 在ProductDetail组件我正在使用 find 方法查找一个对象 然后将其设置为sin
  • 如何测量图像中的环境光水平?

    我正在考虑制作一个应用程序 使用相机来测量拍摄图像时存在的光量 一些条件行为会根据存在的光线量而发生 即 如果看起来很黑 则显示一条消息 看起来像睡觉时间 我知道这对于由于曝光等原因而存在的实际光量来说是一个相当糟糕的测量 但它不需要非常准
  • ReactJS - 使用重定向组件传递道具

    你应该如何传递 propsRedirect组件而不将它们暴露在 url 中 像这样
  • SFU 的特殊 CUDA 双精度三角函数

    我想知道我将如何使用 cos x 和分别 sin x 在带有 CUDA 的内核代码中 我在 CUDA 手册中查找到有这样一个设备函数 但是当我实现它时 编译器只是说我无法调用设备中的主机函数 然而我发现有两个姐妹函数cosf x and c