我应该研究 PTX 来优化我的内核吗？如果是这样，怎么办？

2024-02-13

您是否建议阅读内核的 PTX 代码以进一步优化内核？

一个例子：我读到，可以从 PTX 代码中找出自动循环展开是否有效。如果不是这种情况，则必须在内核代码中手动展开循环。

PTX 代码还有其他用例吗？
你查看过你的 PTX 代码吗？
在哪里可以找到如何读取 CUDA 为我的内核生成的 PTX 代码？

关于 PTX，首先需要指出的是，它只是一个中间的GPU 上运行的代码的表示形式——一种虚拟机汇编语言。 PTX 通过以下方式汇编为目标机器代码ptxas在编译时，或由驱动程序在运行时。因此，当您查看 PTX 时，您查看的是编译器发出的内容，而不是 GPU 实际运行的内容。还可以编写自己的 PTX 代码，无论是从头开始（这是 CUDA 中支持的唯一 JIT 编译模型），还是作为 CUDA C 代码中内联汇编器部分的一部分（后者自 CUDA 4.0 起正式支持，但是“非官方”的支持时间比这长得多）。 CUDA 始终随工具包附带 PTX 语言的完整指南，并且有完整的文档记录。这豹猫项目 http://code.google.com/p/gpuocelot/使用此文档来实现他们自己的 PTX 交叉编译器，该编译器允许 CUDA 代码在其他硬件上本机运行，最初是 x86 处理器，但最近AMD GPUs.

如果您想查看 GPU 实际运行的内容（而不是编译器发出的内容），NVIDIA 现在提供了一个名为的二进制反汇编工具cudaobjdump它可以显示为 Fermi GPU 编译的代码中的实际机器代码段。有一个较旧的非官方工具称为decuda适用于 G80 和 G90 GPU。

话虽如此，从 PTX 输出中可以学到很多东西，特别是编译器如何应用优化以及它发出哪些指令来实现某些 C 结构。每个版本的 NVIDIA CUDA 工具包都附带指南nvcc http://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/ and PTX 语言的文档 http://docs.nvidia.com/cuda/parallel-thread-execution/。两个文档中都包含大量信息，可帮助您了解如何将 CUDA C/C++ 内核代码编译为 PTX，并了解 PTX 指令的用途。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

我应该研究 PTX 来优化我的内核吗？如果是这样，怎么办？的相关文章

SQL 中的 JOIN 成本有多高？和/或，性能和标准化之间的权衡是什么？

我发现了一个类似的线程但它并没有真正抓住我想要问的本质所以我创建了一个新线程我知道规范化和性能之间存在权衡我想知道划定这条线的最佳实践是什么在我的特定情况下我有一个消息传递系统它具有三个不同的表 messages thread
为什么 Python 对于一个简单的 for 循环来说这么慢？

我们正在做一些kNN and SVDPython 中的实现其他人选择了 Java 我们的执行时间非常不同我使用 cProfile 来查看我在哪里犯了错误但一切都很好fine http wiki python org moin Pyth
如何从C++头文件调用CUDA文件？

我知道从 c 文件调用 cu 文件的方法但现在我想从 C 头文件调用 cu 文件有可能做到吗如果是这样我应该如何设置我的项目请帮忙这是一个有效的例子 file1 h int hello file2 h include
为什么在我的例子中 For 循环比 Map、Reduce 和 List 理解更快

我编写了一个简单的脚本来测试速度这就是我发现的结果实际上 for 循环在我的例子中是最快的这真的让我感到惊讶请查看下面正在计算平方和这是因为它在内存中保存列表还是有意为之谁能解释一下这一点 from functools imp
按类型进行弹簧接线比按名称接线要慢很多

在我的项目中我试图迁移 Foo foo Foo beanFactory getBean name into Foo foo beanFactory getBean Foo class 好处是显而易见的类型安全更少复杂的代码更少无用的
MySQL InnoDB 查询性能

我正在尝试优化一个简单的 sql 查询该查询将多次运行大量数据这是场景 MySQL 与 InnoDB 表 where 和 join 中使用的所有字段都已索引表有 FK 我不需要查询的整个缓存但每个表的缓存是可能的表有更多的更新插
如何找到 IIS 在负载/性能测试期间模拟的平均并发用户数？

我正在使用 JMeter 进行负载测试我正在练习通过简单地增加我的分布式 JMeter 测试用例中的线程数并启动测试来查找我们的网络服务器可以处理的最大并发线程用户数量然后我突然意识到虽然 MAX 数字可能有用但REAL我的网
将 cuda 数组传递给 Thrust::inclusive_scan

我可以对 cpu 上的数组使用包容性扫描但是否可以对 gpu 上的数组执行此操作注释是我知道有效但我不需要的方式或者是否有其他简单的方法可以对设备内存中的数组执行包含扫描 Code include
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
如何转储所有 NVCC 预处理器定义？

我想达到同样的效果 gcc dM E lt dev null 如所描述的here https stackoverflow com q 2224334 1593077 但对于 nvcc 也就是说我想转储所有 nvcc 的预处理器定义唉 n
在 nHibernate 关系中使用实体的 Lite 版本？

在某些情况下出于性能原因创建一个实体的轻量级版本指向同一个表但映射的列较少这是一个好主意吗例如如果我有一个包含 50 列的联系人表并且在一些相关实体中我可能对 FirstName 和 LastName 属性感兴趣那么创建
使用 enum.values() 与字符串数组相比，性能是否会受到影响？

我正在使用枚举来替换String我的 java 应用程序 JRE 1 5 中的常量当我在不断调用的方法中将枚举视为名称的静态数组时例如在渲染 UI 时是否会对性能造成影响我的代码看起来有点像这样 public String get
是否可以提高 Mongoexport 速度？

我有一个 1 3 亿行的 MongoDB 3 6 2 0 集合它有几个简单的字段和 2 个带有嵌套 JSON 文档的字段数据以压缩格式 zlib 存储我需要尽快将其中一个嵌入字段导出为 JSON 格式然而 mongoexport 需
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
为什么 C# Array.BinarySearch 这么快？

我已经实施了一个很简单用于在整数数组中查找整数的 C 中的 binarySearch 实现二分查找 static int binarySearch int arr int i int low 0 high arr Length 1 mid
JSON.stringify 对于大型对象来说非常慢

我在 javascript 中有一个非常大的对象大约 10MB 当我对其进行字符串化时需要很长时间因此我将其发送到后端并将其解析为一个对象实际上是带有数组的嵌套对象这也需要很长时间但这不是我们在这个问题中的问题问题我怎样才能
高效秒表

您好我正在用 javascript 编写一个秒表实用程序我有一个关于效率和开销的问题我考虑过两种制作秒表的方法 1 存储开始日期并不断测量自该日期以来经过的毫秒数 2 创建一个整数并按设定的时间间隔递增其值我想知道哪个最有效另外
数组与列表的性能

假设您需要一个需要频繁迭代的整数列表数组我的意思是非常频繁原因可能有所不同但可以说它位于大容量处理的最内层循环的核心一般来说人们会选择使用列表 List 因为它们的大小具有灵活性最重要的是 msdn 文档声称列表在内部使用数组
对浮点数求和的最佳 OpenCL 2 内核是什么？

C 17引入了许多新算法来支持并行执行特别是标准减少 http en cppreference com w cpp algorithm reduce是一个并行版本std 累积 http en cppreference com w cpp
当跳转在 32 字节上不完全对齐时，使用 MITE（传统管道）代替 DSB（微指令缓存）

这个问题曾经是这个现已更新问题 https stackoverflow com questions 59883527 unrolling 1 cycle loop reduces performance by 25 on skylake

随机推荐

在 WSO2 ESB 中介期间修改配置注册表资源内容

我有一个场景我需要在配置注册表中存储简单计数器并在序列流结束时递增它我们需要存储在配置注册表中的原因是如果服务器重新启动我们将保留最后的计数器值有人可以建议如何增加配置注册表中的计数器吗您可以在中介中使用示例 javascrip
“等待返回”有什么区别吗？ [复制]

这个问题在这里已经有答案了有什么区别吗 const foo async gt some other code that uses await return await bar and const foo async gt some oth
Gradle - 仅执行单一构建类型

我在 build gradle 中定义了多种构建类型在变体窗口中我选择了构建变体例如 debugAPI23 我预计只会执行一种构建类型中的代码但在 Gradle Console 中我可以看到所有构建类型的输出正如您所看到的我正在
在同一地址多次放置 new 是否定义明确/合法？

注意这个问题的动机是试图提出预处理器黑客技术来生成无操作分配来回答另一个问题接受新对象的宏 https stackoverflow com questions 7522949 c macro that accent new object
路由的处理程序无效 - Wordpress

我正在尝试使用类在 WordPress 中创建自定义 REST API 端点我也用传统的方式做了同样的事情效果很好但是使用类时我收到错误The handler for the route is invalid 代码 class CS
谁能解释一下android中未绑定服务和绑定服务之间的区别

任何人都可以解释一下android中未绑定服务和绑定服务之间的区别并解释一下意图服务 Thanks 绑定服务 http developer android com guide components bound services html
制作堆叠矩形而不是列的直方图

使用以下代码我得到如下的直方图 x lt rnorm 100 hist x col gray 我该怎么做才能将条形显示为堆叠矩形通过其轮廓可见而不是填充颜色的变化而不是统一的列每个矩形代表一个频率例如 1 尽管我希望能够通过参数
使用 dropzone.js 发送附加参数

我正在尝试添加 dropzone js 并且想通过 file 传递另一个参数因此我将隐藏输入放入 form 中我可以上传文件并可以在Java部分读取它但我无法读取type chooser WebKitFormBoundaryZxF6M
我的上网IP是多少

我的电脑上安装了两张网卡一个用于互联网连接另一个用于与客户端计算机共享互联网我用这段代码获取我的IP IPHostEntry HosyEntry Dns GetHostEntry Dns GetHostName foreach IPA
Mustache Templates可以做模板扩展吗？

我是小胡子的新手许多模板语言例如 Django Jinja 会让你像这样扩展父模板基本 html block content endblock 首页 html extends base html block content h1
如何从 mysql 数据库中删除重复的条目？

我有一个包含一些 id 标题的表我想让标题列唯一但它已经有超过 600k 条记录其中一些是重复的有时是几十次如何删除除一个之外的所有重复项以便我可以在之后的标题列中添加一个 UNIQUE 键此命令添加唯一键并删除生成错误由
Quarkus - SmallRye 反应式消息传递 - RabbitMQ：将消息发送到默认交换

使用远程过程调用 https www rabbitmq com tutorials tutorial six java html模式我需要将答案发送到回复队列即我需要将消息发送到默认交换机并以队列名称作为路由键我在 Quarkus
JACOB 和 jre 1.7 出现 UnsatisfiedLinkError

我编写了一个使用 JACOB 访问 iTunes 的程序它在 Eclipse 中工作正常但是当我导出它并在命令提示符中运行它时我收到一个不满意的链接错误告诉我 jacob 1 17 M2 x86 dll 是不在我的 java lib
如何在 Android Wear 设备上运行 Xamarin.Forms 应用程序

我怎样才能运行Xamarin Forms Platform Android FormsApplicationActivity在 Android Wear 设备上电话base OnCreate bundle 在的里面onCreate我的类
Xcode Instruments：泄漏 - 应用程序在启动时崩溃

Xcode Instruments 泄漏应用程序在启动时崩溃该应用程序在设备和模拟器中都会崩溃什么可能导致应用程序在连接仪器时崩溃而在使用电缆或通过 Fabric 无线安装时正常工作 Update Launching the All
如何在 Servicestack 中隐藏 Swagger UI 的端点？

我正在使用 ServiceStack 3 9 59 0 的 Swagger 插件我的 ServiceStack API 中有一些端点例如 selfchecknode 我不想在 Swagger UI 中显示它们是否有一种声明性方式也许
带有居中标签的堆叠条形图

我试图稳健地将数据标签集中在堆积条形图中下面给出了一个简单的代码示例和结果正如您所看到的数据标签并未真正在所有矩形中居中我缺少什么 import numpy as np import matplotlib pyplot as p
将幻灯片上传到 YouTube

如何使用 YouTube 的 API 将照片幻灯片上传到 Youtube 我在这里找不到它 https developers google com youtube 2 0 developers guide protocol uploadin
C++17 中已弃用 std::is_literal_type

根据参考参数 http en cppreference com w cpp 特质std is literal type http en cppreference com w cpp types is literal type在 C 17 中
我应该研究 PTX 来优化我的内核吗？如果是这样，怎么办？

您是否建议阅读内核的 PTX 代码以进一步优化内核一个例子我读到可以从 PTX 代码中找出自动循环展开是否有效如果不是这种情况则必须在内核代码中手动展开循环 PTX 代码还有其他用例吗你查看过你的 PTX 代码吗在哪里可以找到

我应该研究 PTX 来优化我的内核吗？如果是这样，怎么办？

我应该研究 PTX 来优化我的内核吗？如果是这样，怎么办？ 的相关文章

随机推荐

热门标签

我应该研究 PTX 来优化我的内核吗？如果是这样，怎么办？的相关文章