在 CUDA 可视化分析器版本 5 中,我知道“gld/st_requested_throughput”是应用程序请求的内存吞吐量。然而,当我试图找到硬件的实际吞吐量时,我很困惑,因为有两对似乎合格的指标,它们是“gld/st_throughput”和“dram_read/write_throughput”。哪一对实际上是硬件吞吐量?另一个是做什么的?
gld/st_throughput
包括由 L1 和 L2 缓存提供服务的事务。尽管dram_read/write_throughput
是 L2 和设备内存之间的吞吐量。因此,每次全局内存访问都计入gld/st_throughput
但只有同时错过 L1 和 L2 缓存的请求才会计入dram_read/write_throughput
.
我还没有在任何地方找到柜台的详细概述。希望 NVIDIA 能够提供...
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)