转载：NVIDIA GPU结构

2023-11-18

http://blog.itpub.net/23057064/viewspace-629236/

目前市场上的NVIDIA显卡都是基于Tesla架构的，分为G80、G92、GT200三个系列。Tesla体系架构是一块具有可扩展处器数量的处理器阵列。每个GT200 GPU包含240个流处理器（streaming processor,SP），每8个流处理器又组成了一个流多处理器(streaming multiprocessor,SM)，因此共有30个流多处理器。GPU在工作时，工作负载由PCI-E总线从CPU传入GPU显存，按照体系架构的层次自顶向下分发。PCI-E 2.0规范中，每个通道上下行的数据传输速度达到了5.0Gbit/s，这样PCI-E2.0×16插槽能够为上下行数据各提供了5.0*16Gbit/s=10GB/s的带宽，故有效带宽为8GB/s,而PCI-E 3.0规范的上下行数据带宽各为20GB/s。但是由于PCI-E数据封包的影响，实际可用的带宽大约在5-6GB/s（PCI-E 2.0 ×16）。 Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE
在GT200架构中，每3个SM组成一个TPC（Thread Processing Cluster，线程处理器集群），而在G80架构中，是两个SM组成一个TPC，G80里面有8个TPC，因为G80有128(2*8*8)个流处理器，而GT200中TPC增加到了10(3*10*8)个，其中，每个TPC内部还有一个纹理流水线。
大多数时候，称呼streaming processor为流处理器，其实并不太正确，因为如果称streaming processor为流处理器的话，自然是隐式的与CPU相对，但是CPU有独立的一套输入输出机构，而streaming processor并没有，不能在GPU编程中使用printf就是一个例证。将SM与CPU的核相比更加合适。和现在的CPU的核一样，SM也拥有完整前端。
GT200和G80的每个SM包含8个流处理器。流处理器也有其他的名称，如线程处理器，“核”等，而最新的Fermi架构中，给了它一个新的名称:CUDA Core。 SP并不是独立的处理器核，它有独立的寄存器和程序计数器(PC)，但没有取指和调度单元来构成完整的前端（由SM提供）。因此，SP更加类似于当代的多线程CPU中的一条流水线。SM每发射一条指令，8个SP将各执行4遍。因此由32个线程组成的线程束（warp）是Tesla架构的最小执行单位。由于GPU中SP的频率略高于SM中其他单元的两倍，因此每两个SP周期SP才能对片内存储器进行一次访问，所以一个warp中的32个线程又可以分为两个half-warp，这也是为什么取数会成为运算的瓶颈原因。Warp的大小对操作延迟和访存延迟会产生影响，取Warp大小为32是NVIDIA综合权衡的结果。
SM最主要的执行资源是8个32bit ALU和MAD（multiply-add units，乘加器）。它们能够对符合IEEE标准的单精度浮点数（对应float型）和32-bit整数（对应int型，或者unsigned int型）进行运算。每次运算需要4个时钟周期（SP周期，并非核心周期）。因为使用了四级流水线，因此在每个时钟周期，ALU或MAD都能取出一个warp 的32个线程中的8个操作数，在随后的3个时钟周期内进行运算并写回结果。
每个SM中，还有一个共享存储器(Shared memory),共享存储器用于通用并行计算时的共享数据和块内线程通信，但是由于它采用的是片上存储器，其速度极快，因此也被用于优化程序性能。
每个SM 通过使用两个特殊函数(Special Function Unit,SFU)单元进行超越函数和属性插值函数（根据顶点属性来对像素进行插值）计算。SFU用来执行超越函数、插值以及其他特殊运算。SFU执行的指令大多数有16个时钟周期的延迟，而一些由多个指令构成的复杂运算，如平方根或者指数运算则需要32甚至更多的时钟周期。SFU中用于插值的部分拥有若干个32-bit浮点乘法单元，可以用来进行独立于浮点处理单元(Float Processing Unit,FPU)的乘法运算。SFU实际上有两个执行单元，每个执行单元为SM中8条流水线中的4条服务。向SFU发射的乘法指令也只需要4个时钟周期。
在GT200中，每个SM还有一个双精度单元，用于双精度计算，但是其计算能力不到单精度的1/8。
控制流指令（CMP,比较指令）是由分支单元执行的。GPU没有分支预测机制，因此在分支得到机会执行之前，它将被挂起，直到所有的分支路径都执行完成，这会极大的降低性能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

NVIDIA

转载：NVIDIA GPU结构的相关文章

CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
错误：NVIDIA-SMI 失败，因为无法与 NVIDIA 驱动程序通信

NVIDIA SMI 抛出此错误 NVIDIA SMI 失败因为无法与 NVIDIA 通信司机确保安装了最新的 NVIDIA 驱动程序并且跑步我清除了 NVIDIA 并按照提到的步骤重新安装了它here https askubun
通过 cuFFT 进行逆 FFT 缩放

每当我使用 cuFFT 绘制程序获得的值并将结果与 Matlab 的结果进行比较时我都会得到相同形状的图形并且最大值和最小值位于相同的点然而 cuFFT 得到的值比 Matlab 得到的值大得多 Matlab代码是 fs 1000 s
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
CUDA：获取数组中的最大值及其索引

我有几个块每个块在整数数组的单独部分上执行举个例子块一从 array 0 到 array 9 块二从 array 10 到 array 20 我可以获得每个块的数组最大值的索引的最佳方法是什么示例块一 a 0 到 a 10 具有以下
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY
CUDA Thrust 的多 GPU 使用

我想使用我的两张显卡通过 CUDA Thrust 进行计算我有两张显卡在单卡上运行对于两张卡都适用即使我在 std vector 中存储两个 device vector 也是如此如果我同时使用两张卡循环中的第一个周期将起作用并且不
Bank 在字长方面存在冲突

我读过一些关于共享内存的好文章但我对银行冲突有初步疑问据说如果线程 1 和线程 2 从存储体 0 访问字 0 则不存在存储体冲突但如果他们访问不同的单词就会出现银行冲突但我的问题是不同的单词如何可以驻留在一个银行中由于bank
CUDA计算能力2.0。全局内存访问模式

CUDA 计算能力 2 0 Fermi 全局内存访问通过 768 KB L2 缓存进行看起来开发人员不再关心全局内存库但全局内存仍然非常慢因此正确的访问模式很重要现在的重点是尽可能多地使用重用 L2 我的问题是如何我将感谢一
如何在CUDA应用程序中正确应用线程同步？

一般来说我在应用程序中偶尔会使用线程同步因为我并不经常需要此功能我并不是真正的高级 C C 程序员但我也不是初学者我开始学习 CUDA C 对当今 GPU 与 CPU 的能力相比感到兴奋我意识到 CUDA 编程主要是关于并行线程
CUDA 的嵌套循环

我想将我的 C 代码移植到 CUDA 主要计算部分包含3个for嵌套循环 for int i 0 i lt Nx i for int j 0 j
Cuda：最小二乘求解，速度较差

最近我使用Cuda编写了一个名为正交匹配追踪的算法在我丑陋的 Cuda 代码中整个迭代需要 60 秒而 Eigen lib 只需 3 秒在我的代码中矩阵 A 是 640 1024 y 是 640 1 在每一步中我从 A 中
如何在没有 nvcc 的情况下在编译时获取 CUDA 工具包版本？

我在 cpp 文件中对 cuSPARSE 库进行了一些调用这些调用在旧工具包中不可用为了支持使用旧工具包的系统我想使用编译器指令编译不同的代码部分特别是我想使用旧工具包的 CSR 格式矩阵和新工具包的 BSR 格式矩阵来求解稀疏三
CUDA-Kernel 应该根据块大小动态崩溃

我想做稀疏矩阵密集向量乘法假设用于压缩矩阵中条目的唯一存储格式是压缩行存储 CRS 我的内核如下所示 global void krnlSpMVmul1 float data mat int num nonzeroes unsigned
为什么使用 boost::none 无法通过 nvcc 编译？

我正在尝试编译以下代码 include
了解流式多处理器 (SM) 和流式处理器 (SP)

我正在尝试了解 GPU 的基本架构我已经阅读了很多材料包括这个非常好的答案 https stackoverflow com a 2213744 2386113 但我仍然很困惑无法得到一个好的图片我的理解 GPU 包含两个或多个流式多
CUDA cutil.h 在哪里？

有谁知道包含 cutil h 的 SDK 工具包在哪里我尝试了 CUDA toolkits3 2 和 toolkits5 0 我知道这个版本已经不支持 cutil h 我还注意到一些提到的如何在 Linux 中包含 cutil h htt
将 cuda 数组传递给 Thrust::inclusive_scan

我可以对 cpu 上的数组使用包容性扫描但是否可以对 gpu 上的数组执行此操作注释是我知道有效但我不需要的方式或者是否有其他简单的方法可以对设备内存中的数组执行包含扫描 Code include
为什么 CUDA 内存复制速度会这样，有一些恒定的驱动程序开销？

在我的旧 GeForce 8800GT 上使用 CUDA 内存时我总是会遇到奇怪的 0 04 毫秒开销我需要将 1 2K 传输到设备的常量内存中处理其中的数据并从设备中仅获取一个浮点值我有一个使用 GPU 计算的典型代码 alloc
为什么在 CUDA 中启动 32 倍数的线程？

我参加了 CUDA 并行编程课程并且看到了许多 CUDA 线程配置的示例其中通常将所需的线程数四舍五入到最接近的 32 倍数我知道线程被分组为 warp 并且如果您启动 1000 个线程 GPU 无论如何都会将其四舍五入到 1024

随机推荐

用Requests和正则表达式爬取猫眼电影(TOP100+最受期待榜）

目标站点分析目标站点猫眼榜单TOP100 如下图猫眼电影的翻页offset明显在URL中所以只要搞定第一页的内容加上一个循环加上offset就可以爬取前100 流程框架 1 抓取单页内容利用requests请求目标站点得到单个网
spring——IOC控制反转

IOC控制反转思想一 IOC简介二 spring创建对象的三种方式 1 无参构造 2 静态工厂 3 实例工厂三 Bean标签 1 bean标签的scope属性 singleton prototype多例 request session
import报错

错误 import im6 q16 unable to read X window image Resource temporarily unavailable error xwindow c XImportImage 4977 impor
MyDLNote - Detection : 2019 CVPR 使用解耦表示（Disentangled Representation）学习的罕见事件检测

CVPR 2019 Rare Event Detection using Disentangled Representation Learning Ryuhei Hamaguchi Ken Sakurada and Ryosuke Naka
Pandas函数set_option()学习笔记

pd set option 函数用法 import pandas as ps pd set option expand frame repr True True就是可以换行显示设置成False的时候不允许换行 pd set option
Shiro总结和常见面试题

Shiro总结和常见面试题一什么是shiro Shiro是一个强大易用的java安全框架提供了认证授权加密会话管理与web集成缓存等功能对于任何一个应用程序都可以提供全面的安全服务相比其他安全框架 shiro要简单的多
电力系统有哪些大扰动?

电力系统有哪些大扰动答电力系统大扰动主要指各种短路故障各种突然断线故障断路器无故障跳闸非同期并网包括发电机非同期并列大型发电机失磁大容量负荷突然启停等
游戏笔记本电脑可以进行 3D 建模和渲染吗？有哪些优势与缺点？

3D 建模和渲染是创建令人惊叹的数字艺术动画和游戏体验的最流行和最广泛使用的工具之一随着技术的进步对运行这些模型的强大计算机的需求呈指数级增长对于那些寻求强大机器来处理 3D 建模任务的人来说游戏笔记本电脑已成为一个可行的选择游
R语言系列教程-----一起来学shiny吧（1）

什么是shiny Shiny是一个R包可让您轻松地直接从 R 构建交互式 Web 应用程序应用程序本系列是个长教程带你由浅入深学习shiny 我们先使用系统自带的一个例子来介绍一下shiny 我们先导入shiny包 library
华为OD机试 - 矩形相交的面积（Java)

题目描述给出3组点坐标 x y w h 1000
MD5 JavaCript调用法

JS代码 code
2、Java入门教程【IDEA】

1 下载 IDEA社区版下载地址 IDEA管理JAVA程序的结构 project 项目工程 module 模块 package 包 class 类 2 创建工程创建 project 点击 create 后项目结构如下创建 pack
计蒜客T1113——整理药名

先看题干这道题并不难如果你对编程语言的基础有很好的掌握很容易理清整个逻辑实际上不涉及到算法的题目都是简单题笔者带领大家理一下这道题的考察点 1 输入多个不定长字符串 2 将字符串的首字母一律变为大写分本来就是大写和本来是小写两
【GAN】基础原理讲解及代码实践

首先什么是的模型结构设计模型的关键 GAN的算法原理这里输入噪声的随机性就可以带来生成图像的多样性 GAN公式讲解 D 表示判别器对真实图片的判别取对数函数后我们希望其值趋于也就是D 趋于也就是放大损失
【踩坑专栏】idea中的target缺失

target文件夹缺失但是在文件中能找到这个是idea禁止了我想起来之前我是因为在提交代码时有一些文件显示在commit里所以禁止了一些文件应该是那时候把target误禁了解决办法 1 Ctrl Alt S 找到target 删
OpenCV之摄像头捕捉图像

代码数据类型运行效果代码之前我找过directshow CameraDS VedioCaptureFromCam之类的东西发现都不可以用 directshow是因为版本太老了会出现 http www opencv org cn
Ajax简介和实例

目录什么是 AJAX AJAX实例 ajax get无参 ajax get有参对象和查询字符串的互转 ajax post ajax post 表单 AJAX 是一种在无需重新加载整个网页的情况下能够更新部分网页的技术什么是 AJAX
基于OpenHarmony开发的健康生活应用（ArkTS）

健康生活应用 ArkTS 介绍本篇Codelab介绍了如何实现一个简单的健康生活应用主要功能包括用户可以创建最多6个健康生活任务早起喝水吃苹果每日微笑刷牙早睡并设置任务目标是否开启提醒提醒时间每周任务频率用户可以
ChatGPT报错：Sorry, you have been blocked解决方法

今天打开ChatGPT 发现再一次报错了又一次出问题了无语原因分析 1 内容过滤某些平台或网站可能使用内容过滤系统该系统可能将AlI语言模型视为潜在的风险从而对其进行封锁或限制这是为了防止不当内容的传播或滥用 2 隐私和安全考
转载：NVIDIA GPU结构

http blog itpub net 23057064 viewspace 629236 目前市场上的NVIDIA显卡都是基于Tesla架构的分为G80 G92 GT200三个系列 Tesla体系架构是一块具有可扩展处器数量的处理器阵列

转载：NVIDIA GPU结构

转载：NVIDIA GPU结构 的相关文章

随机推荐

热门标签

转载：NVIDIA GPU结构的相关文章