为什么GPU做矩阵乘法比CPU更快？

2024-01-22

我已经使用 GPU 一段时间了，没有质疑它，但现在我很好奇。

为什么GPU做矩阵乘法比CPU快很多？是因为并行处理吗？但我没有写任何并行处理代码。它自己会自动完成吗？

任何直觉/高级解释将不胜感激！

如何并行计算？

GPU 能够进行大量并行计算。比 CPU 能做的要多得多。看一下这个 1M 个元素的向量加法示例。

使用 CPU 假设您最多可以运行 100 个线程：（100 是很多，但让我们假设一下）

在典型的多线程示例中，假设您在所有线程上并行添加。

这就是我的意思：

c[0] = a[0] + b[0] # let's do it on thread 0
c[1] = a[1] + b[1] # let's do it on thread 1
c[101] = a[101] + b[101] # let's do it on thread 1

我们能够做到这一点是因为 c[0] 的值不依赖于除 a[0] 和 b[0] 之外的任何其他值。因此，每个添加都是独立于其他添加的。因此，我们能够轻松地并行化该任务。

正如您在上面的示例中看到的，100 个不同元素的添加同时进行，节省了您的时间。这样需要 1M/100 = 10,000 步才能添加所有元素。

GPU 并行化的效率如何？

现在考虑一下今天的 GPU 大约有 2048 个线程，所有线程可以在恒定时间内独立执行 2048 个不同的操作。因此给予提升。

在你的矩阵乘法的情况下。你可以并行计算，因为 GPU 有更多的线程，并且每个线程中有多个块。因此许多计算是并行的，从而实现快速计算。

但我没有为我的 GTX1080 编写任何并行处理！它自己做吗？

几乎所有机器学习框架都使用所有可能操作的并行实现。这是通过 CUDA 编程、NVIDIA API 在 NVIDIA GPU 上进行并行计算来实现的。你不明确地写出来，都是在底层完成的，你甚至不知道。

是的，这并不意味着您编写的 C++ 程序会自动并行化，仅仅因为您有 GPU。不，你需要使用CUDA来编写它，然后它才会被并行化，但是大多数编程框架都有它，所以你端不需要它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

parallelprocessing

GPU

matrixmultiplication

Pytorch

为什么GPU做矩阵乘法比CPU更快？的相关文章

有没有办法在bigquery中使用kmeans、tensorflow保存的模型？

我知道这有点愚蠢因为 BigQueryML 现在为 Kmeans 提供了良好的初始化尽管如此我还是需要在张量流中训练一个模型然后将其传递给 BigQuery 进行预测我保存了模型一切正常直到我尝试将其上传到 bigquery
AttributeError：模块“tensorflow.python.framework.ops”没有属性“RegisterShape”

我正在使用 TensorFlow 2 1 0 dev20191125 不幸的是我无法编译一个带有错误的简单示例 AttributeError 模块 tensorflow python framework ops 没有属性 Registe
无法在jupyter笔记本中导入torch

系统 macOS 10 13 6 蟒蛇 3 7 蟒蛇3 我遇到麻烦时import torch在 jupyter 笔记本中 ModuleNotFoundError No module named torch 这是我安装 pytorch 的方法
在 Java 中并行处理两个任务

我想在一个方法中调用8个方法这8个方法中的2个方法是一个洞任务其余6个方法是另一个洞任务我想同时并行处理这两个任务据我所知我可以用线程来做到这一点但说实话要么我看不到与我的目标相似的示例要么即使我看到了我也无法理解该示例您
在tensorflow.js中对张量进行分区、屏蔽或过滤

我有 2 个相同长度的张量 data and groupIds 我想分开data通过相应的值分成几组groupId 例如 const data tf tensor 1 2 3 4 5 const groupIds tf tensor 0 1
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
如何在 py_function 之后重塑（图像，标签）数据集

我正在尝试读取自定义映射数据集进行训练但是在使用 py function 映射数据集后我得到了未知的形状例如 def process path file path label get label file path img tf io
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
nvidia GPU 上的内核真的有超时吗？

寻找为什么我的内核产生奇怪的错误消息或仅 0 结果的答案我发现了这个answer https stackoverflow com questions 3988645 cl out of resources for 2 millions fl
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
Microsoft 的并行模式库：有人想知道移植到 POSIX / Linux 有多困难吗？

该书已出版 http blogs msdn com b vcblog archive 2011 03 15 10139453 aspx http blogs msdn com b vcblog archive 2011 03 15 1013
并行运行 shell 脚本

我有一个 shell 脚本打乱大型文本文件 600 万行和 6 列根据第一列对文件进行排序输出 1000 个文件所以伪代码看起来像这样 file1 sh bin bash for i in seq 1 1000 do Generat
在函数内部调用 clusterApply 时，性能会下降

我遇到了一个奇怪的问题clusterApply 我已经能够尽可能地隔离它如下所示首先我从全局环境运行以下代码 require parallel cl lt makeCluster rep localhost 20 SOCK xl lt
CUDA 与 DataParallel：为什么有区别？

我有一个简单的神经网络模型我应用cuda or DataParallel 在模型上如下所示 model torch nn DataParallel model cuda OR model model cuda 当我不使用 DataPara
从 torch.autograd.gradcheck 导入 zero_gradients

我想复制代码here https github com LTS4 DeepFool blob master Python deepfool py 并且我在 Google Colab 中运行时收到以下错误 ImportError 无法导入名称
tf.print() vs Python print vs tensor.eval()

看来在Tensorflow中至少有三种方法可以打印出张量的值我一直在读here https www freecodecamp org news debugging tensorflow a starter e6668ce72617 an
ValueError：形状（无，1）和（无，2）不兼容

我正在训练面部表情愤怒与快乐模型最后一个密集输出层以前为 1 但当我预测图像时它的输出始终为 1 准确度为 64 所以我将其更改为 2 表示 2 个输出但现在我收到这个错误 Epoch 1 15 ValueError Traceb
JavaScript 并行性

好吧首先我想说我在互联网开发领域还是个新手无论如何我想知道是否可以使用 javascript 并行运行两段代码我真正需要的是调用远程服务器中的两个方法我为两者传递了一个回调函数该函数将在我想要的数据准备好后立即执行由于运行这些
TensorFlow Bazel 构建失败

我正在使用 Bazel 构建 TensorFlowbazel build c opt config cuda tensorflow cc tutorials example trainer按照 TensorFlow 的指示从源安装说明
如何恢复tensorflow inceptions检查点文件（ckpt）？

I have inception resnet v2 2016 08 30 ckpt文件是预先训练的初始模型我想使用恢复这个模型 saver restore sess ckpt filename 但为此我将需要编写训练该模型时使用的变量

随机推荐

Rails 协会中未找到名为关联的可能拼写错误的问题

这是我的控制器 post Post joins customers select customers posts find params id 我的帖子模型 belongs to customer 我的客户模型 has many posts
如何在 AngularJS 单元测试中模拟 Promise 的结果？

My CompanyService is angular module mean service CompanyService http rootScope q function http rootScope q var company t
从异步 Firestore 查询返回值 swift

我正在尝试查询我的 Firestore 数据库以查看是否使用了所需的用户名该查询有效但是我需要返回一个值如果该值为空或不存在以查看用户名是否已存在我正在尝试使用完成处理程序但它似乎不起作用 func checkUserTaken
Git - 将代码推送到两个遥控器

I have two远程 git 存储库 origin and github 我推我的分支devel到两个存储库 git push u origin devel git push u github devel 但当我这么做的时候 git p
如果用户可以使用 rtl 或 ltr 语言，如何自动更改输入字段的 CSS 方向属性

示例如果我使用阿拉伯语则文本字段方向将为 rtl 如果我想编写新文本并切换到英语则文本字段内的方向 text align left 将自动为 ltr 您可以使用全局 HTML5 属性dir值为auto在这里像这样
在 Google App Engine 中生成唯一且不透明的用户 ID

我正在开发一个应用程序它允许注册用户创建或上传内容并允许匿名用户查看该内容并浏览注册用户的页面以查找该内容这与 Flickr 等网站允许的方式非常相似人们浏览其用户的页面为此我需要一种方法来识别匿名 HTTP GET 请求中的用户
重写公式字符串，将 a^b 替换为 Math.pow(a, b)

我目前正在尝试在 HTML5 上绘制公式
设计帮助 – 多态事件处理

设计问题多态事件处理我目前正在尝试减少当前项目中事件句柄的数量我们有多个通过 USB 发送数据的系统我目前有一个例程来读取消息并解析初始标头详细信息以确定消息来自哪个系统标头有点不同因此我创建的 EventArgs 不一样然后
通过 Oauth 以编程方式从 Gmail 注销

我有一个网站我使用 Oauth 将用户登录到 Gmail 然后检索他们的联系人和其他信息我需要做什么才能确保当用户注销我的网站时他也会自动从 Gmail 注销据我所知 OAuth 中没有注销功能您只需停止在应用程序和 Gmail
如何使用 AngularJS 更新/编辑数据库中的数据

在开发网络应用程序时我刚刚添加了以下更新代码但它不起作用以下所有代码的摘要是单击名为的按钮update 它会显示表格其中应包含单击当前产品的值现在当我以这种形式点击保存时它应该更新数据库但事实并非如此我在用 GET
Files.createDirectory() ：FileAlreadyExistsException

我在使用 Java 7 时遇到了一个看似奇怪的问题Files班级我想在开始编写之前确保我的目录和文件存在以避免FileNotFoundException 并根据Javadocs http docs oracle com javase 7
带线程的 Python 超时上下文管理器

I have timeout上下文管理器与信号完美配合但在多线程模式下会引发错误因为信号仅在主线程中工作 def timeout handler signum frame raise TimeoutException contextma
Django Rest框架-调用另一个基于类的视图

我仔细研究了几个类似的帖子并且从同一项目中的另一个应用程序调用应用程序的基于类的视图 https stackoverflow com questions 46606247 calling a class based view of an
shell脚本-检查mongodb服务器是否正在运行

我有一个 shell 脚本来执行一些 mongo db 操作 e g mongo testdb eval db dropDatabase 但是如果 mongodb 服务器没有运行我会得到 MongoDB shell version 2
访问 WPF DataGrid“空”或“行列”标头

我试图访问 Net3 5 WPF DataGrid 中行标题和列标题交叉处的标题乔什史密斯 Josh Smith 在有关不同网格控件的文章中将其称为空标题我将其称为 RowColumn 标题因为它位于列标题和行标题的第一个位置并
使用 Beta API 创建新会议时出现“onlinemeeting 不能为空”错误

我正在尝试创建一个新会议文档 https developer microsoft com en us graph docs api reference beta api application post onlinemeetings POS
location.href 不起作用

我早些时候使用过 location href 但现在它没有重定向到页面这是我的代码 function AuthenticateUserWithPage var UId amwayId val username var UPw amwayP
Eclipse - Galileo IDE 在构建之前强制保存更改的文件？

当我使用以前版本的 Eclipse 例如 Ganymede Europa 时如果我编辑了一个文件然后尝试构建 Eclipse 会提示我先保存由于我更新到 Galileo 构建 ID 20090920 1017 并刚刚检查更新当我构建时
如何使用 font-awesome 在 angular5 视图中显示评论星星

我在数据库中有评论星级值例子2 5对于一个项目我想使用 font awesome 在模板中显示它 ul class rating inline ul li i class fa fa star amber text i li li i
为什么GPU做矩阵乘法比CPU更快？

我已经使用 GPU 一段时间了没有质疑它但现在我很好奇为什么GPU做矩阵乘法比CPU快很多是因为并行处理吗但我没有写任何并行处理代码它自己会自动完成吗任何直觉高级解释将不胜感激如何并行计算 GPU 能够进行大量并行计算比

热门标签