当内存带宽受限时 SSE 和 AVX 的性能

2024-03-09

在下面的代码中，我更改了“dataLen”并获得了不同的效率。

dataLen = 400 SSE 时间：758000 us AVX 时间：483000 us SSE > AVX

dataLen = 2400 SSE 时间：4212000 us AVX 时间：2636000 us SSE > AVX

dataLen = 2864 SSE 时间:6115000 us AVX 时间:6146000 usa SSE ~= AVX

dataLen = 3200 SSE 时间:8049000 us AVX 时间:9297000 美国 SSE

dataLen = 4000 SSE 时间：10170000us AVX 时间：11690000us SSE

SSE和AVX代码都可以简化为： buf3[i] += buf1[1]*buf2[i];

#include "testfun.h"
#include <iostream>
#include <chrono>
#include <malloc.h>
#include "immintrin.h"
using namespace std::chrono;

void testfun()
{
int dataLen = 4000; 
int N = 10000000;
float *buf1 = reinterpret_cast<float*>(_aligned_malloc(sizeof(float)*dataLen, 32));
float *buf2 = reinterpret_cast<float*>(_aligned_malloc(sizeof(float)*dataLen, 32));
float *buf3 = reinterpret_cast<float*>(_aligned_malloc(sizeof(float)*dataLen, 32));
for(int i=0; i<dataLen; i++)
{
    buf1[i] = 1;
    buf2[i] = 1;
    buf3[i] = 0;
}
//=========================SSE CODE=====================================
system_clock::time_point SSEStart = system_clock::now();
__m128 p1, p2, p3;

for(int j=0; j<N; j++)
for(int i=0; i<dataLen; i=i+4)
{
    p1 = _mm_load_ps(&buf1[i]);
    p2 = _mm_load_ps(&buf2[i]);
    p3 = _mm_load_ps(&buf3[i]);
    p3 = _mm_add_ps(_mm_mul_ps(p1, p2), p3);
    _mm_store_ps(&buf3[i], p3);
}

microseconds SSEtimeUsed = duration_cast<milliseconds>(system_clock::now() - SSEStart);
std::cout << "SSE time used: " << SSEtimeUsed.count() << " us, " <<std::endl;

//=========================AVX　CODE=====================================
for(int i=0; i<dataLen; i++) buf3[i] = 0;

system_clock::time_point AVXstart = system_clock::now();
__m256  pp1, pp2, pp3; 

for(int j=0; j<N; j++)
for(int i=0; i<dataLen; i=i+8)
{       
    pp1 = _mm256_load_ps(&buf1[i]);
    pp2 = _mm256_load_ps(&buf2[i]);
    pp3 = _mm256_load_ps(&buf3[i]);
    pp3 = _mm256_add_ps(_mm256_mul_ps(pp1, pp2), pp3);
    _mm256_store_ps(&buf3[i], pp3);

}

microseconds AVXtimeUsed = duration_cast<milliseconds>(system_clock::now() - AVXstart);
std::cout << "AVX time used: " << AVXtimeUsed.count() << " us, " <<std::endl;

_aligned_free(buf1);
_aligned_free(buf2);
}

我的CPU是Intel Xeon E3-1225 v2，其L1缓存为32KB*4（4核），运行此代码时仅使用1核，因此使用的L1缓存为32KB。

buf1 buf2 和 buf3 足够小，可以分别位于 L1 缓存和 L2 缓存（L2 缓存 1MB）。SSE 和 AVX 都受到带宽限制，但是随着 dataLen 的增加，为什么 AVX 需要比 SSE 更多的时间？

这是一个有趣的观察。我能够重现你的结果。我通过展开循环成功地提高了 SSE 代码的速度（参见下面的代码）。现在上交所dataLen=2864显然更快，对于较小的值，它几乎与 AVX 一样快。对于更大的值，速度仍然更快。这是由于 SSE 代码中的进位循环依赖性造成的（即展开循环会增加指令级并行性 (ILP)）。我没有尝试进一步展开。展开 AVX 代码没有帮助。

但我对你的问题没有明确的答案。我的预感是，这与 ILP 以及 AVX 处理器（例如 Sandy Bridge）只能同时加载两个 128 位字（SSE 宽度）而不是两个 256 位字这一事实有关。因此，在 SSE 代码中，它可以同时执行 1 个 SSE 加法、1 个 SSE 乘法、2 个 SSE 加载和 1 个 SSE 存储。对于 AVX，它可以同时执行一次 AVX 加载（通过端口 2 和 3 上的两个 128 位加载）、一次 AVX 乘法、一次 AVX 加法和一次 128 位存储（AVX 宽度的一半）。换句话说，尽管使用 AVX，乘法和加法的工作量是 SSE 的两倍，但加载和存储仍然是 128 位宽。也许这会导致 AVX 与 SSE 相比，有时代码以加载和存储为主的 ILP 较低？

有关端口和 ILP 的更多信息，请参阅此Haswell、Sandy Bridge、Nehalem 端口比较 http://www.anandtech.com/show/6355/intels-haswell-architecture/8.

__m128 p1, p2, p3, p1_v2, p2_v2, p3_v2;
for(int j=0; j<N; j++)
    for(int i=0; i<dataLen; i+=8)
    {
        p1 = _mm_load_ps(&buf1[i]);
        p1_v2 = _mm_load_ps(&buf1[i+4]);
        p2 = _mm_load_ps(&buf2[i]);
        p2_v2 = _mm_load_ps(&buf2[i+4]);
        p3 = _mm_load_ps(&buf3[i]);
        p3_v2 = _mm_load_ps(&buf3[i+4]);
        p3 = _mm_add_ps(_mm_mul_ps(p1, p2), p3);
        p3_v2 = _mm_add_ps(_mm_mul_ps(p1_v2, p2_v2), p3_v2);
        _mm_store_ps(&buf3[i], p3);
        _mm_store_ps(&buf3[i+4], p3_v2);
    }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

当内存带宽受限时 SSE 和 AVX 的性能的相关文章

加快 pandas groupby 中的滚动总和计算

我想按组计算大量组的滚动总和但我很难快速地完成它 Pandas 内置了滚动和展开计算器的方法这是一个例子 import pandas as pd import numpy as np obs per g 20 g 10000 obs g
SQL Server 2005存储过程性能问题

我遇到以下问题当从我的应用程序调用存储过程时时不时地例如 1000 次调用中的 1 次需要 10 30 秒才能完成通常存储过程的运行时间不到一秒这是一个相当简单的过程只需一个选择即可将几个表连接在一起所有表名都设置有 NO
我应该在 VS Code 中为“json.maxItemsCompulated”设置什么？

默认状态为 5000 个符号这取决于机器的性能还是其他什么从 VS Code 设置 JSON 计算的最大项目数计算的轮廓符号和折叠区域的最大数量由于性能原因而受到限制这与编辑器中的 GUI 按钮相关您可以使用它来折叠 JSON
Google Chrome 中不缓存动态加载的图像

使用 jQuery 加载的图像未保存在 Google Chrome 的缓存中每次都会从服务器下载情况我正在使用 jQuery slimbox2 在灯箱中加载图片此时没有什么特别的我添加了一些 jQuery 代码来检测鼠标光标何
如何防止Googlebot淹没网站？

我正在中间的专用服务器上运行一个内容很多但流量很少的网站有时 Googlebot 会踩踏我们导致 Apache 耗尽内存导致服务器崩溃我怎样才能避免这种情况在谷歌网站管理员工具上注册验证您的网站并限制谷歌机器人提交站点地图阅
为什么在我的例子中 For 循环比 Map、Reduce 和 List 理解更快

我编写了一个简单的脚本来测试速度这就是我发现的结果实际上 for 循环在我的例子中是最快的这真的让我感到惊讶请查看下面正在计算平方和这是因为它在内存中保存列表还是有意为之谁能解释一下这一点 from functools imp
我们可以使用什么方法来重塑非常大的数据集？

当由于非常大的数据计算将花费很长时间并且因此我们不希望它们崩溃时事先知道要使用哪种重塑方法是很有价值的 Lately methods for reshaping data have been further developed regar
非阻塞方法中的饥饿

一段时间以来我一直在阅读有关非阻塞方法的内容这是一段所谓的无锁计数器的代码 public class CasCounter private SimulatedCAS value public int getValue return va
Blue Dragon Coldfusion 服务器缓存问题

我有一个在 ColdFusion MVC 框架 Mach II 中构建的应用程序并托管在蓝龙 ColdFusion 服务器上它会导致缓存问题当我添加一个包含一些内容的新页面并加载该页面时它工作正常但是当我在同一个文件中进行一些更
使用键模式从 Laravel 4 缓存中删除？

对于我的包我们使用 Laravel 缓存我们创建的每个缓存键都有前缀所以我们得到mypackage config mypackage md5ofafilename有时我需要刷新我的包创建的所有缓存文件问题是什么我只知道缓存键的模式
C# 写入文件的性能

我的情况概述我的任务是从文件中读取字符串并将它们重新格式化为更有用的格式重新格式化输入后我必须将其写入输出文件这是必须完成的操作的示例文件行示例 ANO 2010 CPF 17834368168 YEARS 2010 2009
只读有运行时开销吗？

出于某种原因我一直认为readonly字段有与其相关的开销我认为这是 CLR 跟踪是否存在readonly字段是否已初始化这里的开销是一些额外的内存使用量用于跟踪状态以及分配值时的检查也许我这么认为是因为我不知道readonly字
对于双核手机，availableProcessors() 返回 1

我最近购买了一部 Moto Atrix 2 手机当我尝试查看手机中的处理器规格时 Runtime getRuntime availableProcessors 返回 1 proc cpuinfo 也仅包含有关处理器 0 的信息出于好奇
这个 cProfile 结果告诉我需要修复什么？

我想提高Python脚本的性能并且一直在使用cProfile生成性能报告 python m cProfile o chrX prof bgchr py args 我打开这个chrX prof使用 Python 的文件pstats并打印出统计
在 nHibernate 关系中使用实体的 Lite 版本？

在某些情况下出于性能原因创建一个实体的轻量级版本指向同一个表但映射的列较少这是一个好主意吗例如如果我有一个包含 50 列的联系人表并且在一些相关实体中我可能对 FirstName 和 LastName 属性感兴趣那么创建
为什么C++代码执行速度比java慢？

我最近用 Java 编写了一个计算密集型算法然后将其翻译为 C 令我惊讶的是 C 的执行速度要慢得多我现在已经编写了一个更短的 Java 测试程序和一个相应的 C 程序见下文我的原始代码具有大量数组访问功能测试代码也是如此 C 的
是否可以提高 Mongoexport 速度？

我有一个 1 3 亿行的 MongoDB 3 6 2 0 集合它有几个简单的字段和 2 个带有嵌套 JSON 文档的字段数据以压缩格式 zlib 存储我需要尽快将其中一个嵌入字段导出为 JSON 格式然而 mongoexport 需
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
为什么 C# Array.BinarySearch 这么快？

我已经实施了一个很简单用于在整数数组中查找整数的 C 中的 binarySearch 实现二分查找 static int binarySearch int arr int i int low 0 high arr Length 1 mid
在哪里可以找到列出 SSE 内在函数操作的官方参考资料？

是否有官方参考列出了 GCC 的 SSE 内部函数的操作即头文件中的函数除了 Intel 的 vol 2 PDF 手册外还有一个在线内在指南 https www intel com content www us en docs in

随机推荐

IEnumerator 实现

我有一个这个代码 public class SomeClass
消除网格间隙

我有一个 div 其元素对齐为一行这是它的 css 类 myRow display grid grid template columns 0 1fr 0 1fr 2fr 3fr 2fr grid column gap 10px grid
如何在 OpenSSL 中获取 SSL 证书

因此我一直在寻找如何在我正在开发的 C 应用程序中的 OpenSSL 中验证服务器的证书我终于得到了提示但是我仍然缺少一些步骤所以我发现OpenSSL有一个名为s client的ssl客户端应用程序当我使用以下命令时 echo
自定义qt项目时使用条件

再会我有一个 qt 项目我想使用 pro 文件条件对其进行自定义值得注意的是我想使用一个 pro 文件来获取多个输出如下所示 DEFINES APP1 0 APP2 1 DEFINES TYPE APP1 if TYPE APP1
AG-Grid 大数据集渲染时间（慢）

我有一个网格其中包含大量但合理的数据大约 12 000 个单元格 340 列和 34 行我知道这看起来像是一个横向表格但对于我们的应用程序来说它更可能有大量的列和更少的行当数据约为 2300 个单元格 68 列和 34 行时
如何访问pgadmin数据库设计器？

我正在运行 pgadmin 1 18 在选项窗格中我可以设置数据库设计器的字体但我发现绝对无法访问此数据库设计器窗口没有图标或菜单或任何这是 pgadmin 1 18 下的可用功能吗应该启用它吗图形查询生成器 Source ht
Accurev 中的 diff 与 basic 和 backing 之间有什么区别

Accurev 中与基础的差异和与支持的差异有什么区别我从您在本论坛中的其他帖子中假设这里的上下文将是在您的工作区中根据支持或基础对文件进行比较与基础进行比较将在进行更改之前将您工作区中当前拥有的文件与您开始使用的版本进行比较
Get-ADUser 错误：枚举上下文无效

我前几天发布了这个问题从分组对象中提取电子邮件 https stackoverflow com questions 30856287 extract e mail from grouped objects 30856711 noredire
AFNetworking 启用 GZIP

我在 AFNetworking 网站上查看支持 GZIP 压缩服务器响应的 Gzip 解压缩已内置于 AFNetworking 中因为 NSURLConnection 将使用 Content Encoding gzip HTTP 标头自
ActionMailer和开发模式，可以写入文件什么的吗？

我想在本地测试我的注册过程开发模式如何测试电子邮件的发送和呈现方式等我不是指单元测试或集成测试而是指在开发我的应用程序并进入注册页面等时我希望它发送电子邮件但发送到不使用 smtp 的文件这可能吗我有什么选择这是可配置的c
有没有办法让 Javascript 在 DOMPDF 生成的 PDF 中工作？

我目前正在测试 DOMPDF 并让它非常适合我的目的包括 CSS 样式显示从 mysql 数据库获取的内容等现在我尝试使用一些Javascript 但它不起作用我使用了一个非常简单的脚本进行测试页面上某处的 HTML div st
在 WKUIDelegate SwiftUI 上实现 Javascript 警报并确认？

由于我是 Swift 新手我不确定如何为 Swift 编写一个函数以便从 Web 应用程序进行交互式 Javascript 警报和确认我正在使用 SwiftUI 创建一个 Web 应用程序需要为我的 Swift Web 应用程序实现
如何使用xslt合并元素？

我有一个带有元素的段落参考类型 Example 输入文件
UILocalNotification 不执行任何操作

这似乎是一个愚蠢的问题但这是我第一次使用 UILocalNotification 我无法让它进行快速测试它只是没有做任何事情 1 我在AppDelegate中创建了2个变量 let today NSDate let notificati
Java 中的类型映射

我想实现这样一个地图 Map
清除核心数据中的上下文：重置与删除注册对象？

我一直在寻找与此相关的帖子但我不完全理解有什么区别 context reset and for NSManagedObjectID objId in objectIds context deleteObject context obje
React - 通过单击提交按钮将项目从输入添加到列表中

我正在练习反应并尝试通过单击提交按钮将项目添加到输入列表中我更喜欢使用 state 和 setState 我很想得到一些帮助我认为不需要我的代码但无论如何这是它 class App extends Component state u
JACOB 库在多线程中使用时失败

我在两个因此启动的相同线程中使用 JACOB 时遇到了一个奇怪的问题我有一个实用程序类它使用静态 ActiveXObject 字段将各种请求分派到 WMI 第一个线程工作正常当第二个线程启动时出现以下异常 com jacob com
通过接口枚举 - 性能损失

我和我的同事就通过索引访问列表的性能发生了一些争议这非常接近圣战 VS通过枚举器为了根据一些事实进行操作我编写了以下测试 static void Main string args const int count 10000000 va
当内存带宽受限时 SSE 和 AVX 的性能

在下面的代码中我更改了 dataLen 并获得了不同的效率 dataLen 400 SSE 时间 758000 us AVX 时间 483000 us SSE gt AVX dataLen 2400 SSE 时间 4212000 us A

当内存带宽受限时 SSE 和 AVX 的性能

当内存带宽受限时 SSE 和 AVX 的性能 的相关文章

随机推荐

热门标签

当内存带宽受限时 SSE 和 AVX 的性能的相关文章