为什么 _mm_stream_ps 会产生 L1/LL 缓存未命中？

2024-01-23

我正在尝试优化计算密集型算法，但遇到了一些缓存问题。我有一个巨大的缓冲区，它偶尔会随机写入，并且在应用程序结束时只读取一次。显然，写入缓冲区会产生大量缓存未命中，并且还会污染随后再次需要进行计算的缓存。我尝试使用非时间移动内在函数，但缓存未命中（由 valgrind 报告并由运行时测量支持）仍然发生。然而，为了进一步研究非时间移动，我编写了一个小测试程序，您可以在下面看到。顺序访问，大缓冲区，仅写入。

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <smmintrin.h>

void tim(const char *name, void (*func)()) {
    struct timespec t1, t2;
    clock_gettime(CLOCK_REALTIME, &t1);
    func();
    clock_gettime(CLOCK_REALTIME, &t2);
    printf("%s : %f s.\n", name, (t2.tv_sec - t1.tv_sec) + (float) (t2.tv_nsec - t1.tv_nsec) / 1000000000);
}

const int CACHE_LINE = 64;
const int FACTOR = 1024;
float *arr;
int length;

void func1() {
    for(int i = 0; i < length; i++) {
        arr[i] = 5.0f;
    }
}

void func2() {
    for(int i = 0; i < length; i += 4) {
        arr[i] = 5.0f;
        arr[i+1] = 5.0f;
        arr[i+2] = 5.0f;
        arr[i+3] = 5.0f;
    }
}

void func3() {
    __m128 buf = _mm_setr_ps(5.0f, 5.0f, 5.0f, 5.0f);
    for(int i = 0; i < length; i += 4) {
        _mm_stream_ps(&arr[i], buf);
    }
}

void func4() {
    __m128 buf = _mm_setr_ps(5.0f, 5.0f, 5.0f, 5.0f);
    for(int i = 0; i < length; i += 16) {
        _mm_stream_ps(&arr[i], buf);
        _mm_stream_ps(&arr[4], buf);
        _mm_stream_ps(&arr[8], buf);
        _mm_stream_ps(&arr[12], buf);
    }
}

int main() {
    length = CACHE_LINE * FACTOR * FACTOR;

    arr = malloc(length * sizeof(float));
    tim("func1", func1);
    free(arr);

    arr = malloc(length * sizeof(float));
    tim("func2", func2);
    free(arr);

    arr = malloc(length * sizeof(float));
    tim("func3", func3);
    free(arr);

    arr = malloc(length * sizeof(float));
    tim("func4", func4);
    free(arr);

    return 0;
}

函数 1 是简单的方法，函数 2 使用循环展开。函数 3 使用 movntps，实际上至少在我检查 -O0 时它已插入到程序集中。在函数 4 中，我尝试同时发出多个 movntps 指令来帮助 CPU 进行写组合。我编译了代码gcc -g -lrt -std=gnu99 -OX -msse4.1 test.c where X是 [0..3] 之一。结果是..充其量是有趣的：

-O0
func1 : 0.407794 s.
func2 : 0.320891 s.
func3 : 0.161100 s.
func4 : 0.401755 s.
-O1
func1 : 0.194339 s.
func2 : 0.182536 s.
func3 : 0.101712 s.
func4 : 0.383367 s.
-O2
func1 : 0.108488 s.
func2 : 0.088826 s.
func3 : 0.101377 s.
func4 : 0.384106 s.
-O3
func1 : 0.078406 s.
func2 : 0.084927 s.
func3 : 0.102301 s.
func4 : 0.383366 s.

正如您所看到的，当程序未经过 gcc 优化时，_mm_stream_ps 比其他程序要快一些，但当 gcc 优化打开时，_mm_stream_ps 明显无法达到其目的。 Valgrind 仍然报告大量缓存写入未命中。

因此，问题是：为什么即使我使用 NTA 流指令，那些 (L1+LL) 缓存未命中仍然会发生？为什么特别是 func4 这么慢？！有人可以解释/推测这里发生了什么吗？

您的基准测试可能主要衡量内存分配性能，而不仅仅是写入性能。您的操作系统可能分配的内存页不在malloc，但在第一次触摸时，在你的内部func*功能。在分配大量内存后，操作系统也可能会进行一些内存洗牌，因此在内存分配后立即执行的任何基准测试可能不可靠。
你的代码有aliasing http://en.wikipedia.org/wiki/Aliasing_%28computing%29问题：编译器不能保证你的数组的指针在填充这个数组的过程中不会改变，所以它必须总是加载arr来自内存的值而不是使用寄存器。这可能会降低一些性能。避免别名的最简单方法是复制arr and length到局部变量并仅使用局部变量来填充数组。有许多众所周知的建议可以避免使用全局变量。别名是原因之一。
_mm_stream_ps如果数组按 64 字节对齐，效果会更好。在您的代码中，无法保证对齐（实际上，malloc按 16 字节对齐）。这种优化仅对于短数组才显着。
打电话是个好主意_mm_mfence当你完成之后_mm_stream_ps。这是为了正确性所需要的，而不是为了性能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 _mm_stream_ps 会产生 L1/LL 缓存未命中？的相关文章

未提供参数时如何指定 C# System.Commandline 行为？

在我的控制台应用程序中当未提供控制台参数时将执行我指定列表在本例中为参数 3 的任何处理程序调用该处理程序时布尔参数设置为 false 但对我来说根本不调用它更有意义如何防止这种情况发生并显示帮助文本 using System
Directory.Delete 之后 Directory.Exists 有时返回 true ？

我有非常奇怪的行为我有 Directory Delete tempFolder true if Directory Exists tempFolder 有时 Directory Exists 返回 true 为什么可能是资源管理器打开了
是否可以使用“git gc”来打包引用日志对象？

正如答案所暗示的https stackoverflow com a 32025729 https stackoverflow com a 32025729我已经配置了远程裸仓库 git config gc pruneExpire never
如何在c++中读取pcap文件来获取数据包信息？

我想用 C 编写一个程序来读取 pcap 文件并获取数据包的信息例如 len sourc ip flags 等现在我找到了如下代码我认为它会帮助我获取信息但是我有一些疑问首先我想知道应该将哪个库添加到我的程序中然后什么是 pca
计算 Richtextbox 中所有单词的最有效方法是什么？

我正在编写一个文本编辑器需要提供实时字数统计现在我正在使用这个扩展方法 public static int WordCount this string s s s TrimEnd if String IsNullOrEmpty s re
单个对象的 Monogame XNA 变换矩阵？

我读过一些解释 XNA Monogame 变换矩阵的教程问题是这些矩阵应用于 SpriteBatch Begin matrix 这意味着所有 Draw 代码都将被转换如何将变换矩阵应用于单个可绘制对象就我而言我想转换滚动背景使其自
如何创建包含 IPv4 地址的文本框？ [复制]

这个问题在这里已经有答案了如何制作一个这样的文本框我想所有的用户都见过这个并且知道它的功能您可以使用带有 Mask 的 MaskedTestBox000 000 000 000 欲了解更多信息请参阅文档 http msdn micr
标准化 UTF-8 到底是什么？

The 重症监护室项目 http userguide icu project org transforms normalization 现在也有一个PHP库 http us php net manual en class normalize
具有交替类型的可变参数模板参数包

我想知道是否可以使用参数包捕获交替参数模式例如 template
我可以使用 moq Mock 来模拟类而不是接口吗？

正在经历https github com Moq moq4 wiki Quickstart https github com Moq moq4 wiki Quickstart 我看到它 Mock 一个接口我的遗留代码中有一个没有接口的类
如何检测表单的任何控件的变化？

如何检测 C 中表单的任何控件的更改由于我在一个表单上有许多控件并且如果表单中的任何控件值发生更改我需要禁用按钮我正在寻找一些内置函数事件处理程序属性并且不想为此创建自定义函数不我不知道任何时候都会触发任何事件any控制表
SignalR 似乎正在减慢我的 MVC/Azure 应用程序的启动速度

我有一个 MVC 应用程序在 Windows Azure 上的 WebRole 上的 NET 4 5 下运行使用 SignalR 1 0 alpha2 并使用 ServiceBus 底板在我的 App Start 文件夹中我有 Reg
外键与独立关系 - Entity Framework 5 有改进吗？

我读过了several http www ladislavmrnka com 2011 05 foreign key vs independent associations in ef 4 文章和问题 https stackoverflow
“接口”类似于 boost::bind 的语义

我希望能够将 Java 的接口语义与 C 结合起来起初我用过boost signal为给定事件回调显式注册的成员函数这非常有效但后来我发现一些函数回调池是相关的因此将它们抽象出来并立即注册所有实例的相关回调是有意义的但我了解到的
方法优化 - C#

我开发了一种方法允许我通过参数传入表字符串列数组字符串和值数组对象然后使用这些参数创建参数化查询虽然它工作得很好但代码的长度以及多个 for 循环散发出一种代码味道特别是我觉得我用来在列和值之间插入逗号的方法可以用不同的
如何部署“SQL Server Express + EF”应用程序

这是我第一次部署使用 SQL Server Express 数据库的应用程序我首先使用实体框架模型来联系数据库我使用 Install Shield 创建了一个安装向导来安装应用程序这些是我在目标计算机中安装应用程序所执行的步骤安装
System.IO.FileNotFoundException：找不到网络路径。在 Windows 7 上使用 DirectoryEntry 对象时出现异常

我正在尝试使用 DirectoryEntry 对象连接到远程 Windows 7 计算机这是我的代码 DirectoryEntry obDirEntry new DirectoryEntry WinNT hostName hostName
无法接收 UDP Windows RT

我正在为 Windows 8 RT 编写一个 Windows Store Metro Modern RT 应用程序需要在端口 49030 上接收 UDP 数据包但我似乎无法接收任何数据包我已按照使用教程进行操作DatagramSock
使用 .NET Process.Start 运行时挂起进程 - 出了什么问题？

我在 svn exe 周围编写了一个快速而肮脏的包装器来检索一些内容并对其执行某些操作但对于某些输入它偶尔会重复挂起并且无法完成例如一个调用是 svn list svn list http myserver 84 svn Docum
当我使用 OpenSSL1.1.0g 根据固定的 p 和 g 值创建 Diffie Hellman 密钥协议密钥时，应该执行哪些检查？

您好我尝试通过这段代码使用修复 p 和 g 参数来制作 Diffie Hellman Keysanswer https stackoverflow com a 54538811 4706711 include

随机推荐

使用 ffmpeg 循环更改 bash 变量

我编写了一个脚本用于根据我在时间戳上录制的视频快速创建简短的预览剪辑我发现这些视频值得稍后查看以进行剪辑我的带有时间戳的文件是这样写的 FILE NAME1 MM SS MM SS FILE NAME2 MM SS MM SS MM
如何为 AWS Elastic Beanstalk 部署运行 npm 脚本？

My package json has scripts start node modules bin coffee server coffee test NODE ENV test node test runner js coverage
Android 7.1 写入文本文件

来自果冻豆的牛轧糖新手尝试将文本文件写入 SD 卡我知道我现在必须请求权限但找不到任何有效的代码尝试了以下方法 StringBuilder bodyStr new StringBuilder bodyStr append data1St
用 Java 下载的 PDF 已损坏？

我读过有关的精彩讨论如何使用 Java 从 Internet 下载并保存文件 https stackoverflow com questions 921262 how to download and save a file from int
有条件地启用 C++ 类中的构造函数 [重复]

这个问题在这里已经有答案了我正在学习如何使用std enable if到目前为止我在课堂上有条件地启用和禁用方法方面取得了一定程度的成功我根据布尔值对方法进行模板化此类方法的返回类型是std enable if这样的布尔值这里的最
如何在 Python 中创建迭代器管道？

是否有库或推荐的方法在 Python 中创建迭代器管道例如 gt gt gt all items get created by location surrounding cities 我还希望能够访问迭代器中对象的属性在上面的例子中 a
每个类元素的简单 jquery .hover() 方法

没做过太多jquery 遇到了问题我想为所有具有 social tile 类的 div 绑定悬停事件我这样做 function var social default social tile css margin right social
在 VS 2012 中调试 javascript - 本地主机缓存有旧代码

我开始构建一个 PhoneGap 应用程序并决定使用 VS2012 作为编辑器调试器因为 Eclipse 和 XCode 不进行 javascript 调试或者它们做也许我错过了一些东西并且 VS2012 有 js 的智能感知
对 Lisp 引用感到困惑

我有一个关于 lisp 中列表评估的问题 Why is a and a 1 未评价 defun test a a 1 就像 print 4 这里不评价 if lt 1 2 print 3 print 4 but print 2 3 在这里评
C# 类似于 VBA 中的 List

我想创建一个List
Codenameone 中使用 split 方法时出错

我创建了一个新的 Codenameone 项目它包含以下代码 String values one two tree String v values split Codename One 支持 Java 5 的一个子集String spli
使用 jQuery 调用 Sinatra 删除路由

我对 Sinatra 还很陌生正在制作一个利用基本 CRUD 功能的简单待办事项应用程序在后端我有工作路线并测试了所有内容我想合并一些前端功能并决定使用 jQuery 来帮助实现这一点我在 jQuery 中有一段当前代码当单击
具有自定义对象的可过滤适配器

我想将自动完成文本框添加到 xamarin android 中的列表视图自定义对象中我有一个列表视图它是从字符串数组填充的我想使用自定义对象填充我的列表视图下面的代码适用于字符串数组任何帮助实现我的自定义对象适配器都会有所帮助
如何更改两层的 ggplot 图例标签和名称？

我正在使用 ggmap 和 ggplot 包绘制圣保罗地图中两个不同数据帧的经度和纬度坐标并希望手动标记每个图例图层更新我编辑了下面的代码以使其完全可重现我使用的是地理编码函数而不是 get map 更新我想在不合并数据帧的情况下
addTooltip 间歇性地使用observeEvent 中的两个输入

我正在构建一个闪亮的应用程序来绘制网络用户可以选择一个节点单击切换按钮以显示该节点的自我网络然后单击相同的按钮返回主网络我试图获得一个工具提示将鼠标悬停在按钮上其中的文本会根据按钮本身的状态以及是否选择节点而变化问题是工具提示
Google Apps 脚本：一天内调用服务次数过多：电子邮件

我正在尝试循环浏览电子表格并为每一行发送一封电子邮件电子邮件发送后我想删除该行然而那是行不通的由于某种原因它开始疯狂地发送电子邮件并在某个时候达到限制并退出它实际上只删除一行请参阅下面的代码 function sendEm
Fortran 与 C++ 相比，如今 Fortran 在数值分析方面是否仍然具有优势？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案随着C 编译器尤其是intel编译器的快速发展以及在C C 代码中直接应用SIMD函数的能力 Fortran在数值计算领域是否仍然具有真正
如何在 App.config 中设置 SQLCommandTimeout

我已经使用 SQL 数据库开发了一个 Window 服务目前我的数据库中充满了记录因此查询执行需要很长时间而默认命令超时为 30S 但我想将其增加到 120S 一个选项是 com CommandTimeout 120 但我的应用程序中
Java 方法中的动态返回类型

我在这里多次看到类似的问题但有一个很大的区别在其他问题中返回类型由参数确定我想要需要做的是通过解析的值确定返回类型byte 根据我收集的信息以下方法可能有效 public Comparable getParam String p
为什么 _mm_stream_ps 会产生 L1/LL 缓存未命中？

我正在尝试优化计算密集型算法但遇到了一些缓存问题我有一个巨大的缓冲区它偶尔会随机写入并且在应用程序结束时只读取一次显然写入缓冲区会产生大量缓存未命中并且还会污染随后再次需要进行计算的缓存我尝试使用非时间移动内在函数但缓存未

为什么 _mm_stream_ps 会产生 L1/LL 缓存未命中？

为什么 _mm_stream_ps 会产生 L1/LL 缓存未命中？ 的相关文章

随机推荐

热门标签

为什么 _mm_stream_ps 会产生 L1/LL 缓存未命中？的相关文章