英特尔 MKL 多线程矩阵向量乘法 sgemv() 在小中断后变慢

2023-11-29

我需要每 500 微秒运行一次多线程矩阵向量乘法。矩阵是一样的，向量每次都在变化。

我在 64 核 AMD CPU 上的 MKL 中使用 Intel sgemv()。如果我在一个小测试程序中计算没有间隙的 for 循环中的乘法，则每次调用 sgemv() 需要 20 微秒。如果我向 for 循环添加一个大约需要 500 微秒的自旋循环（轮询 TSC），则每次 sgemv() 调用的时间会增加到 30 微秒（如果我使用 OMP_WAIT_POLICY=ACTIVE，且 OMP_WAIT_POLICY=PASSIVE（默认值）），则甚至长达 60 微秒。

有谁知道会发生什么以及为什么休息时速度会变慢？可以采取什么措施来避免这种情况？

无论旋转循环是单线程还是在“#pragma omp parallel”上下文中，似乎都没有什么区别。在旋转循环中是否让 AVX 单元保持忙碌也没有什么区别。 CPU 内核是隔离的，测试程序以高优先级运行，并使用 SCHED_FIFO（在 Linux 上是这样）。

自旋等待功能：

static void spin_wait(int num)
{
  uint64_t const start = rdtsc();
  while( rdtsc() - start < num )
  {;}
}

for-loop

uint64_t t0[num], t1[num];
for( int i=0; i<num; i++ )    
{
  // modify input vector, just incrementing each element

  t0[i] = rdtsc();
  cblas_sgemv(...);
  t1[i] = rdtsc();
  spin_wait( 500us );
}

可能与上下文切换有关，因为您没有使用“真正的”实时操作系统。也可能与缓存相关（或两者）。根据预测算法和问题的大小，如果您的代码仍然“热”并且您随后重复它数千次（即使对于与缓存相关的原因来说，美国范围似乎相当大，恕我直言，也许我们的范围似乎很大，那么缓存预取可能会工作得更好）如果还涉及 RAM 访问）。我仍然不会排除频率缩放的原因，因为处理器可能会遇到功率限制，迫使其缩小一点（AVX2 指令通常非常耗电……）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

英特尔 MKL 多线程矩阵向量乘法 sgemv() 在小中断后变慢的相关文章

了解微架构原因，使更长的代码执行速度提高 4 倍（AMD Zen 2 架构）

我有以下 C 17 代码是在 x64 模式下使用 VS 2019 版本 16 8 6 编译的 struct declspec align 16 Vec2f float v 2 struct declspec align 16 Vec4f
顺序和并行版本给出不同的结果 - 为什么？

我有一个嵌套循环 L 和 A 是完全定义的输入 pragma omp parallel for schedule guided shared L A reduction dummy for i k 1 i
为什么 Visual Studio 2019 不支持 Openmp 的 for-reduction 中的关键字“max”？

当我像这样使用 openmp 时 pragma omp parallel for reduction max dumax IDE 将在 Openmp 中引发错误 max reduction 无效 pragma omp parallel fo
现在 x86 上有多少指令？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我正在尝试
Fortran + OpenMP + 多态性：到底不支持什么？

我知道 OpenMP 4 5 标准表示 Fortran 中不支持多态实体这到底是什么意思这是否仅排除对具有 PASS 属性的类型绑定过程的调用但我仍然可以以其他方式使用具有类型绑定过程的用户定义类型的实例例如访问其组件此限制是否
Intel x86 与 AMD x86 CPU 上的访问性能不一致

我已经实现了一个带有结构内存布局数组的简单线性探测哈希图该结构包含键值和指示条目是否有效的标志默认情况下该结构体由编译器填充因为键和值是 64 位整数但该条目仅占用 8 个布尔值因此我也尝试以未对齐访问为代价来打包结构由于
使用 OpenBLAS 构建 R

我正在尝试构建 R devel R patched 我读过一些链接与执行此操作的步骤相关 1 https www r bloggers com 2022 01 building r 4 2 for windows with openbla
gcc 自动矢量化（未处理的数据引用）

我不明白为什么这样的代码没有用 gcc 4 4 6 进行矢量化 int MyFunc const float pfTab float pfResult int iSize int iIndex for int i 0 i lt iSize
使用多核的 Numpy np.einsum 数组乘法

我用MKL编译了numpy 1 6 2和scipy 希望有更好的性能目前我有一个严重依赖 np einsum 的代码并且我被告知 einsum 不适用于 MKL 因为几乎没有矢量化所以我想用 np dot 和切片重新编写一些代码只是
为什么thread_local不能应用于非静态数据成员以及如何实现线程本地非静态数据成员？

Why may thread local不适用于非静态数据成员接受的答案这个问题 https stackoverflow com questions 10999131 can you use thread local variables
OMP_NUM_THREADS=1 时 #pragma ompatomic 的性能问题

我观察到我正在编写的 openmp 代码出现了意外的对我来说行为代码结构如下 pragma omp parallel for for int i 0 i
基于任务的编程：#pragma omp task 与 #pragma omp parallel for

考虑到 void saxpy worksharing float x float y float a int N pragma omp parallel for for int i 0 i lt N i y i y i a x i And
垂直和水平平行度

最近在并行领域工作我了解到有两个术语垂直并行和水平并行有人说openmp 共享内存并行是垂直并行而mpi 分布式内存并行是水平并行为什么这些术语这么称呼我不明白原因这么称呼它们只是术语吗这些术语似乎没有被广泛使用也
如何判断 OpenMP 是否正常工作？

我正在尝试以并行模式运行 LIBSVM 但我的问题一般是在 OpenMP 中根据LIBSVM 常见问题解答 http www csie ntu edu tw cjlin libsvm faq html f432 我已使用 pragma 调
C++ 是否可以在 MacOS 上与 OpenMP 和 boost 兼容？

我现在已经尝试了很多事情并得出了一些结论也许我监督了一些事情但似乎我无法完成我想要的事情问题是是否有可能使用 OpenMP 和 boost 在 MacOS High Sierra 上编译 C 一些发现如果我错了请纠正我 Open
使用 omp_set_num_threads() 将线程数设置为 2，但 omp_get_num_threads() 返回 1

我有以下使用 OpenMP 的 C C 代码 int nProcessors omp get max threads if argv 4 NULL printf argv 4 s n argv 4 nProcessors atoi argv
英特尔融核上的 MKL 性能

我有一个例程对小矩阵 50 100 x 1000 个元素执行一些 MKL 调用以拟合模型然后我调用不同的模型在伪代码中 double doModelFit int model while done cblas dgemm cblas
OpenMP 超线程导致性能不佳：如何将线程绑定到核心

我正在开发大型密集矩阵乘法代码当我分析代码时它有时会达到我的四核系统的峰值失败率的 75 而其他时候则达到约 36 代码执行之间的效率不会改变它要么从 75 开始并继续保持该效率要么从 36 开始并继续保持该效率我已将问题追溯
为每个 mpi 进程分配不同数量的 openmp 线程

假设我有一个在 384 个 MPI 进程 24 个计算节点每个计算节点有 16 个核心上运行的代码并使用以下简单脚本将我的作业提交到作业队列 bin bash PBS S bin bash PBS l nodes 24 ppn 16
更快地评估从右到左的矩阵乘法

我注意到以二次形式评估矩阵运算右到左明显快于左到右在 R 中取决于括号的放置方式显然它们都执行相同的计算量我想知道为什么会这样这与内存分配有什么关系吗 A 5000 5000 B 5000 2 A matrix runif 5000

随机推荐

当 SwiftUI 中相关实体发生更改时，如何更新 @FetchRequest？

在 SwiftUI 中View我有一个List基于 FetchRequest显示a的数据Primary实体和通过关系连接Secondary实体这View和它的List当我添加新的时已正确更新Primary具有新的相关辅助实体的实体问题
std::unique_ptr 用于需要 free 的 C 函数

想想一个 C 函数它返回的东西必须是freed 例如 POSIX 的strdup 我想在 C 11 中使用该函数并避免任何泄漏的机会这是正确的方法吗 include
如何使用单个路由文件捕获所有网址

我想在 next js 中定义一条路由来捕获此网址 https mytestsite com mypath document this is to upload a document https mytestsite com mypath
有没有办法在不同的域上拥有圣所

我在域 A 上有 spa 在域 B 上有一个 Laravel 服务器我想使用 sainttum 但 cookie 只在同一个域中工作所以你建议有什么办法解决这个问题吗我不想在 sainttum 上使用基于令牌的 AUTH 是的您可以
Windows x64 的 44 位虚拟内存地址限制背后

http www alex ionescu com p 50 我读了上面的帖子作者以单链表为例解释了为什么Windows x64仅支持44位虚拟内存地址 struct 8 byte header ULONGLONG Depth 16 UL
使用两行标题进行表格排序

我的表结构如下这是我的 HTML table style width 700px thead tr th Location th th Full Name th th Amount th tr tr th Asset th th Patr
在 Woocommerce 中显示购物车运输总量值

我使用 woocommerce 为订购家具集装箱的批发客户提供服务通常是 40 英尺的集装箱体积为 68 立方米有没有办法可以在网站上的某个地方显示也许在标题区域有一个框显示篮子中产品的总立方米我需要在客户达到 68 立方米时向
swift 全局常量：不能使用另一个常量进行初始化

这是我正在尝试做的事情 class ViewController UIViewController let screenRect CGRect UIScreen mainScreen bounds let screenWidth scree
Android：无法启动 Activity ComponentInfo{/com.}：android.view.InflateException：二进制 XML 文件行错误膨胀类片段

我使用 Google Maps Android v1 API 创建了应用程序的第一个版本但现在当我发布第二个版本的应用程序时谷歌地图停止工作我认为这是因为它已被弃用所以现在我正在尝试创建示例 Android 应用程序以使用链接使用
是否可以在 Chrome 扩展中进行一些简单的网页抓取？

提前致谢如果这可能不是一个格式良好的问题我很抱歉我对 CS 和 stackoverflow 相对较新我希望制作一个简单的 chrome 扩展它覆盖新的标签页以显示从几个网站收集的一些简单数据我想知道是否可以在基本 JS 或 ch
C++原始字符串unicode文字

我可以简单地制作具有警报字符的原始字符串 a或统一码 u002f特点如果是那么转义是如何完成的如果不是那么原始字符串仅用于可打印字符吗我的理解对吗这是一个简单的问题但这个网站需要更多信息所以我只想说我读了大约 30 个关于
java中的classloader本身就是一个类，那么谁来加载classloader类呢？

Java中的ClassLoader是一个类用于在Java中加载类文件 java lang ClassLoader 是一个抽象类我的问题是这个 java lang ClassLoader 类与 JVM 的类加载器 1 引导类加载器 2 扩
为什么将类注释为@Service不创建bean？

我有这样的课程 Service userDetailsService public class MyUserDetailsService implements UserDetailsService 并尝试做
Passport.js 在 nginx 上表达 google oauth 502 错误网关

我正在尝试按照本指南使用 Passport js 为我的 Express js 应用程序实现一个简单的 Google OAuth 只需替换facebook with google https github com passport expr
如何在 Node.js 中创建自定义异步函数？

我不确定 Node js 如何能够实现哪些函数是异步的哪些不是以及如何创建自定义异步函数假设我想创建一个自定义异步函数如果仅仅因为我调用了异步函数回调或 cb 的最后一个参数它就会知道它是一个异步函数我会感到惊讶 functio
如何在 openshift 3 上使用 django 运行 celery

在我的 django pod 中启动 celerybeat 和工作进程的最简单方法是什么我正在将 Openshift v2 Django 应用程序迁移到 Openshift v3 我正在使用专业版订阅我真的是 Openshift v3
在android中更改活动会清除以前活动所需的内存吗？

我正在开发一个多级别游戏其中每个级别都是一个新活动我想知道如果我改变活动 Intent myIntent new Intent getBaseContext Level3 class startActivity myIntent 1级
Java Runtime.exec() 不从命令行发送电子邮件

我正在创建一个 java 应用程序我想添加的功能之一是将生成的电子邮件发送给用户我已经在 Macbook 上设置了邮件并且可以从命令行发送电子邮件当我调用runtime exec 时我在发送电子邮件时遇到问题任何人都知道为什么它
FB API PHP curl_setopt_array()：不推荐使用 @filename API 进行文件上传

FB PHP API 和 php 5 5 在将照片上传到服务器时遇到问题使用方法时 private function upload type path message aid try if in array type array phot
英特尔 MKL 多线程矩阵向量乘法 sgemv() 在小中断后变慢

我需要每 500 微秒运行一次多线程矩阵向量乘法矩阵是一样的向量每次都在变化我在 64 核 AMD CPU 上的 MKL 中使用 Intel sgemv 如果我在一个小测试程序中计算没有间隙的 for 循环中的乘法则每次调用 sge

英特尔 MKL 多线程矩阵向量乘法 sgemv() 在小中断后变慢

英特尔 MKL 多线程矩阵向量乘法 sgemv() 在小中断后变慢 的相关文章

随机推荐

热门标签

英特尔 MKL 多线程矩阵向量乘法 sgemv() 在小中断后变慢的相关文章