绩效评估的惯用方式？

2024-04-29

我正在评估我的项目的网络+渲染工作负载。

程序不断运行主循环：

while (true) {
   doSomething()
   drawSomething()
   doSomething2()
   sendSomething()
}

主循环每秒运行超过 60 次。

我想查看性能细分，每个过程需要多少时间。

我担心的是，如果我打印每个程序的每次进入和退出的时间间隔，

这会带来巨大的性能开销。

我很好奇衡量性能的惯用方法是什么。

打印日志就够了吗？

一般来说：对于重复的短的事情，你可以只为整个重复循环计时。（但是微基准测试很困难；除非您了解这样做的含义，否则很容易扭曲结果；对于非常短的事情，吞吐量和延迟是不同的，因此通过使一次迭代使用或不使用前一个迭代的结果来单独测量两者。还要注意分支预测和缓存可以使某件事在微基准测试中看起来很快，而如果在大型程序中的其他工作之间一次完成一项，实际上成本高昂。例如循环展开和查找表通常看起来不错，因为 I-cache 或 D-cache 没有来自其他任何东西的压力。）

或者，如果您坚持对每个单独的迭代进行计时，请将结果记录在数组中并稍后打印；您不想在循环内调用重量级打印代码。

这个问题太宽泛了，无法说得更具体。

许多语言都有基准测试包，可以帮助您编写单个函数的微基准测试。使用它们。例如对于 Java，JMH 确保在执行定时运行之前，JIT 以及所有这些爵士乐对被测函数进行预热和充分优化。并在指定的时间间隔内运行它，计算它完成的迭代次数。看如何用 Java 编写正确的微基准测试？ https://stackoverflow.com/questions/504103/how-do-i-write-a-correct-micro-benchmark-in-java为此以及更多。

谨防常见的微基准陷阱

未能预热代码/数据缓存和其他内容：在接触新内存的定时区域内出现页面错误，或代码/数据缓存未命中，这不是正常操作的一部分。（注意到这种效果的示例：性能：memset https://stackoverflow.com/questions/23723215/performance-memset;或一个例子基于这个错误得出错误的结论 https://stackoverflow.com/questions/57125253/why-is-iterating-though-stdvector-faster-than-iterating-though-stdarray)
如果您在不写入的情况下进行读取，则从未写入的内存（从内核新鲜获得）会将其所有页面写入时复制映射到同一个系统范围的零物理页面（4K 或 2M）on Linux https://stackoverflow.com/questions/57125253/why-is-iterating-though-stdvector-faster-than-iterating-though-stdarray/57130924#57130924。因此，您可以获得缓存命中但 TLB 未命中。例如大量拨款来自new / calloc / malloc，或静态存储中的零初始化数组.bss。使用非零初始值设定项或 memset。
未能给 CPU 时间加速到最大睿频：现代 CPU 会降低至空闲速度以节省电量，仅在几毫秒后才开始加速。（或更长，具体取决于操作系统/硬件）。

相关：在现代 x86 上，RDTSC 计算参考周期，而不是核心时钟周期 https://stackoverflow.com/questions/13772567/how-to-get-the-cpu-cycle-count-in-x86-64-from-c/51907627#51907627，因此它会受到与挂钟时间相同的 CPU 频率变化影响。
大多数整数和 FP 算术汇编指令 (除了除法和平方根 https://stackoverflow.com/questions/4125033/floating-point-division-vs-floating-point-multiplication/45899202#45899202已经比其他慢）的性能（延迟和吞吐量）不依赖于实际数据。除了次正规浮点数外being very slow https://stackoverflow.com/questions/60969892/performance-penalty-denormalized-numbers-versus-branch-mis-predictions，并且在某些情况下（例如旧版 x87，但不包括 SSE2 https://stackoverflow.com/questions/31875464/huge-performance-difference-26x-faster-when-compiling-for-32-and-64-bits/31879376#31879376）同时生成 NaN 或 Inf 可能会很慢。
在乱序执行的现代 CPU 上，有些事情太短暂，无法真正有意义地度过 https://stackoverflow.com/questions/54621381/rdtscp-in-nasm-always-returns-the-same-value，也可以看看this https://stackoverflow.com/questions/51607391/what-considerations-go-into-predicting-latency-for-operations-on-modern-supersca. 一小段汇编语言（例如由编译器为一个函数生成）的性能不能用单个数字来表征，即使它不分支或访问内存（因此不会出现错误预测或缓存未命中）。它从输入到输出有延迟，但如果使用独立输入重复运行，则不同的吞吐量会更高。例如一个addSkylake CPU 上的指令具有 4/时钟吞吐量，但有 1 个周期延迟。所以dummy = foo(x)速度可以快 4 倍x = foo(x);循环中。浮点指令比整数具有更高的延迟，因此这通常是一个更大的问题。大多数 CPU 上的内存访问也是流水线式的，因此循环数组（易于计算下一个加载的地址）通常比遍历链表（下一个加载的地址在上一个加载完成之前不可用）快得多。

显然，CPU 之间的性能可能有所不同；从总体上看，通常很少会出现版本 A 在 Intel 上更快、版本 B 在 AMD 上更快的情况，但在小范围内很容易发生这种情况。在报告/记录基准测试数据时，请务必注意您测试的 CPU。
与上述和以下几点相关：您不能“对*例如，一般来说，C 中的“运算符”。它的某些用例的编译方式与其他用例非常不同，例如tmp = foo * i;在循环中通常可以变成tmp += foo（强度减少），或者如果乘数是 2 的常数幂，编译器将只使用移位。源代码中的相同运算符可以编译为非常不同的指令，具体取决于周围的代码。
You 需要在启用优化的情况下进行编译 https://stackoverflow.com/questions/32000917/c-loop-optimization-help-for-final-assignment-with-compiler-optimization-disabl/32001196#32001196，但您还需要阻止编译器优化工作，或将其提升出循环。确保使用结果（例如打印它或将其存储到volatile）所以编译器必须生成它。对于数组，volatile double sink = output[argc];是一个有用的技巧：编译器不知道argc所以它必须生成整个数组，但您不需要读取整个数组，甚至不需要调用 RNG 函数。（除非编译器积极地转换为仅计算由argc，但这在实践中往往不是问题。）

对于输入，使用随机数或argc或其他东西而不是编译时常量，这样您的编译器就无法对实际用例中不是常量的东西进行常量传播。在 C 中，有时可以使用内联汇编或volatile为此，例如东西这个问题问的是 https://stackoverflow.com/questions/33975479/escape-and-clobber-equivalent-in-msvc。一个很好的基准测试包，例如谷歌基准测试 https://github.com/google/benchmark将包含这方面的功能。
如果函数的实际用例让它内联到调用者中，其中某些输入是恒定的，或者操作可以优化到其他工作中，那么单独对其进行基准测试并不是很有用。
当您重复运行它们时，对许多特殊情况进行特殊处理的大型复杂函数可以在微基准测试中看起来很快，尤其是使用same每次都输入。在现实生活中的用例中，分支预测通常不会为该输入的函数做好准备。此外，大规模展开的循环在微基准测试中看起来不错，但在现实生活中，它会因其庞大的指令缓存占用空间而减慢其他一切，从而导致其他代码被驱逐。

与最后一点相关：如果函数的实际用例包含大量小输入，则不要仅针对大量输入进行调整。例如Amemcpy对于大量输入来说非常有用，但需要很长时间才能弄清楚对于小输入使用哪种策略可能不太好。这是一个权衡；确保它对于大输入来说足够好（对于“足够”的适当定义），但对于小输入也保持较低的开销。

石蕊测试：

如果您要对一个程序中的两个函数进行基准测试：如果颠倒测试顺序会改变结果，则您的基准测试不公平。例如函数 A 可能看起来很慢，因为您首先测试它，没有充分的预热。例子：为什么 std::vector 比数组慢？ https://stackoverflow.com/questions/60293633/why-is-stdvector-slower-than-an-array（事实并非如此，无论哪个循环先运行都必须为所有页面错误和缓存未命中付出代价；第二个循环只是通过填充相同的内存来进行缩放。）
增加重复循环的迭代次数应该会线性增加总时间，并且不影响计算的每次调用时间。如果没有，那么您的测量开销或代码会被优化（例如，从循环中提升出来并仅运行一次而不是 N 次）。
改变其他测试参数作为健全性检查。

对于 C / C++，另请参阅 简单的 for() 循环基准测试与任何循环绑定花费相同的时间 https://stackoverflow.com/questions/50924929/simple-for-loop-benchmark-takes-the-same-time-with-any-loop-bound/50934895#50934895我在其中详细介绍了微基准测试和使用volatile or asm阻止重要工作使用 gcc/clang 进行优化。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

benchmarking

microbenchmark

绩效评估的惯用方式？的相关文章

如何获取“计算机语言基准测试游戏”（以前称为“语言大战”）的源代码？

我和一名学生正在建立一个新的口译员家族我们希望将其与现有的口译员进行比较我们很乐意下载包含所有源代码的 tarball 或 zip 文件计算机语言基准测试游戏 https benchmarksgame team pages debian
对不同大小的输入运行 Haskell 基准测试

我经常想比较同一函数的多个实现的运行时性能对于个人输入标准是一个很好的工具但是有什么简单的方法可以在不同的输入大小上绘制代码的性能例如查看算法复杂度理想情况下我向库传递一个类型的值Benchmarkable r gt Stri
使用 R microbenchmark 和 system.time 有什么区别？

我想了解 R 的 microbenchmark 和 system time 之间的区别他们如何在内部测量函数执行时间在这两种情况下运行时间都是使用操作系统工具计算的因此如何计算运行时间取决于操作系统如详细信息部分所述 syste
java 是否缓存方法的结果

I useJMH指定操作的复杂度如果您从未与 JMH 合作过请不要担心 JMH 将刚刚推出estimateOperation方法多次然后得到平均时间问题缩小这个程序会计算Math cbrt Integer MAX VALUE 每
“正在缓存中间结果”是什么意思？

我有一套n向量存储在3 x n matrix z 我发现外部产品使用np einsum 当我使用以下方法计时时 timeit v np einsum i j gt ij z z 我得到了结果 The slowest run took 7 2
为什么从文件中读取 1 个字节比读取 2、3、4、... 字节慢 20 倍？

我一直试图理解之间的权衡read and seek 对于小的跳跃读取不需要的数据比使用跳过它更快seek 在计时不同的读取查找块大小以找到临界点时我遇到了一个奇怪的现象 read 1 大约慢20倍read 2 read 3 等对于
Apache 基准 HTTPS 失败

我在 Ubuntu 虚拟机中使用 Apache 2 4 2 我用它来加载测试将请求发送到某个 HTTPS url 失败的请求数为零但我的请求都无法真正得到处理已经在数据库中查找使用相同的url 通过浏览器调用它就可以了数据库已更新
PHP microtime 基准函数时间比较

我目前正在使用这个函数来对一些 php 脚本进行基准测试脚本获取执行所需的微时间并将其写入服务器上的日志中但我遇到的问题是我不知道什么是合适的时间下面的脚本是我的一些时间任何人都可以告诉我我想要在什么样的时间范围内吗置于页面开头
为什么 Perl 的 tr/\n// 随着行长度的增加而变得越来越慢？

In perlfaq5 http faq perl org perlfaq5 html 有一个答案如何计算文件中的行数 http faq perl org perlfaq5 html How do I count the n 目前的答案建议
如何用JMH测量平均冷启动时间？

在JMH Java Microbenchmark Harness 中我们可以使用 BenchmarkMode Mode AverageTime Warmup iterations 10 Measurement iterations 10
如何避免“优化掉”我的 javascript 测试用例？

我有一个jsperf测试用例 http jsperf com multiplication vs division lars 结果非常令人困惑我有三个片段乘法 division 控制都不进行任何操作大多数时候它们的速度都相同甚
Codeigniter 基准测试，这些 ms 来自哪里？

我正在对我的网站进行基准测试 class Home extends Controller function Home parent Controller this gt benchmark gt mark Constructor start
如何在 Go 中编写使用 -short 标志的测试，它可以与 -benchmark 标志结合使用吗？

我该如何使用 short给出的标志go test short 是否可以结合 short and benchmark flags 我对 Go 语言还很陌生但我正在努力让自己适应它的一些常见做法其中一部分是尝试确保我的代码不仅以某种方式添加
什么才是真正性能更高的？ Haskell 或 OCaml [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用 R 进行快速 url 查询

您好必须查询网站 10000 次我正在寻找一种真正快速的方法来使用 R 来做到这一点作为模板网址 url lt http mutationassessor org cm var var 7 55178574 G A 我的代码是 url
Python 请求与 PyCurl 性能

Requests 库与 PyCurl 的性能相比如何我的理解是 Requests 是 urllib 的 python 包装器而 PyCurl 是本机 libcurl 的 python 包装器因此 PyCurl 应该获得更好的性能但不
如何查看某个函数以 3 秒的间隔被调用了多少次？

我想检查我的函数在 3 秒内可以运行多少次我写了这段代码 include
为什么 sapply 的缩放速度比样本大小的 for 循环慢？

假设我想采用向量 X 2 1 N 并将 e 计算为每个元素的指数是的我认识到最好的方法就是通过向量化 exp X 但这样做的目的是将 for 循环与 sapply 进行比较我通过逐步尝试三种方法一种使用 for 循环两种以不同方
如何对单个 TypoSript 对象生成进行基准测试？

我想对单个 TypoScript 对象生成进行基准测试以控制性能是否可以使用某些 stdWrap 方法我想要对其进行基准测试的 TS 对象示例 Test 1 page 10 RECORDS page 10 tables pages so
Fortran的性能

Fortran 的表现计算机语言基准游戏 http shootout alioth debian org 出奇的糟糕今天的结果显示 Fortran 在两项四核测试中分别排名第 14 和第 11 在单核测试中排名第 7 和第 10 现在我

随机推荐

在 collectionView 单元格上添加边框

每次用户单击特定单元格时该单元格都会有边框问题是当我来回滚动时边框会选择随机单元格来设置边框 func collectionView collectionView UICollectionView didSelectItemAt in
使用 TABS 时 DataTable.js 无法正确加载

我使用 DataTables js 生成表非常棒运行良好我想将选项卡添加到我的页面但似乎当在主选项卡以外的其他选项卡上使用 DataTables 时它不会加载所有内容 First Tab 2nd Tab 以下是添加了 DataT
如何修复 scanf 将数据放入数组中？

有人可以就 scanf 提出建议吗 message 是一个 4 行 x 16 列的数组用户输入数字全部为 1 位整数后按 Enter 键时会出现错误消息正如所说可能与 scanf 有关 for int i 0 i lt M i
如何将 Chosen 合并到我的 React 项目中？

我想使用 jquery 插件Chosen https harvesthq github io chosen 在我的项目中我安装了 jQuery 并通过 npm 选择 npm i jquery chosen js S 这两个库现在都位于我的
jquery画布图像下载

我有我的画布元素和一些 div 单击后我希望打开下载画布快照现在我有 save live click function e var image canvas toDataURL image png true var imageEleme
在 Firebase 函数中验证 reCAPTCHA v3 导致 CORS 问题

我有以下代码可以验证谷歌验证码 v3在我的 Firebase 函数中导致CORS issue const functions require firebase functions const nodemailer require nodem
AMD plaidml 与 CPU Tensorflow - 意外结果

我目前正在运行一个简单的脚本来训练mnist数据集通过 Tensorflow 通过我的 CPU 运行训练给了我49us sample和使用以下代码的 3e 纪元 CPU import tensorflow as tf mnist tf k
.Net MVC4 文化设置正确，但验证仍然是英语

我有一个非常基本的 MVC 网站使用丹麦语我可以在页面开头设置文化 Layout null Culture da DK 但它已经是正确的所以我怀疑它是否重要然后我有我的输入字段 Html EditorFor model gt mod
使用 Pyodbc + UnixODBC + FreeTDS 设置连接设置

我使用 Pyodbc UnixODBC 和 FreeTDS 进行了设置但在其中的某个地方设置了一些选项但我不知道在哪里根据 SQL Server Management Studio 我的程序在打开连接时发送一些设置 set quote
我需要 TURN 服务器吗？

在什么情况下我应该使用 TURN 服务器现在我有一个运行完美的 WebRTC 应用程序该应用程序即将发布我是否需要设置自己的 TURN 服务器或者可能仅适用于主要应用程序 WebRTC 可以通过多种方式进行连接并且当它在第一个选择
运行 BFG Repo Cleaner 后如何更新/缩小 github 存储库的大小

我已经清理了我的仓库BFG 回购清理器 https rtyley github io bfg repo cleaner 使用以下内容程序 https rtyley github io bfg repo cleaner usage git c
VIM：有没有一种简单的方法可以从 Vim 管理 Visual Studio 解决方案/makefile 项目？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我尝试使用 Visual Studio 而不是 VIM 插件但说实话 VS 相对于 VIM 的唯一优势是它能够自动管理我的项目我知道 VS
跳转到文件行c#

我如何跳到文件中的某些行例如 c text txt 中的第 300 行 using var reader new StreamReader c test txt for int i 0 i lt 300 i reader ReadLine
启用 JavaScript 时，Azure B2C 中的自定义模板在 IE11 中不起作用

I have a SignIn V2 policy in Azure Active Directory B2C I also enabled JavaScript Because I use it to manipulate some el
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
mvc3中如何通过ajax调用局部视图

我需要通过ajax调用部分视图我已尝试以下操作但我不确定如何完成 UserName change function var userid UserName val var ProvincialStateID State val var
在视图上按下按键时不会调用 onKeyDown

我有一个包含两个视图的活动一个视图重写 onDraw 并正确处理 onTouchEvent 但是当我尝试检索第二个视图的 onKeyDown 时它没有给我任何结果相反当我按下后退按钮或任何其他键盘按钮时会调用 onKeyDown
Android 中的 GPS 超时

在黑莓中我们使用超时来获取位置这样如果它在这么长时间内没有重新调整位置我们就会知道但是在Android中没有超时的概念任何人都可以告诉我们替代方案我们可以发现在这么长时间之后 GPS没有位置更新您可以使用两个线程来实现此超
如何设置pdf的标题名称。查看文档时（新选项卡）[重复]

这个问题在这里已经有答案了我们如何更改pdf的标题名称查看文档时我没有使用任何控制器是模态的我只是在 href 标签中传递 url 但我想更改标题名称 a target blank href class icon btn blu
绩效评估的惯用方式？

我正在评估我的项目的网络渲染工作负载程序不断运行主循环 while true doSomething drawSomething doSomething2 sendSomething 主循环每秒运行超过 60 次我想查看性能细分每个

绩效评估的惯用方式？

谨防常见的微基准陷阱

绩效评估的惯用方式？ 的相关文章

随机推荐

热门标签

绩效评估的惯用方式？的相关文章