“perf stat”输出是什么意思?

2024-02-21

I use "perf stat" 命令对一些事件进行统计:

[root@root test]# perf stat -a -e "r81d0","r82d0" -v ./a
r81d0: 71800964 1269047979 1269006431
r82d0: 26655201 1284214869 1284214869

 Performance counter stats for './a':

        71,800,964 r81d0                                                        [100.00%]
        26,655,201 r82d0

       0.036892349 seconds time elapsed

(1) 我知道71800964是“的计数r81d0”,但是这是什么意思1269047979 and 1269006431?
(2)“的含义是什么?[100.00%]"?

我已经尝试过“perf stat --help”,但无法得到这些值的解释。


[root@root test]# perf stat -a -e "r81d0","r82d0" -v ./a
r81d0: 71800964 1269047979 1269006431
r82d0: 26655201 1284214869 1284214869

这是详细选项的输出,如中所定义工具/perf/builtin-stat.c http://lxr.free-electrons.com/source/tools/perf/builtin-stat.c?v=3.18内核文件:

391 /*
392  * Read out the results of a single counter:
393  * aggregate counts across CPUs in system-wide mode
394  */
395 static int read_counter_aggr(struct perf_evsel *counter)

408         if (verbose) {
409                 fprintf(output, "%s: %" PRIu64 " %" PRIu64 " %" PRIu64 "\n",
410                         perf_evsel__name(counter), count[0], count[1], count[2]);
411         }

计数是从struct perf_counts_values, 定义为http://lxr.free-electrons.com/source/tools/perf/util/evsel.h?v=3.18#L12 http://lxr.free-electrons.com/source/tools/perf/util/evsel.h?v=3.18#L12包含三个 uint64_t 值的数组,命名为val, ena, run

Three count值由内核填充并从 fd 中读取,用以下命令打开perf_event_open()系统调用。有相关部分man perf_event_open: http://man7.org/linux/man-pages/man2/perf_event_open.2.html http://man7.org/linux/man-pages/man2/perf_event_open.2.html

   read_format
          This field specifies the format of the data returned by
          read(2) on a perf_event_open() file descriptor.

          PERF_FORMAT_TOTAL_TIME_ENABLED
                 Adds the 64-bit time_enabled field.  This can be used
                 to calculate estimated totals if the PMU is
                 overcommitted and multiplexing is happening.

          PERF_FORMAT_TOTAL_TIME_RUNNING
                 Adds the 64-bit time_running field.  This can be used
                 to calculate estimated totals if the PMU is
                 overcommitted and multiplexing is happening.  ...

perf stat 启用所有 TIME 标志 http://lxr.free-electrons.com/source/tools/perf/builtin-stat.c?v=3.18#L294 if scale是真的 -

298         if (scale)
299                 attr->read_format = PERF_FORMAT_TOTAL_TIME_ENABLED |
300                                     PERF_FORMAT_TOTAL_TIME_RUNNING;

因此,第一个计数器是原始事件计数; Second 与收集该事件的时间成正比,last 与总运行时间成正比。当你询问时需要这个perf统计大量事件,这些事件无法立即监控(硬件通常最多有 5-7 个性能监控器)。在这种情况下,内核中的 perf 将为执行的某些部分运行所需事件的子集;并且子集将被更改多次。和ena and run通过计数,perf 可以估计在多路复用情况下事件监控的不准确程度。

 Performance counter stats for './a':

    71,800,964 r81d0                                            [100.00%]
    26,655,201 r82d0

在您的情况下,两个事件同时映射,无需多路复用;你的ena and run柜台很近。和print_aggr http://lxr.free-electrons.com/source/tools/perf/builtin-stat.c?v=3.18#L1117函数打印它们的比率:

1137                                 val += counter->counts->cpu[cpu].val;
1138                                 ena += counter->counts->cpu[cpu].ena;
1139                                 run += counter->counts->cpu[cpu].run;

Print_noise 将在以下情况下输出-r N重新运行任务 N 次以获取统计信息的选项(man:--repeat=<n>重复命令并打印平均值 + stddev(最大值:100))

1176                                 print_noise(counter, 1.0);

并且有[100.00%]打印机:

1178                                 if (run != ena)
1179                                         fprintf(output, "  (%.2f%%)",
1180                                                 100.0 * run / ena);

如果 run 和 ena 时间相等,并且您的 r82d0 事件也相等,则不会打印 100%。您的 r81d0 事件的 run 和 ena 略有不同,因此 100% 打印在一行中。

我知道perf stat -d可能不准确,因为它需要太多事件;并且不会有 100% 的复用,而是 53% 左右。这意味着“此事件仅在程序运行时的某些随机部分中占 53%”;如果您的程序有多个独立的计算阶段,则运行/ena 比率较低的事件将不太准确。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

“perf stat”输出是什么意思? 的相关文章

  • 如何加速数百万个对象的Python实例初始化?

    我定义了一个pythonclass named Edge如下 class Edge def init self self node1 0 self node2 0 self weight 0 现在我必须使用以下命令创建大约 10 6 到 1
  • 使用 chrome 和 selenium 进行网络节流

    谷歌Chrome 38推出新功能 设备模式和移动仿真 https developer chrome com devtools docs device mode开发工具中的功能 除了选择仿真设备外 还可以模拟不同的网络条件 https dev
  • CSS动画比JS动画快吗?

    前段时间读到一篇文章说CSS动画比JS动画快 使用 jQuery 做了一些动画后 我可以理解为什么有些人会这么说 因为 jQuery 动画有时会出现错误并且速度很慢 但我想知道的是 这个论点是否有任何核心事实 有一种常见的误解 认为 CSS
  • 与更具可读性的方法相比,C++ 中按位异或的效率

    我最近正在为我正在进行的一个研究项目编写一些代码 其中效率非常重要 我一直在考虑放弃一些常用的方法并使用按位异或来代替 我想知道这是否会产生差异 如果我执行此操作说数百万次 或者在我在 g 中使用 03 后是否相同 我想到的两个例子 我有一
  • 反序列化 XML 文件而不将其全部加载到内存中 [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 假设您的应用程序使用 XmlSerializer 序列化对象 当应用程序的另一部分 例如外部服务或另一个组件 处理该 XML 文件时 会返回一个
  • Scala 性能问题

    In the 丹尼尔 科泽夸 Daniel Korzekwa 撰写的文章 http blog danmachine com 2011 01 moving from java to scala one year html 他说以下代码的性能
  • 我应该在 VS Code 中为“json.maxItemsCompulated”设置什么?

    默认状态为 5000 个符号 这取决于机器的性能还是其他什么 从 VS Code 设置 JSON 计算的最大项目数 计算的轮廓符号和折叠区域的最大数量 由于性能原因而受到限制 这与编辑器中的 GUI 按钮相关 您可以使用它来折叠 JSON
  • 如何从 Hudson CI API 获得更好的性能?

    我正在尝试为自己编写一个与 Hudson 构建服务器集成的小工具 我目前遇到的障碍是性能 我想做一件简单的事情 比如列出所有作业和上次成功构建的时间 hudson API 提供了此信息 但我要么必须查询所有内容depth 2或者单独查询每个
  • 更改为通用接口对性能的影响

    我使用 Visual Studio 使用 C NET 开发应用程序 ReSharper 在我的方法原型中经常建议我用更通用的类型替换输入参数的类型 例如 如果我仅在方法主体中使用带有 foreach 的列表 则使用 List 和 IEnum
  • 在循环内部或外部声明本地更好吗? [复制]

    这个问题在这里已经有答案了 我习惯这样做 do local a for i 1 1000000 do a
  • SQL 中的 JOIN 成本有多高?和/或,性能和标准化之间的权衡是什么?

    我发现了一个类似的线程 但它并没有真正抓住我想要问的本质 所以我创建了一个新线程 我知道规范化和性能之间存在权衡 我想知道划定这条线的最佳实践是什么 在我的特定情况下 我有一个消息传递系统 它具有三个不同的表 messages thread
  • 为什么 pow(int, int) 这么慢?

    我一直在做一些项目欧拉练习来提高我的 C 知识 我写了以下函数 int a 0 b 0 c 0 for a 1 a lt SUMTOTAL a for b a 1 b lt SUMTOTAL a b c SUMTOTAL a b if c
  • 为什么在我的例子中 For 循环比 Map、Reduce 和 List 理解更快

    我编写了一个简单的脚本来测试速度 这就是我发现的结果 实际上 for 循环在我的例子中是最快的 这真的让我感到惊讶 请查看下面 正在计算平方和 这是因为它在内存中保存列表还是有意为之 谁能解释一下这一点 from functools imp
  • 样式组件如何影响性能?

    使用样式组件是否比样式表更会降低 Web 应用程序的速度 如果我关心性能并且没有任何依赖于 props 的样式 我是否应该放弃样式组件并使用样式表 当您有很多小组件时 同时使用样式化组件渲染 性能开销可能会很有意义 绝对值得测试以删除小元素
  • MySQL InnoDB 查询性能

    我正在尝试优化一个简单的 sql 查询 该查询将多次运行大量数据 这是场景 MySQL 与 InnoDB 表 where 和 join 中使用的所有字段都已索引 表有 FK 我不需要查询的整个缓存 但每个表的缓存是可能的 表有更多的更新 插
  • 去除字符串的最佳方法是什么?

    我需要具有最佳性能的想法来删除 过滤字符串 I have string Input view 512 3 159 删除 view 和 的最佳性能方法是什么 和引号 我可以做这个 Input Input Replace view Replac
  • 如何找到 IIS 在负载/性能测试期间模拟的平均并发用户数?

    我正在使用 JMeter 进行负载测试 我正在练习通过简单地增加我的分布式 JMeter 测试用例中的线程数并启动测试来查找我们的网络服务器可以处理的最大并发线程 用户 数量 然后 我突然意识到 虽然 MAX 数字可能有用 但REAL我的网
  • 磁盘寻道时间测量方法

    我编写了一个脚本来测量 HDD 上的寻道时间 并且其完成方式的微小变化会导致显着不同的时间 第一个周期在磁盘开头的区域内进行跳转 第二个周期选择磁盘上执行查找的随机区域 相同大小 这种方法显然不同 但我不明白为什么它会改变结果 请注意 对于
  • 比较运算符性能 <= 与 !=

    让我们首先声明代码可读性胜过微优化 我们应该将其留给编译器 这只是一个奇怪的案例 具体细节似乎与一般建议相比很有趣 因此 我在搞素数生成器函数 并提出了一种奇怪的行为 其中 人们建议效率最高 实际上效率最低 而 C private stat
  • jQuery mousemove 性能 - 节流事件?

    我们面临着与 mousemove 连接的 jQuery 事件传播性能问题 我们有一个屏幕填充画布 需要跟踪用户是否在其上拖动鼠标 因此我们在该对象上添加了一个鼠标移动侦听器 如下所示 ourCanvas on mousemove funct

随机推荐

  • 将 flow.js 上传到 Node/express 服务器后重新组装二进制文件

    我不知道如何将 flow js 库与节点后端一起使用 并将我的代码基于示例flow js https github com flowjs flow js blob master samples Node js flow node js gi
  • 如何使用 Firebase 托管记录已部署的 Angular Web 应用程序的错误

    我正在开发一个 Angular 单页 Web 应用程序 它使用 Firestore 作为数据库 并将部署到 Firebase 托管 除非您正在开发 Android 或 iOS 移动应用程序 否则似乎没有内置方法可以将错误记录到服务器或获取运
  • “显示:内联块”技巧在 Firefox 中不起作用

    我想要创建的是一个整页网站 没有滚动条 其中包含垂直和水平居中的文本 图像 div 块 我研究并使用了一种技术 使用 100 高度的 div 和 0px 宽度 然后使用内容 div 来垂直居中内容 在 safari 中工作完美 在 fire
  • XNA 模拟 Game 对象或解耦您的 Game

    我想知道是否可以模拟 Game 对象来测试我的 Drawable Game Component 组件 我知道模拟框架需要一个接口才能运行 但我需要模拟实际的Game http msdn microsoft com en us library
  • 在 iOS 8 Beacon 中未检测到

    iBeacon 在 iOS8 中突然停止工作 之前它在之前的 iOS 8 版本中运行良好 有人帮助我摆脱这个问题吗 请问是什么问题 谢谢 您需要做的是在代码中添加访问位置服务的请求权限 如下所示 if self locationManage
  • 如何在CXF中使用PATCH方法

    我正在尝试使用 JAX RS 的 CXF 实现在我的客户端中使用 PATCH 方法 起初我将 PATCH 注释定义为 Target ElementType METHOD Retention RetentionPolicy RUNTIME H
  • C 与 C++ 中的 typedef 和 struct 命名空间

    我正在尝试在一些新的 C 中使用一些旧的 C 库 该库的头文件使用 D Hanson 的 C 接口和实现 https rads stackoverflow com amzn click com 0201498413隐藏实现的习惯用法 def
  • 将元素替换为outerHTML并立即访问新创建的元素

    我通过将 DOM 元素的内容替换为outerHTML 这个技巧有效 但我需要立即访问新创建的 DOM 元素 不幸的是元素的创建
  • 有没有办法只获取未命名的参数?

    在 JavaScript 函数中 arguments https developer mozilla org en US docs Web JavaScript Reference Functions and function scope
  • 为 ggplot2 中的两个构面组指定不同的 x-tick 标签

    我有代表两种方法结果的箱线图 每种方法都有两种验证方法和三种场景 使用 ggplot2 进行绘制 一切正常 但我想更改 x 轴刻度标签以区分每组中使用的技术类型 我使用了以下代码 data lt read csv results csv h
  • Laravel 和 Eloquent:检索相关项目时指定列

    这是以下帖子的后续帖子 Laravel 4 和 Eloquent 检索所有记录和所有相关记录 https stackoverflow com questions 21735011 laravel 4 and eloquent retriev
  • 从 iOS 服务检测屏幕开/关

    我正在开发一个作为服务在后台运行的网络监控应用程序 当屏幕打开或关闭时是否可以收到通知 来电 它通过使用以下代码存在于Android中 private void registerScreenOnOffReceiver IntentFilte
  • 使用nodejs进行heroku部署失败

    我正在尝试将本地文件推送到 heroku 并遇到以下错误 我的代码在github https github com asimkh apps tree haz 有人可以帮我吗 谢谢 heroku buildpacks set heroku n
  • 如何检测 STAMINA 模式?

    您能帮助我 如何以编程方式检测索尼设备上的 STAMINA 模式吗 我想通知用户 如果 STAMINA 打开 我的应用程序将无法正常工作 因为它阻止了 AlarmManager 并且设备在我需要时不会被唤醒 我也想知道这个 我想一个天真的方
  • Flask WTform 对多个字段进行验证

    根据两个或多个条目验证 WTform 的最佳方法是什么 IE 在下面的表格中 我想验证数据库中尚不存在具有所提供名称和地址的公司 class CompanyForm FlaskForm name StringField Company Na
  • 如何在bash中生成笛卡尔积?

    我想生成这样的文件 笛卡尔积 1 3 X 1 5 1 1 1 2 1 3 1 4 1 5 2 1 2 2 2 3 2 4 2 5 3 1 3 2 3 3 3 4 3 5 我可以使用嵌套循环来做到这一点 例如 for i in seq 3 d
  • 无法执行dex:Java堆空间 Java堆空间

    在 Eclipse IDE 中执行 Web 驱动程序脚本时 出现 Unable toexecute dex Java heap space Java heap space 错误 我已经使用 Android SDK 和 AVD Manager
  • Java 流压缩两个列表

    我有一个人员哈希集 一个人有名字 姓氏和年龄 例如 Person Hans Man 36 我的任务是获取 17 岁以上人员的列表 按年龄对他们进行排序 并将名字与姓氏连接起来 比如 汉斯 曼 另一个名字 另一个名字 我刚刚被允许导入 imp
  • 禁用 Reactjs 中的依赖下拉选项

    我正在制作一个简单的反应应用程序 其中有一些下拉列表 其中一个依赖于另一个 gt 这里下拉菜单 1 的值为游戏类型 例如Indoor and Outdoor gt 这里下拉菜单 2 的值为运动类型 例如Chess Tennis and Fo
  • “perf stat”输出是什么意思?

    I use perf stat 命令对一些事件进行统计 root root test perf stat a e r81d0 r82d0 v a r81d0 71800964 1269047979 1269006431 r82d0 2665