Linux服务器EDAC CE memory read error

2023-11-09

之前在大数据集群中,有一台服务器的CPU占用总是莫名其妙飙高,就算执行简单任务也会耗费很长时间,且reboot不能解决问题。检查了各种可能的问题之后,最终在查看dmesg命令的设备信息时,发现大量如下的日志:

 

......
[1180532.573917] EDAC MC1: 128 CE memory read error on CPU_SrcID#1_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x2b67afa offset:0xb40 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0092 socket:1 ha:0 channel_mask:2 rank:5)
[1180532.573925] EDAC MC1: 147 CE memory read error on CPU_SrcID#1_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x30b6e9a offset:0x540 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0092 socket:1 ha:0 channel_mask:2 rank:5)
[1180532.573930] EDAC MC1: 236 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#1 (channel:0 slot:1 page:0x236e7bb offset:0xd00 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0092 socket:1 ha:0 channel_mask:1 rank:5)
[1180532.573935] EDAC MC1: 189 CE memory read error on CPU_SrcID#1_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x365669d offset:0xf40 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0092 socket:1 ha:0 channel_mask:2 rank:5)
[1180532.573940] EDAC MC1: 255 CE memory read error on CPU_SrcID#1_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x3d2953a offset:0x540 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0092 socket:1 ha:0 channel_mask:2 rank:5)
[1180532.573944] EDAC MC1: 177 CE memory read error on CPU_SrcID#1_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x212b93c offset:0x540 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0092 socket:1 ha:0 channel_mask:2 rank:5)
[1180532.573949] EDAC MC1: 136 CE memory read error on CPU_SrcID#1_Ha#0_Chan#1_DIMM#1 (channel:1 slot:1 page:0x31d099d offset:0xb40 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0092 socket:1 ha:0 channel_mask:2 rank:5)
[1180532.573953] EDAC MC1: 88 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#1 (channel:0 slot:1 page:0x228e5be offset:0x100 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0092 socket:1 ha:0 channel_mask:1 rank:5)
[1180532.573958] EDAC MC1: 111 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#1 (channel:0 slot:1 page:0x34e5e7b offset:0xf00 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0092 socket:1 ha:0 channel_mask:1 rank:5)
[1180532.573962] EDAC MC1: 149 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#1 (channel:0 slot:1 page:0x314bb9f offset:0xd00 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0092 socket:1 ha:0 channel_mask:1 rank:5)
[1180532.611035] EDAC sbridge MC1: HANDLING MCE MEMORY ERROR
[1180532.611045] EDAC sbridge MC1: HANDLING MCE MEMORY ERROR
[1180533.460534] EDAC sbridge MC1: HANDLING MCE MEMORY ERROR
[1180533.460544] EDAC sbridge MC1: HANDLING MCE MEMORY ERROR
[1180533.547047] EDAC sbridge MC1: HANDLING MCE MEMORY ERROR
......

EDAC即error detection and correction(错误检测与纠正),是Linux系统内部的机制。在上面的日志中,可以清楚地看出是内存读错误。MC即memory controller(内存控制器)。CE则代表correctable error,是ECC内存中可以纠正的错误,相对地还有UE(uncorrectable error)。
为了摸清是哪些内存出了问题,找出所有内存的CE计数:

 

~ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch3_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow1/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow1/ch2_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow1/ch3_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch3_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:198276530
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:233266714
/sys/devices/system/edac/mc/mc1/csrow1/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch3_ce_count:0

可见是mc1/csrow1/ch0和mc1/csrow1/ch1两个通道上的内存出了问题。mc、csrow(chip-select row)与ch之间的关系类似下图:

 

mc0        ch0       ch1
==============================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
==============================
mc1        ch0       ch1
==============================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
==============================

通过dmidecode -t memory命令,可以查看每个DIMM(也就是常说的内存条)对应的位置。然后根据映射关系,去服务器上将出现问题的两根内存条更换,问题就解决了。



作者:LittleMagic
链接:https://www.jianshu.com/p/f1fd08176ca0
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Linux服务器EDAC CE memory read error 的相关文章

  • 手机浏览器呼出QQ聊天窗口

    做一些手机html5网页的产品 难免会用到QQ聊天等 都知道电脑上面的网页是可以点击特殊的链接来打开电脑版本的QQ的 那手机呢 手机端其实也有的 手机浏览器点击超链接调出手机QQ聊天界面地址 lt a href mqqwpa im chat
  • 软件外包接单经验谈-需求篇

    上一篇谈了如何寻找客户 这一期就谈谈在和客户接洽时 如何与客户沟通需求 在这里我不去套用类似PMP里面那些完善的高大上的需求管理的方法论 因为我第一篇文章就说了 我写的这一系列文章都是针对小公司或者个人承接的外包项目 也就是都是一些中小项目
  • E5 CPU内存条数影响

    E5 v4 可支持4通道 双E5服务器8条内存即达到内存带宽 如果主板是16条 剩余的8条只增加容量 不再增加带宽 即只有在内存消耗很大 用到剩余8条内存时 内存才进行读写 写可能不完全是这样 总之 对性能的影响不大 以2697Av4为例
  • DOS网络启动盘

    DOS网络启动盘 这张从97年到现在我一直保留并维护的工具盘 也许平时用的机会不多 但总在关键时刻救急 它能帮你在无法通过光驱安装操作系统时 通过网络或USB移动盘把几百兆的Windows系统安装文件复制到本地硬盘来进行安装 当然还可以用它
  • 图解实时操作系统和非实时操作系统的区别

    转自 http blog csdn net u013752202 article details 53649047 对于实时操作系统 RTOS 和非实时操作系统 你能分别列举出来多少 实时操作系统 uCOS VxWorks RTLinux
  • zabbix3.4.2使用discovery对磁盘IO进行监控

    https blog csdn net m0 37814112 article details 80997967
  • Xeon可扩展Xeon睿频

    进行多线程AVX512运算的时候 需要把频率降下来 使用更低的电压 才能把功耗控制在一个TDP范围内 这就是全核AVX512默频 如果散热给力 可以提高电压增加点功耗 频率提高点 AVX512全核睿频 进行多线程AVX2运算的时候 单个核心
  • 浅谈linux性能调优之十七:进程绑定与中断绑定

    1 使用taskset设置CPU亲和性 taskset搜索并设定运行进程的CPU亲和性 根据进程ID 它还可用于启动给定CPU亲和性的进程 这样就可将指定的进程与指定的CPU或者一组CPU捆绑 CPU 亲和性使用位掩码表示 最低位对应第一个
  • 如何将MATLAB程序编译成独立可执行的程序

    一 生成独立可执行的程序 exe文件 步骤1 安装编译器 可有多种选择 matlab自带了一个LCC 推荐使用VC 6 0 我基于VS 2003实现 2 设置编译器 在matlab命令行输入mbuild setup以及mex setup 选
  • MySQL 数据类型

    MySQL支持多种类型 大致可以分为三类 数值 日期 时间和字符串 字符 类型 数值类型 MySQL支持所有标准SQL数值数据类型 这些类型包括严格数值数据类型 INTEGER SMALLINT DECIMAL和NUMERIC 以及近似数值
  • 系统异常重启检测-mcelog

    mcelog 是Linux 系统上用来检查硬件错误 特别是内存和CPU错误的工具 比如服务器隔一段时间莫名的重启一次 而message和syslog又检测不到有价值的信息 通常发生MCE报错的原因有如下 1 内存报错或者ECC问题 2 处理
  • TDP真的不是功耗?讲解“睿频”技术发展史

    在睿频2 0中有四个功耗限制等级 PL1 默频 可以长时间工作 此时的值就是TDP 注意红圈 PL2 可以以高于默认频率较长时间工作 有时间限制并不是无限的 PL3 偶尔可以超过的值 不过超过了会马上强制缩回 也就是功率处于跳动状态 PL4
  • Linux服务器EDAC CE memory read error

    之前在大数据集群中 有一台服务器的CPU占用总是莫名其妙飙高 就算执行简单任务也会耗费很长时间 且reboot不能解决问题 检查了各种可能的问题之后 最终在查看dmesg命令的设备信息时 发现大量如下的日志 1180532 573917 E
  • iostat查看linux硬盘IO性能

    rrqm s 每秒进行 merge 的读操作数目 即 delta rmerge swrqm s 每秒进行 merge 的写操作数目 即 delta wmerge sr s 每秒完成的读 I O 设备次数 即 delta rio sw s 每
  • Mac office 2016 word 出现隐藏模块中出现编译错误: link

    try to remove Library Group Containers UBF8T346G9 Office User Content Startup Word linkCreation dotm or whatever in that
  • 模块""可能与您正在运行的Windows版本不兼容。检查该模块是否与regsvr32.exe的x86或x64版

    本人最近在研究mencoder 转换视频格式 发现转换rmvb需要 1 把drv43260 dll拷贝到系统的system32文件夹下 2 开始 gt 运行 gt regsvr32 drv43260 dll 来自 http topic cs
  • 最近很火的ChatGPT和GPT4

    ChatGPT 全名 Chat Generative Pre trained Transformer 美国OpenAI研发的聊天机器人程序 于2022年11月30日发布 ChatGPT是人工智能技术驱动的自然语言处理工具 它能够通过理解和学
  • cpustat:在 Linux 下根据运行的进程监控 CPU 使用率

    转自 https linux cn article 8466 1 html pr cpustat 是 Linux 下一个强大的系统性能测量程序 它用 Go 编程语言 1 编写 它通过使用 用于分析任意系统的性能的方法 USE 2 以有效的方
  • Maven搭建私有仓库(私服)

    Nexus简介 作为一个非常优秀且我找不到合适的替代品的二进制包储存库 功能也是非常强大 不单纯只能设置Maven私有仓库 包括我们常见的Yum Docker npm NuGel等等 专业版需要付费 个人用免费版就可以 专业版更加强大 专业
  • Intel CPU5种不同的CPU频率标定方式

    作者 cici xiang 链接 https www zhihu com question 271509706 answer 364246338 来源 知乎 著作权归作者所有 商业转载请联系作者获得授权 非商业转载请注明出处 Intel C

随机推荐

  • TensorFlow2.0正式版安装

    文章目录 一 熟悉conda常用的cmd指令 二 TF2 0 CPU版本安装 1 新建TF2 0 CPU环境 2 进入TF 2C环境 3 在环境中安装TF2 0 CPU版本 4 测试TensorFlow是否安装成功 三 测试一个简单的Ten
  • C语言基础练习题(矩阵乘法)

    给定一个N阶矩阵A 输出A的M次幂 M是非负整数 例如 A 1 2 3 4 A的二次幂 7 10 15 22 输入格式 第一行是一个正整数N M 1 N 30 0 M 5 表示矩阵A的阶数和要求的幂数接下来N行 没行N个绝对值不超过10的非
  • 【Darknet】yolo层forward_yolo_layer函数详解

    最近在研究Darknet源码 这篇主要分享一下yolo层中forward yolo layer函数的源码 前言 神经网络是由很多层叠加起来的 Darknet也不例外 Darknet中的每一层都有make xxx layer forward
  • Ubuntu如何开启共享文件夹---亲测有效

    Ubuntu如何开启共享文件夹 亲测有效 一 安装VM Tools 选择安装VMware Tools 安装完后 在文件中会有一个压缩包 将压缩包移动到桌面或者其他路径进行解压缩 若出现没有足够的空间提取 1 使用归档管理器打开 2 提取 3
  • Docker 启动RabbitMQ 服务,外部不能正常访问

    今天在总结RabbitMQ消息队列服务器时 遇到一个小问题 服务器拉取RabbitMQ 服务器镜像正常 启动RabbitMQ 镜像服务正常 但通过外部访问RabbitMQ 管理端提示无法访问 第一步 检查服务器的防火墙状态 firewall
  • Linux网络编程基本知识

    Linux网络编程基本知识 from 实战Linux Socket 编程 1 套接口 include
  • linux掌握物理页面的分配和回收,系统软件课程设计指导书-2010-12

    2 本次课程设计要求阅读的Linux源代码版本为2 4 18 其他版本无效 3 结合操作系统基本原理进行代码分析 并进行详细分析和完整注释 注释越详细 成绩越好 5 设计型题目要按照要求完成全部算法 6 一定要充分地考虑个人的能力选择相应的
  • 更新和寻找最新的sid——持续更新中

    第一种 开始程序SAS中找到续订SAS软件 浏览找到最新的sid txt文件 确定 更新许可 确定 第二种 打开SAS 在编辑器中复制粘贴sid文件中第一个BEGIN下的 PROC SETINIT SAVE RUN 大概20行 点击上方的提
  • Vue-cli实现登录和重置功能

    Vue cli实现登录和重置功能 1 项目初始化 安装Vue脚手架 npm install g vue cli 通过Vue脚手架创建项目 在cmd命令行中输入 vue ui 使用图形化界面创建项目 配置Vue路由 配置Elment UI组件
  • Android使用Toolbar来添加右上角菜单

    好久没写东西了 最近学到了很多东西但是也非常忙 把一些知识积累一下 先上个效果图 很常见的一个需求 我们来看下怎么实现的 非常简单 activity main xml
  • 解决远程仓库配置密钥后,进行代码提交操作输入密码无效的问题

    问题产生 在开发的过程中 进行代码提交 弹出远程仓库需要录入密码 即使填入正确的密码也无反应 解决思路 公钥与私钥首先要配置正确 但配置完后依然无法生效 原因是git默认没有用已生成的公钥私钥的配置文件 在git的安装目录 Git etc
  • 分块矩阵计算行列式三板斧

    第一板斧 上下三角分块 第二板斧 对角为0零的分块 第三板斧 全分块 小招 A 2 B 2 其他招式 利用特征值计算行列式
  • pull request 时遇到 conflicted 的解决方法

    今天 pull request 的时候遇到了 conflicted 的问题 发现是因为相比于最开始 fork 的内容 原仓库的内容发生了变化 而我 fork 后的仓库没有及时更新 于是 首先点击 fork from 后的刷新标识 同步 fo
  • Unity学习笔记05-场景切换和加载

    Unity场景简介 场景 顾名思义就是我们在游戏中所看到的物品 建筑 人物 背景 声音 特效等 基本上和我们玩游戏时所看到的游戏 场景 是同一个概念 Unity3D中 场景 是一个视图 我们通过 场景 这个视图 来编辑 布置游戏中玩家所能见
  • Java Stream使用多个过滤器(filter)或复杂条件方法用法及简单写法代码

    本文主要介绍Java中 对List列表集合stream等 使用多个过滤器 filter 进行数据筛选 或使用复杂条件过滤数据的方法 以及简单写法代码 原文地址 Java Stream使用多个过滤器 filter 或复杂条件方法用法及简单写法
  • Go 编程学习路线

    安装IED vscode atom subl 插件安装错误总结 入门 go by example the way to go go web 编程 豆瓣 提升书籍 The Go Programming Language 2015 11 pdf
  • Oracle查看用户所在的表空间

    oracle 查看表空间有哪些表 select from dba tables where tablespace name 表空间名 注意表空间名大小写敏感 select table name tablespace name from us
  • linux的进程1:rootfs与linuxrc

    在内核启动的最后阶段启动了三个进程 进程0 进程0其实就是刚才讲过的idle进程 叫空闲进程 也就是死循环 进程1 kernel init函数就是进程1 这个进程被称为init进程 进程2 kthreadd函数就是进程2 这个进程是linu
  • 2023年6月电子学会Python等级考试试卷(四级)答案解析

    青少年软件编程 Python 等级考试试卷 四级 分数 100 题数 38 一 单选题 共25题 共50分 1 下列程序段的运行结果是 def s n if n 0 return 1 else return n s n 1 print s
  • Linux服务器EDAC CE memory read error

    之前在大数据集群中 有一台服务器的CPU占用总是莫名其妙飙高 就算执行简单任务也会耗费很长时间 且reboot不能解决问题 检查了各种可能的问题之后 最终在查看dmesg命令的设备信息时 发现大量如下的日志 1180532 573917 E