问题描述
批量升级多台R5300 G4服务器的固件,包括BIOS、FRU、网卡和RAID卡版本。升级完成后,多台服务器上报告警:CPU system has a catastrophic error.
服务器信息如下:
BMC版本:03.19.0301
BIOS版本:03.22.0100
CPU型号:Intel®Xeon®Gold 5218 CPU @ 2.30GHz
适用产品:R5300 G4
解决方案
结合BMC日志分析,在mntnandflash1logsystem.log中,每次CPU重启都发生在服务器重启过程中,如下图所示。
结合BMC日志分析,在mntnandflash1loglifcycel.log中,发生CPU错误的原因是EPLD检测到0XA8寄存器值为0X22e,如下图所示。
0XA8寄存器定义参见下表,当0XA8寄存器的1 bit不为0时,表示CPU出现MSI错误。
结合MSR日志分析,在mntnandflash1hostcheckmsr中,MC_STATUS列为空,没有记录CPU的具体错误类型,如下图所示。
通过检查现场操作,发现在升级RAID卡固件和BIOS版本后,CPU信息与RAID卷组残留的配置有冲突。
根据以上检查结果,删除RAID卷组,告警消失。