记录一次 CPU 错误排查过程

2023-04-23

被奸商坑了!

最近在搭建机器学习服务器,为了控制成本用了一堆二手原件(eg. 2x3090)。虽然说卖家们都否认自己是矿,但是自己有着是矿的觉悟,但是没想到被奸商上了一课。

问题现象:能够正常启动,但是在运行一段时间(~8h)后会发现显示屏完全停住(死机),并且对 ssh 没有响应。

在第一次出现这个问题的时候,感觉可能只是一次随机错误,遂前往实验室重启机器,但是在第二天早上 8 点又重新发生了类似的问题。

考虑可能是硬件问题。

排查内核日志,只可以 dmesg 只能显示当前启动的消息,要想查看之前的日志需要:

查看所有的启动 journalctl --list-boot
查看倒数第二次 journalctl -o short-precise -k -b -2

Ref: https://unix.stackexchange.com/questions/181067/how-to-read-dmesg-from-previous-session-dmesg-0

可能第一次死机的时候存储功能也寄了,第一次死机并没有日志,第二次死机提示了如下错误:

... [Hardware Error]: Corrected error, no action required.
... [Hardware Error]: CPU:6 (17:31:0) MC8_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000004010b
... [Hardware Error]: Error Addr: 0x0000000c39b44850
... [Hardware Error]: IPID: 0x000700b020350100, Syndrome: 0x000078121a470001
... [Hardware Error]: L3 Cache Ext. Error Code: 4, L3M Data ECC Error.
... [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

网上搜索,有多种说法:

有说 CPU 问题的:https://forums.centos.org/viewtopic.php?t=7473
有说 内存问题的:https://superuser.com/questions/945367/l3-data-cache-ecc-error
还有说主板问题的:https://www.cnblogs.com/yuanqiangfei/p/15657096.html

考虑内存问题,跑了一下 memtest86 内存测试,每次总会在 Test7/8 出错,并且每次出错正确的内存值和错误的内存值只差 2 的几次方

观察到内存我买的是超频内存,故跟商家联系更换了更低频率内存。

发现问题仍在(memtest86 fail)

故怀疑 CPU 问题(一般 CPU 出错概率很低)

更换后 memtest86 能够通过,并且长时间烤机能够顺利通过,故最后确认为 CPU 问题。

题外话:有了这台服务器以后,之后博客的文章都可以配上一个美美的图片了~

维护网站需要一定的开销,如果您认可这篇文章,烦请关闭广告屏蔽器浏览一下广告,谢谢!
加载中...

(。・∀・)ノ゙嗨,欢迎来到 lookas 的小站!

这里是 lookas 记录一些事情的地方,可能不时会有 lookas 的一些神奇的脑洞或是一些不靠谱的想法。

总之多来看看啦。