计算化学公社

标题: 新装的机器报硬件错误,需要处理吗? [打印本页]

作者
Author:
413    时间: 2024-8-4 08:38
标题: 新装的机器报硬件错误,需要处理吗?
新机器刚跑了三天,连续三天报这个错误,请问需要处理吗?

Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: Corrected error, no action required.


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: CPU:2 (17:31:0) MC17_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: Error Addr: 0x00000002554a7700


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: IPID: 0x0000009600450f00, Syndrome: 0xd7df01000a800b00


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: Corrected error, no action required.


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: CPU:1 (17:31:0) MC18_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: Error Addr: 0x000000054cfc7b00


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: IPID: 0x0000009600350f00, Syndrome: 0xb94600040a800c01


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD



作者
Author:
sobereva    时间: 2024-8-4 08:52
如果只是跑某个程序个别类型任务出现这种信息,且计算结果没问题、机子稳定,一般可以不用管。我的机子满载跑Gaussian的振动分析也偶尔遇到这种提示,但结果没问题、跑任何其它程序也没这种提示。
作者
Author:
乐平    时间: 2024-8-4 10:29
如果是找厂商装机,直接联系工程师来检查,保修期内是免费检修的。还可以直接让厂商更换硬件,同样是免费更换。
作者
Author:
413    时间: 2024-8-4 11:45
sobereva 发表于 2024-8-4 08:52
如果只是跑某个程序个别类型任务出现这种信息,且计算结果没问题、机子稳定,一般可以不用管。我的机子满载 ...

出现的有点密集。
Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: Corrected error, no action required.

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: CPU:2 (17:31:0) MC17_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: Error Addr: 0x00000002554a7700

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: IPID: 0x0000009600450f00, Syndrome: 0xd7df01000a800b00

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD

作者
Author:
Entropy.S.I    时间: 2024-8-4 22:20
现在市面上所有便宜的DDR4 3200MT/s RECC内存都是从原厂2666超频上去的,高负载下报ECC是可以预见的,出现这种情况代表内存已经行将就木了,降回2666还能撑一撑
作者
Author:
413    时间: 2024-8-4 23:11
Entropy.S.I 发表于 2024-8-4 22:20
现在市面上所有便宜的DDR4 3200MT/s RECC内存都是从原厂2666超频上去的,高负载下报ECC是可以预见的,出现 ...

啊?内存将要行将就木了?就是内存要坏的意思吗?
作者
Author:
abin    时间: 2024-8-5 07:54
系统日志都说了这是hardware error.
挂是迟早的事情。
不能说便宜没好货,但是风险较高。
作者
Author:
乐平    时间: 2024-8-5 09:54
413 发表于 2024-8-4 23:11
啊?内存将要行将就木了?就是内存要坏的意思吗?

我在 3楼早就回复了,联系商家,联系商家,联系商家
作者
Author:
zmjsce    时间: 2024-8-5 22:52
楼主你好,我们最近配的一台机器也有类似错误,内存频率4800M,用的单颗9654QS,配置了centos 7.9系统,报这个错误时vasp提交的任务会断开。
报商家后排错没法找出原因,在超微主板后台查看内存信息也没报错。
作者
Author:
gog    时间: 2024-8-7 08:16
zmjsce 发表于 2024-8-5 22:52
楼主你好,我们最近配的一台机器也有类似错误,内存频率4800M,用的单颗9654QS,配置了centos 7.9系统,报 ...

恭喜你踩坑成功。
作者
Author:
zmjsce    时间: 2024-8-7 13:42
gog 发表于 2024-8-7 08:16
恭喜你踩坑成功。

发生频率不高,考虑到qs的价格,目前感觉还可以接受
作者
Author:
Satoru    时间: 2024-8-21 04:18
忘了在哪看的,ECC Corrected error可接受的频率上限是每条内存每24 h出现一次

超过这个频率的话建议是把出问题的内存和其他内存调换位置,如果问题跟着走的话就得换了
作者
Author:
renzhogn424    时间: 2024-9-9 15:03
zmjsce 发表于 2024-8-5 22:52
楼主你好,我们最近配的一台机器也有类似错误,内存频率4800M,用的单颗9654QS,配置了centos 7.9系统,报 ...

9654是不是计算能力特别猛??
作者
Author:
zmjsce    时间: 2024-9-24 12:22
renzhogn424 发表于 2024-9-9 15:03
9654是不是计算能力特别猛??

站内对9654已经有详细测评报告了。我们的结果是单颗9654快于双路8375C没问题的
作者
Author:
renzhogn424    时间: 2024-9-25 22:49
zmjsce 发表于 2024-9-24 12:22
站内对9654已经有详细测评报告了。我们的结果是单颗9654快于双路8375C没问题的

对哦,之前看过测评,只是觉得价格触不可及没细看。现在在用7k62也还不错。
作者
Author:
汪杰    时间: 2024-10-7 20:56
各位大佬,我新装的机子也遇到了这个问题,我在使用Xshell远程连接的时候会出现这个问题,有时它可以自动恢复
但是有时就不能恢复。
我在服务器上直接操作的时候就没有遇到这种问题,请问是什么情况?




欢迎光临 计算化学公社 (http://ccc.keinsci.com/) Powered by Discuz! X3.3