计算化学公社

标题: 7950x运行g16经常报错 [打印本页]

作者
Author:
tiandikuoyuan    时间: 2023-11-26 17:40
标题: 7950x运行g16经常报错
系统使用的Rocky Linux 9.3,环境变量里面也添加了export PGI_FASTMATH_CPU=sandybridge。结构比较大的时候,结构优化和激发态计算有的时候会报错。
结构优化的:
Logic error in AufBlk.
Error termination via Lnk1e in /home/g16/l502.exe at Sat Nov 25 23:46:24 2023.

频率计算的:
    195 vectors produced by pass  0 Test12= 2.32D-13 1.00D-09 XBig12= 3.72D+03 3.92D+01.
AX will form    72 AO Fock derivatives at one time.
    192 vectors produced by pass  1 Test12= 2.32D-13 1.00D-09 XBig12= 4.73D+02 5.75D+00.
OrtVc1:  Ph=1 IOff=     0 IPass=20 DotMx1= 2.49+284
OrtVc1:  Ph=1 M=   232443 NPass=20 Test1= 2.32D-13 Small= 2.32D-07 VSmall= 1.00D-12
OrtVc1 failed #1.
Error termination via Lnk1e in /home/g16/l1002.exe at Sat Nov 25 10:56:40 2023.

激发态计算的,数值是NaN,激发态能量也没给出来
Iteration     2 Dimension   180 NMult   120 NNew     60
CISAX will form    60 AO SS matrices at one time.
NMat=    60 NSing=    60 JSym2X= 0.
SlvRan:  Skip vector     1 energy            NaN DEMCon  -1.000000D+20
SlvRan:  Skip vector     2 energy            NaN DEMCon  -1.000000D+20
SlvRan:  Skip vector     3 energy            NaN DEMCon  -1.000000D+20


相同的计算文件在Intel平台(i3-12100, Rocky Linux 9.3)上没有出错
考虑是不是7950x用的Linux系统太新了,Gaussian给的兼容列表只到Red Hat Enterprise Linux 5.11, 6.10, 7.6, 8.3

作者
Author:
sobereva    时间: 2023-11-26 19:58
跟系统没必然关系
注意看和Intel平台的Gaussian修订版是否一样。如果是,并行核数、内存分配量都设成一样然后再试,如果7950X的平台还是有问题,仔细对比输出文件试图分析原因
作者
Author:
ChemG    时间: 2023-12-22 13:30
同7950x平台,经过了一段时间的折腾和尝试,我发现该平台会发生l703或者频率部分报错直接退出,导致优化中途l703报错而且没有什么特殊报错信息,频率根本没法算完。尝试换Gaussian版本(16 A 01、16 C 01、09E)和指令集(AVX、AVX2)发现都不行,包括加参数export PGI_FASTMATH_CPU=sandybridge也没啥用。最后经过测试是内存超频引起的。使用的是技嘉B650m小雕主板,XMP同时开启低延迟和高带宽大概率会出现上述问题,只开XMP或者不内存超频大概率就没有上述报错了(ps. Gaussian对内存性能要求较高,test0397测试可以从ddr5 3600的6分半降低至ddr5 5600的5分半,主要是上4条32gb内存很难再往上走了)。只能说有些程序报错和机器本身有关,反正使用7950x发现了很多包括mkl编译失败、rocky linux 9.0-9.1安装失败、cp2k 2023.1编译失败等问题。虽然现在AMD平台兼容性没那么差了,还会有偶发性的问题,需要花些功夫折腾
作者
Author:
tiandikuoyuan    时间: 2023-12-22 22:26
ChemG 发表于 2023-12-22 13:30
同7950x平台,经过了一段时间的折腾和尝试,我发现该平台会发生l703或者频率部分报错直接退出,导致优化中 ...

我的是内存频率设置的太高,导致在内存高负载的时候会导致软件出错。后来把频率从6400降到6000就能稳定运行。真是摸索了很久,系统都来回换了几个,而且这个内存出错不会导致系统重启,系统日志里面也查不到。
作者
Author:
一颗赛艇    时间: 2023-12-23 08:08
这种用途的机子还超频……唉真是
作者
Author:
ChemG    时间: 2023-12-24 16:11
tiandikuoyuan 发表于 2023-12-22 22:26
我的是内存频率设置的太高,导致在内存高负载的时候会导致软件出错。后来把频率从6400降到6000就能稳定运 ...

对,我也以为是系统原因,换了centos7也不行,用VMware虚拟机也不行。那就只有超频的问题了,把内存超频关掉就正常了。捣鼓了很久才搞清楚症状。你是两条ddr5内存吧,两条确实能超到较高的频率。
作者
Author:
ChemG    时间: 2023-12-24 16:17
一颗赛艇 发表于 2023-12-23 08:08
这种用途的机子还超频……唉真是

Zen4平台插满4条ddr5内存时,默认频率只有3600,内存性能成为计算的主要瓶颈了,相比于5600时Gaussian 16 C01运行test0397性能降低了将近20%,当然要超频了。况且适度超频并不会导致系统极度不稳定,同时获得可观的性能提升。超频肯定也是要反复测试系统稳定性的,并且是以系统稳定运行为前提的
作者
Author:
一颗赛艇    时间: 2023-12-29 08:41
ChemG 发表于 2023-12-24 16:17
Zen4平台插满4条ddr5内存时,默认频率只有3600,内存性能成为计算的主要瓶颈了,相比于5600时Gaussian 16 ...

内存一般情况很少成为瓶颈
内存成瓶颈只能建议你去用epyc这种处理器
作者
Author:
gaohang912    时间: 2024-1-2 14:47
ChemG 发表于 2023-12-22 13:30
同7950x平台,经过了一段时间的折腾和尝试,我发现该平台会发生l703或者频率部分报错直接退出,导致优化中 ...

我在用gaussian 16的时候,也是一样的毛病,算频率就报错。16A3 C12都试过,09也试过,都报错,并且输出文件没有任何结束信息,直接截断。我用的epyc 2,后来换了cpu还是这种情况,我现在也怀疑是内存问题。但我是技嘉服务器主板,没有XMP选项,请问有什么解决思路吗
作者
Author:
gaohang912    时间: 2024-1-2 14:50
ChemG 发表于 2023-12-22 13:30
同7950x平台,经过了一段时间的折腾和尝试,我发现该平台会发生l703或者频率部分报错直接退出,导致优化中 ...

我试过小雕+7950x+64g ddr5 6000金士顿,默认设置无问题。
作者
Author:
biogon    时间: 2024-1-2 15:24
ChemG 发表于 2023-12-24 16:17
Zen4平台插满4条ddr5内存时,默认频率只有3600,内存性能成为计算的主要瓶颈了,相比于5600时Gaussian 16 ...

没有ecc还超频,那不就是等着死的快
作者
Author:
ChemG    时间: 2024-1-3 13:25
biogon 发表于 2024-1-2 15:24
没有ecc还超频,那不就是等着死的快

金士顿Fury ddr5本来就带片内ECC。我已经找到并且解决了问题,在这里只是向有相同问题的小伙伴分享解决思路。超频与否自行测试选择即可
作者
Author:
biogon    时间: 2024-1-6 10:37
ChemG 发表于 2024-1-3 13:25
金士顿Fury ddr5本来就带片内ECC。我已经找到并且解决了问题,在这里只是向有相同问题的小伙伴分享解决思 ...

ddr5自带的ecc实际没有纠错功能




欢迎光临 计算化学公社 (http://ccc.keinsci.com/) Powered by Discuz! X3.3