计算化学公社

标题: 请教GPU机器搭建基本问题 [打印本页]

作者
Author:
fsh    时间: 2025-5-13 02:28
标题: 请教GPU机器搭建基本问题
本帖最后由 fsh 于 2025-5-13 03:02 编辑

对纯CPU机器配置有一点了解,对GPU机子配置不了解,属于小白,想请教一些基本的问题(后续GPU机子主要用途:DeepMD、LAMMPS、GPUMD、VASP等):
1. 对于多卡,比如4*4090显卡,放在集群中,是建成一个4卡的节点,还是两个双卡的节点,还是四个单卡的节点好呢
2. 建成塔式服务器和集群节点形式各有什么优缺点,目前已有机房(非正式)的实际情况是需要考虑噪音和散热问题的
3. 一般纯CPU机子选用内存大约为物理核数的三到四倍并插满通道,对于这种4卡4090的GPU机子,内存一般如何选用(内存选取多大为好),CPU应该如何选用(对核数有什么要求),此时的CPU还适合选用社长推荐的9950X这类CPU吗
4.对于其他的一些以双浮点精度为主的显卡,比如4卡V100并行,SXM2版本和PICE版本的价格和性能分别能差多少
ps:社长博客中推荐的单卡4090的机子配置为:AMD Ryzen 9 9950X(16核)+RTX4090D 24GB+2*金士顿FURY 32GB DDR5-5600
以上问题比较基础,希望不吝赐教!


作者
Author:
tonganlhy    时间: 2025-5-13 09:15
本帖最后由 tonganlhy 于 2025-5-13 10:40 编辑

1. 卡也要相应的cpu来带动。根据卡哥的测评,做GPU分子动力学带动一个4090至少要7950X 8核。如果你预算够上服务器级的强CPU(要单核频率高的,比如2495X,普通4677或者9005是不行的),那可以单CPU可以支撑四卡,比如2495X+4*4090。不够的话,至少要配7950X带4090*2 两个节点。参考卡哥http://bbs.keinsci.com/thread-35988-1-1.html
2. 塔式服务器主要是配置方便,但需要考虑散热和噪音。集群如果有机房的话,主要是考虑集群如何互连和管理的。参考1中提到的配置帖子集群。
3. 内存按8个核16G一般就够了。充裕一点8个核32G也可以。如果是2*4090的话,CPU7950X就够了,没必要上到9950X。CPU具体选择看第一点。
4. V100的单精度跟3060Ti差不多,是差点意思的。如果你需要双精度浮点,又买不起更新的计算卡,V100也是可以考虑的。PCIE版要贵很多(奸商卖到三四千)。如果自己动手能力强,搞SXM2版双卡不是很难。参考本版http://bbs.keinsci.com/thread-52311-1-1.html。性能上几乎没差别。如果有专门的SXM2主板性能甚至要更高。
作者
Author:
David_R    时间: 2025-5-13 09:36
在构建具有多个 GPU 的系统时,需要牢记的关键是 PCI-e 带宽。消费级锐龙 CPU(例如 9950X)仅具有足够的带宽以 x16 模式运行一个 GPU。如果想在单个系统中获得更多 PCI-e 连接,则需要考虑 AMD Threadripper HEDT/工作站 CPU,它们具有高核心频率并且可以支持更多 GPU。Threadripper Pro 芯片(例如 7965WX(24 核)或 7975WX(32 核))可以毫无问题地以 x16 模式支持 4 个 GPU。

是运行一个系统还是四个独立的 9950X 系统更好,这可能是个人偏好的问题。配置和运行一个系统非常方便,并且 Threadripper 平台非常适合设置为工作站,主板上有很多有用的 I/O(与服务器级系统不同)。另一方面,独立的 9950X 系统更容易散热,而且还必须考虑如何将 4 个 GPU 安装在一个机箱中:大多数 RTX4090 显卡的设计都超过 3 个插槽,将它们中的四个安装在一块主板上可能是一个挑战!在这种情况下,PCI-e 延长线提供了一种解决方案。

对于系统内存,绝对目标是至少 128 GB(如果运行的是独立机器,则每台系统 32 GB)。Threadripper Pro 支持 8 个 DIMM,因此很容易支持大量内存,但它需要昂贵的 DDR5 ECC-REG 内存。

我没有计算过,但我怀疑总体而言,4 个 9950X 配置最终可能比单个 Threadripper Pro 系统便宜一些。
作者
Author:
gaozx    时间: 2025-5-13 09:48
我只会用VASP,基于我用GPU跑VASP的经验说一下我个人的理解,希望对你有帮助。
1. 对于4090,建议还是单卡吧,双卡或者多卡会有插槽间距和散热方面的问题,还是按着sob老师的配置推荐配单卡节点比较合适。
2. 集群节点形式利于数据集中管理、资源灵活调配。你说的塔式服务器形式是指每台机器都独立不做成集群吗,优点我不太清楚。
3. GPU跑VASP大部分任务占用运行内存不大,也有极个别任务比如MLFF会吃掉比较多的运行内存,还是建议运行内存配大一些。
4. 跑VASP的话,V100很合适,我用单核性能好点的E5搭配V100也没有明显感觉拖后腿。
PCIE版本的V100性价比很低,而且我试着从两卡并行开始 性能损失就变得非常大了。
SXM2版本的V100的话准系统很贵,不过现在也有合适的底板了(两卡NVLINK)。
问了一家,开票+质保+现场部署集群,4卡PCIE整机2.6w左右,4卡SXM2整机(两卡NVLINK)1.6w左右,供你参考。
作者
Author:
abin    时间: 2025-5-13 17:01
如果程序本身是GPU-only的, 或者说运行起来后, 99%都在GPU本身工作, 而且仅仅是single-GPU模式的,
那么PCIe带宽以及通道是否够用, 可以忽略.

如果要涉及到一个任务, 使用多个GPU设备, 建议采用支持GPU P2P的硬件.
否则效率不太理想.


作者
Author:
szp12345    时间: 2025-5-13 17:37
对于双精度有要求的话,可以考虑TITAN V,比V100便宜,比sxm转pci稳定,就是显存小一点
作者
Author:
fsh    时间: 2025-5-13 23:07
多谢各位社友的解答,学到不少
作者
Author:
zdb    时间: 2025-5-15 12:00
推荐单机多卡平台部署,单卡多台网络带宽是瓶颈,
作者
Author:
fsh    时间: 2025-5-19 21:53
本帖最后由 fsh 于 2025-5-19 23:28 编辑
gaozx 发表于 2025-5-13 09:48
我只会用VASP,基于我用GPU跑VASP的经验说一下我个人的理解,希望对你有帮助。
1. 对于4090,建议还是单卡 ...

前面提到:“PCIE版本的V100性价比很低,而且我试着从两卡并行开始 性能损失就变得非常大了“,”4卡PCIE整机2.6w左右,4卡SXM2整机(两卡NVLINK)1.6w左右“。有两个问题请教下:
1. SXM2并行性能更好,价格却比PCIE版本便宜很多,这是为何呢?
2. 如果在集群的一个节点中装四卡的V100-SMX2,可以实现NVLINK全局互联么,价格比单纯的四卡V100-PCIE节点贵(贵多少)还是便宜(便宜多少)呢,一般推荐采用哪种方式

3. PCIE版本价格贵,并行性能损失大,那PCIE版本的优点体现在哪呢

作者
Author:
tonganlhy    时间: 2025-5-20 09:54
fsh 发表于 2025-5-19 21:53
前面提到:“PCIE版本的V100性价比很低,而且我试着从两卡并行开始 性能损失就变得非常大了“,”4卡PCIE ...

1和3. SXM2卡普通用户需要捣腾,无论找SXM2主板还想办法转接。没有PCIE卡可以直插,部署方便。现在这些都是洋垃圾,所以卖价都是奸商定的。
2. 可以。大型服务器就是这么搞的。如果你会折腾,大概是PCIE版价格的40-60%吧。主要是支持四卡的主板不好找。
作者
Author:
gaozx    时间: 2025-5-20 22:44
fsh 发表于 2025-5-19 21:53
前面提到:“PCIE版本的V100性价比很低,而且我试着从两卡并行开始 性能损失就变得非常大了“,”4卡PCIE ...

价格是供需关系决定的
四卡互联目前基本买不到底板
PCIE版本正如这位老哥所说,插主板上就能用(前提是处理好散热)




欢迎光临 计算化学公社 (http://ccc.keinsci.com/) Powered by Discuz! X3.3