计算化学公社

标题: 请教GPU机器搭建基本问题 [打印本页]

作者
Author: fsh 时间: 2025-5-13 02:28
标题: 请教GPU机器搭建基本问题
本帖最后由 fsh 于 2025-5-13 03:02 编辑

对纯CPU机器配置有一点了解，对GPU机子配置不了解，属于小白，想请教一些基本的问题（后续GPU机子主要用途：DeepMD、LAMMPS、GPUMD、VASP等）：
1. 对于多卡，比如4*4090显卡，放在集群中，是建成一个4卡的节点，还是两个双卡的节点，还是四个单卡的节点好呢
2. 建成塔式服务器和集群节点形式各有什么优缺点，目前已有机房（非正式）的实际情况是需要考虑噪音和散热问题的
3. 一般纯CPU机子选用内存大约为物理核数的三到四倍并插满通道，对于这种4卡4090的GPU机子，内存一般如何选用（内存选取多大为好），CPU应该如何选用（对核数有什么要求），此时的CPU还适合选用社长推荐的9950X这类CPU吗
4.对于其他的一些以双浮点精度为主的显卡，比如4卡V100并行，SXM2版本和PICE版本的价格和性能分别能差多少
ps：社长博客中推荐的单卡4090的机子配置为：AMD Ryzen 9 9950X（16核）+RTX4090D 24GB+2*金士顿FURY 32GB DDR5-5600
以上问题比较基础，希望不吝赐教!

作者
Author: tonganlhy 时间: 2025-5-13 09:15
本帖最后由 tonganlhy 于 2025-5-13 10:40 编辑

1. 卡也要相应的cpu来带动。根据卡哥的测评，做GPU分子动力学带动一个4090至少要7950X 8核。如果你预算够上服务器级的强CPU（要单核频率高的，比如2495X，普通4677或者9005是不行的），那可以单CPU可以支撑四卡，比如2495X+4*4090。不够的话，至少要配7950X带4090*2 两个节点。参考卡哥http://bbs.keinsci.com/thread-35988-1-1.html
2. 塔式服务器主要是配置方便，但需要考虑散热和噪音。集群如果有机房的话，主要是考虑集群如何互连和管理的。参考1中提到的配置帖子集群。
3. 内存按8个核16G一般就够了。充裕一点8个核32G也可以。如果是2*4090的话，CPU7950X就够了，没必要上到9950X。CPU具体选择看第一点。
4. V100的单精度跟3060Ti差不多，是差点意思的。如果你需要双精度浮点，又买不起更新的计算卡，V100也是可以考虑的。PCIE版要贵很多（奸商卖到三四千）。如果自己动手能力强，搞SXM2版双卡不是很难。参考本版http://bbs.keinsci.com/thread-52311-1-1.html。性能上几乎没差别。如果有专门的SXM2主板性能甚至要更高。

作者
Author: David_R 时间: 2025-5-13 09:36
在构建具有多个 GPU 的系统时，需要牢记的关键是 PCI-e 带宽。消费级锐龙 CPU（例如 9950X）仅具有足够的带宽以 x16 模式运行一个 GPU。如果想在单个系统中获得更多 PCI-e 连接，则需要考虑 AMD Threadripper HEDT/工作站 CPU，它们具有高核心频率并且可以支持更多 GPU。Threadripper Pro 芯片（例如 7965WX（24 核）或 7975WX（32 核））可以毫无问题地以 x16 模式支持 4 个 GPU。

是运行一个系统还是四个独立的 9950X 系统更好，这可能是个人偏好的问题。配置和运行一个系统非常方便，并且 Threadripper 平台非常适合设置为工作站，主板上有很多有用的 I/O（与服务器级系统不同）。另一方面，独立的 9950X 系统更容易散热，而且还必须考虑如何将 4 个 GPU 安装在一个机箱中：大多数 RTX4090 显卡的设计都超过 3 个插槽，将它们中的四个安装在一块主板上可能是一个挑战！在这种情况下，PCI-e 延长线提供了一种解决方案。

对于系统内存，绝对目标是至少 128 GB（如果运行的是独立机器，则每台系统 32 GB）。Threadripper Pro 支持 8 个 DIMM，因此很容易支持大量内存，但它需要昂贵的 DDR5 ECC-REG 内存。

我没有计算过，但我怀疑总体而言，4 个 9950X 配置最终可能比单个 Threadripper Pro 系统便宜一些。

作者
Author: gaozx 时间: 2025-5-13 09:48
我只会用VASP，基于我用GPU跑VASP的经验说一下我个人的理解，希望对你有帮助。
1. 对于4090，建议还是单卡吧，双卡或者多卡会有插槽间距和散热方面的问题，还是按着sob老师的配置推荐配单卡节点比较合适。
2. 集群节点形式利于数据集中管理、资源灵活调配。你说的塔式服务器形式是指每台机器都独立不做成集群吗，优点我不太清楚。
3. GPU跑VASP大部分任务占用运行内存不大，也有极个别任务比如MLFF会吃掉比较多的运行内存，还是建议运行内存配大一些。
4. 跑VASP的话，V100很合适，我用单核性能好点的E5搭配V100也没有明显感觉拖后腿。
PCIE版本的V100性价比很低，而且我试着从两卡并行开始性能损失就变得非常大了。
SXM2版本的V100的话准系统很贵，不过现在也有合适的底板了（两卡NVLINK）。
问了一家，开票＋质保＋现场部署集群，4卡PCIE整机2.6w左右，4卡SXM2整机（两卡NVLINK）1.6w左右，供你参考。

作者
Author: abin 时间: 2025-5-13 17:01
如果程序本身是GPU-only的, 或者说运行起来后, 99%都在GPU本身工作, 而且仅仅是single-GPU模式的,
那么PCIe带宽以及通道是否够用, 可以忽略.

如果要涉及到一个任务, 使用多个GPU设备, 建议采用支持GPU P2P的硬件.
否则效率不太理想.

作者
Author: szp12345 时间: 2025-5-13 17:37
对于双精度有要求的话，可以考虑TITAN V，比V100便宜，比sxm转pci稳定，就是显存小一点

作者
Author: fsh 时间: 2025-5-13 23:07
多谢各位社友的解答，学到不少

作者
Author: zdb 时间: 2025-5-15 12:00
推荐单机多卡平台部署，单卡多台网络带宽是瓶颈，

作者
Author: fsh 时间: 2025-5-19 21:53
本帖最后由 fsh 于 2025-5-19 23:28 编辑

gaozx 发表于 2025-5-13 09:48
我只会用VASP，基于我用GPU跑VASP的经验说一下我个人的理解，希望对你有帮助。
1. 对于4090，建议还是单卡 ...

前面提到：“PCIE版本的V100性价比很低，而且我试着从两卡并行开始性能损失就变得非常大了“，”4卡PCIE整机2.6w左右，4卡SXM2整机（两卡NVLINK）1.6w左右“。有两个问题请教下：
1. SXM2并行性能更好，价格却比PCIE版本便宜很多，这是为何呢？
2. 如果在集群的一个节点中装四卡的V100-SMX2，可以实现NVLINK全局互联么，价格比单纯的四卡V100-PCIE节点贵（贵多少）还是便宜（便宜多少）呢，一般推荐采用哪种方式

3. PCIE版本价格贵，并行性能损失大，那PCIE版本的优点体现在哪呢

作者
Author: tonganlhy 时间: 2025-5-20 09:54

fsh 发表于 2025-5-19 21:53
前面提到：“PCIE版本的V100性价比很低，而且我试着从两卡并行开始性能损失就变得非常大了“，”4卡PCIE ...

1和3. SXM2卡普通用户需要捣腾，无论找SXM2主板还想办法转接。没有PCIE卡可以直插，部署方便。现在这些都是洋垃圾，所以卖价都是奸商定的。
2. 可以。大型服务器就是这么搞的。如果你会折腾，大概是PCIE版价格的40-60%吧。主要是支持四卡的主板不好找。

作者
Author: gaozx 时间: 2025-5-20 22:44

fsh 发表于 2025-5-19 21:53
前面提到：“PCIE版本的V100性价比很低，而且我试着从两卡并行开始性能损失就变得非常大了“，”4卡PCIE ...

价格是供需关系决定的
四卡互联目前基本买不到底板
PCIE版本正如这位老哥所说，插主板上就能用（前提是处理好散热）

欢迎光临计算化学公社 (http://ccc.keinsci.com/)