计算化学公社
标题:
MaterialsStudio2020 集群问题
[打印本页]
作者Author:
yourena
时间:
2022-2-1 18:54
标题:
MaterialsStudio2020 集群问题
大佬们求救啊我的预想是有两台机器,一台作为master一台为salve,两个都参与计算。任务提交方法为windows端向gateway交作业,gateway作业用torque,但实际都搭好后发现只有master能计算,但salve不行
两台系统都是centos7.9 torque版本是6.1.1 ms是2020 ,master节点ms装在了普通用户下,salve节点是用的master的nfs共享文件夹,torque管理用户也为普通用户,ssh普通用户免登录也设置了,machine.linux里master :64和salve :64添加了,两个dsd config文件的cputotal也都改为128了,torque里的nodes添加了master和salve
用torque运行普通echo命令,两个节点都可以正常输出,推测torque没问题
测试windows-gateway-torque-master能正常计算
但测试windows-gateway-torque-salve就只显示一个queue,再等会就报错了,在master上查看qstat -a -n命令能看到作业已经发给salve
现在大致知道问题应该是在torque到salve执行ms计算这块,但不知道该咋整了
,求救
作者Author:
abin
时间:
2022-2-1 19:11
放弃使用gateway 模式。
微软产生输入文件,
而后送到Linux 平台,
通过PBS脚本运行计算任务。
MS手册,如有描述gateway模式可以支持多机器,
那可以咨询MS技术支持,
作者Author:
ball2006
时间:
2022-2-2 20:38
需要修改cpucorestotal的核心数。
登录地址服务器ip:18888。
修改路径:
Gateway Data--Edit(屏幕左下角)--username:gatekeeper(口令为空)
作者Author:
ggdh
时间:
2022-2-10 23:16
确保MS的依赖包 在master和slave上的部署情况完全一样
欢迎光临 计算化学公社 (http://ccc.keinsci.com/)
Powered by Discuz! X3.3