我最近也出现了类似的问题。我出现这种情况都伴随着集群内某个节点异常(可以ping通,但是无法ssh登录),在我手动删除这个异常节点,并重启主节点服务后,就出现了这个报错。 |
旺旺雪饼 发表于 2018-7-19 20:36 解决了吗?我现在也遇到这个问题了 |
limaolin0 发表于 2017-5-26 11:26 你好,我想问一下在计算节点上service pbs_mom start没有问题,在管理节点上service maui start出现maui: unrecognized service,您知道这是为什么吗?我用qsub提交好任务显示E,然后就没了 |
wuy069 发表于 2017-5-26 15:29 谢谢啊 ![]() |
limaolin0 发表于 2017-5-26 11:49 才看见,不好意思。集群,计算节点的防火墙一般都是关闭的,不用开 |
wuy069 发表于 2017-5-26 10:38 谢谢你,问题已经解决,应该是我的防火墙设置除了问题。 我在所有的节点上运行iptables -F 和iptables -X删除所有的chain 文件可以被分配到asymm8上进行计算,也可以结束,但是又出现了新的错误。 系统发了一封邮件 You have new mail in /var/spool/mail/lml_admin 打开如下: Return-Path: <adm@asymm.localdomain> X-Original-To: lml_admin@asymm Delivered-To: lml_admin@asymm.localdomain Received: by asymm.localdomain (Postfix, from userid 0) id 2658B4A6C91E; Fri, 26 May 2017 11:34:50 +0800 (CST) To: lml_admin@asymm.localdomain Subject: PBS JOB 10.asymm Precedence: bulk Message-Id: <20170526033450.2658B4A6C91E@asymm.localdomain> Date: Fri, 26 May 2017 11:34:50 +0800 (CST) From: adm@asymm.localdomain (root) PBS Job Id: 10.asymm Job Name: H2 Exec host: asymm8/0+asymm8/1+asymm8/2+asymm8/3+asymm8/4+asymm8/5+asymm8/6+asymm8/7 An error has occurred processing your job, see below. Post job file processing error; job 10.asymm on host asymm8/0+asymm8/1+asymm8/2+asymm8/3+asymm8/4+asymm8/5+asymm8/6+asymm8/7 Unable to copy file /opt/pbs/dispatcher/spool/10.asymm.OU to lml_admin@asymm:/home/lml_admin/job.log, error 1 |
wuy069 发表于 2017-5-26 10:38 在每个计算节点上service pbs_mom start 在管理节点上service maui start 可是还是报告同样的错误,应该不是pbs_mom的问题, 看这个语句“Execution server rejected request” 是不是计算节点拒绝接收管理节点的命令的意思啊? 网上有说是防火墙的原因,可是我的防火墙都是关了的啊? Failed to stop firewalld.service: Unit firewalld.service not loaded. |
把计算节点重启下,其实只用重启计算节点的pbs_mom服务就行,然后在管理节点asymm上重启maui服务应该就好了 |
milkxx 发表于 2017-5-26 09:07 谢谢啊,用checkjob查看了,这个怎么处理呢? checking job 7 State: Idle EState: Deferred Creds: user:lml_admin group:lml_admin class:A qos:DEFAULT WallTime: 00:00:00 of 60:00:00:00 SubmitTime: Thu May 25 12:56:10 (Time Queued Total: 8:21:56 Eligible: 00:00:00) StartDate: -00:19:27 Thu May 25 20:58:39 Total Tasks: 8 Req[0] TaskCount: 8 Partition: ALL Network: [NONE] Memory >= 0 Disk >= 0 Swap >= 0 Opsys: [NONE] Arch: [NONE] Features: [NONE] Dedicated Resources Per Task: PROCS: 1 MEM: 2000M IWD: [NONE] Executable: [NONE] Bypass: 0 StartCount: 9 PartitionMask: [ALL] Flags: RESTARTABLE job is deferred. Reason: RMFailure (cannot start job - RM failure, rc: 15043, msg: 'Execution server rejected request MSG=cannot send job to mom, state=PRERUN') Holds: Defer (hold reason: RMFailure) PE: 8.93 StartPriority: 19 cannot select job 7 for partition DEFAULT (job hold active) |
niobium 发表于 2017-5-26 04:38 这么多机子,用的人也多,方便管理啊 |
可以安装maui,然后用checkjob等命令 查看原因 |
不太懂,但是自己的机器为什么要用PBS交作业,直接提交不就行了吗? |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2025-8-15 06:52 , Processed in 0.652641 second(s), 25 queries , Gzip On.