centos Slurm -作业运行,获取数据,但出现超时错误

fwzugrvs  于 2022-11-23  发布在  其他
关注(0)|答案(1)|浏览(228)

我正在运行一些代码,在集群上运行这些代码大约需要2个小时。

# Set maximum wallclock time limit for this job
#Time Format = days-hours:minutes:seconds
#SBATCH --time=0-02:15:00

如果由于某种原因导致作业速度变慢,我会给予一些开销。我检查了生成的文件存储的目录,每次模拟都成功完成。尽管如此,slurm仍会保持作业运行,直到达到最大时间。.out文件一直在说
slurmstepd: *** JOB CANCELLED AT 2022-03-05T10:38:26 DUE TO TIME LIMIT ***
你知道为什么它没有显示为完整吗?

sy5wg1nm

sy5wg1nm1#

在我看来,这个错误与Slurm无关,而是与您的应用程序有关。您的应用程序不知何故没有向slurm发送退出信号。
您可以使用sstat -j jobid来查看作业的状态,可能在2小时后查看cpu消耗等情况,并找出应用程序中发生了什么(完成后挂起的位置)。

相关问题