SLURM介绍 sacct:查看历史作业 sacct用于查询已完成作业的详细信息,包括运行时间、资源使用情况和退出状态,是排查问题和优化作业的重要工具。基本用法如下: shell 1. 查看过去24小时自己的作业 sacct 2. 查看指定作业的详细信息 sacct j 12345 3. 查看指定时间范围内的作业 sacct S 20260501 E 20260510 4. 自定义输出格式(最常用) sacct formatJobID,JobName,State,Elapsed,AllocCPUS,MaxRSS 5. 输出示例 [root@master001 deepseekv4flash] sacct JobID JobName Partition Account AllocCPUS State ExitCode 74 qwen35 batch root 384 RUNNING 0:0 74.batch batch root 192 RUNNING 0:0 74.extern extern root 384 RUNNING 0:0 输出字段说明: 字段 含义 单位 JobID 作业ID JobName 作业名称 State 作业最终状态 COMPLETED(成功)、FAILED(失败)、CANCELLED(取消) Elapsed 实际运行时间 AllocCPUS 分配的CPU核数 MaxRSS 最大内存使用量 KB ExitCode 退出码 0表示正常结束 scancel:取消作业 当您的作业运行错误或不再需要时,可以使用squeue查看JOBID,并用scancel命令取消它。基本用法如下: shell 1. 取消单个作业 scancel 12345 (jobid) 2. 取消多个作业 scancel 12345 12346 12347 3. 取消自己所有的作业 scancel me 4. 取消所有排队中的作业 scancel t PD 5. 取消指定分区的所有作业 scancel p batch