活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 聚力AI赋能 天翼云大模型专项 大模型特惠专区·Token Plan 轻享包低至9.9元起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 企业出海解决方案 NEW 助力您的业务扬帆出海,通达全球!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
Token 服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V4-Flash
  • GLM-5.1
  • Qwen3.5-122B-A10B
  • DeepSeek-V3.2(旗舰版)
  • GLM-5(正式版)
  • Qwen3.5-397B-A17B(正式版)
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2026智能云生态大会
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      弹性高性能计算 E-HPC

      弹性高性能计算 E-HPC

      • 弹性高性能计算 E-HPC

      无数据

        • 产品动态
        • 产品介绍
        • 产品定义
        • 术语解释
        • 产品特性
        • 产品优势
        • 产品应用场景
        • 产品使用限制
        • 购买指南
        • 计费说明
        • 资源调度
        • SLURM介绍
        • 高性能计算平台
        • 概述
        • 入门指引
        • 创建集群
        • 管理集群
        • 连接集群
        • 扩容集群
        • 配置自动伸缩
        • 管理共享存储
        • 软件管理
        • 删除集群
        • 登录Portal
        • 提交作业
        • 命令行提交作业
        • Portal提交作业
        • ctbatch提交作业
        • 查看作业结果
        • 高性能计算集群
        • 入门指引
        • 创建集群
        • 管理集群
        • 扩容集群
        • 删除集群
        • 部署集群
        • 最佳实践
        • 使用HCC部署DeepSeek-V4-Flash
        • 使用HCC部署DeepSeek-V4-Pro
        • HCC大模型精简版运维指南
        • HCC性能测试工具--EvalScope
        • HCC性能测试工具--天翼云定制版EvalScope
        • 使用VASP软件做分子动力学模拟
        • 使用LAMMPS做分子动力学模拟
        • 使用OpenFOAM软件进行流体力学仿真计算
        • 文档下载
        • 操作手册
        • API参考
        • API使用说明
        • 相关协议
        • 弹性高性能计算服务协议
        • 常见问题
        • 计费类
        • 操作类
        • 管理类
          无相关产品

          本页目录

          帮助中心弹性高性能计算 E-HPC资源调度SLURM介绍
          SLURM介绍
          更新时间 2026-05-13 16:55:27
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2026-05-13 16:55:27
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本文面向初次使用SLURM集群的用户,聚焦核心命令与快速上手流程,通过简明易懂的方式讲解日常作业管理的必备技能,帮助您快速掌握集群使用方法,充分发挥天翼云弹性高性能计算的算力优势。

          引言

          Simple Linux Utility for Resource Management,简称SLURM,是全球最主流的高性能计算集群资源管理与作业调度系统,被90%以上的世界顶级超算中心采用。天翼云弹性高性能计算 (E-HPC) 基于SLURM作业调度系统,为用户提供开箱即用的超算级算力服务。

          主要覆盖场景:

          工业仿真:完美适配 LS-DYNA、STAR-CCM+、ANSYS、VASP 等主流 CAE/CFD 软件。通过 SLURM 调度器实现跨节点多核并行计算,结合天翼云底层 RDMA 高速网络,大幅缩短复杂流体力学、结构强度及材料科学计算的仿真周期。

          生物信息:针对 AlphaFold 3、GROMACS、Nextflow 、GATK等批量化任务进行深度优化。支持在高性能容器化环境(如 Apptainer/Singularity)中一键部署复杂的生信流水线,实现海量基因组测序数据的高效并行处理。

          芯片制造:提供满足 EDA (电子设计自动化) 工具所需的超大内存节点与高性能存储支持。在电路仿真、物理验证与寄生参数提取等环节,利用 Slurm 的优先级调度机制,确保关键设计任务在高并发环境下依然稳定运行。

          训练推理:针对 NVIDIA Hopper/Ampere及华为昇腾 (Ascend) 等异构算力深度适配。兼容vLLM、DeepSpeed、Megatron-LM 等主流框架,支持百亿/千亿级参数大模型的分布式训练与高吞吐推理。通过高性能容器部署实现环境解耦,快速部署最新 AI 大模型,实现 Token 自由。

          核心命令速览

          日常使用中,您只需掌握以下6个命令即可完成90%以上的作业管理操作:

          命令核心功能最常用场景
          sinfo查看集群状态了解哪些节点空闲、有哪些分区可用
          squeue查看作业队列查询自己的作业是否在运行、为什么排队
          sbatch提交批处理作业提交需要长时间运行的计算任务
          sacct查看历史作业分析已完成作业的资源使用情况
          scancel取消作业终止运行错误或不再需要的作业
          scontrol管理作业/节点查看作业详细信息、暂停/恢复作业

          核心命令详解

          sinfo:查看集群状态

          sinfo用于查询所有节点和分区的实时信息,基本用法如下:

          # 1. 查看所有分区的基本信息(最常用)
          sinfo
          
          # 2. 查看每个节点的详细状态
          sinfo -N
          
          # 3. 只看空闲可用的节点
          sinfo --states=idle
          
          # 4. 查看指定分区的信息(如GPU分区)
          sinfo --partition=gpu
          
          # 5.输出示例
          [root@master001 ~]# sinfo
          PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
          batch*       up   infinite      4  alloc compute[001-003],master001

          输出示例字段解读:

          字段含义关键值说明
          PARTITION分区名称带*的是默认分区
          AVAIL分区状态up表示可用,down表示不可用
          TIMELIMIT作业最大运行时长7-00:00:00表示7天
          NODES节点数量集群机器数量
          STATE节点状态idle(空闲)、alloc(全占)、mix(部分占用)、drain(故障)
          NODELIST节点列表如compute[001-100]表示100个节点

          squeue:查看作业状态

          squeue用于跟踪查询集群中所有作业(job)的实时状态。基本用法如下:

          # 1. 查看所有作业
          squeue
          
          # 2. 只看自己的作业(最常用)
          squeue --me
          
          # 3. 查看指定作业的详细信息
          squeue -j 12345
          
          # 4. 只看运行中的作业
          squeue --state=R
          
          # 5. 查看更详细的作业信息
          squeue -l
          
          # 6. 输出示例
          [root@master001 ~]# squeue
          JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
          83     batch deepseek     root  R      21:19      1 compute001
          77     batch  qwen27b     root  R 1-05:44:37      1 compute002
          74     batch   qwen35     root  R 1-06:01:01      2 compute003,master001

          输出示例字段解读:

          字段含义关键值说明
          JOBID作业唯一ID后续所有操作都需要用到这个ID
          PARTITION作业所在分区 
          NAME作业名称您在脚本中指定的名称
          USER提交作业的用户 
          ST作业状态PD(排队中)、R(运行中)、CG(即将完成)
          TIME已运行时间 
          NODELIST(REASON)运行中显示节点列表,排队中显示等待原因常见原因:Resources(资源不足)、Priority(有更高优先级作业)

          sbatch:提交批处理作业

          sbatch是Slurm最核心的命令,用于提交批处理作业脚本。您只需编写一个包含计算命令和资源需求的脚本,然后用sbatch提交即可。

          一个标准的Slurm脚本分为三部分:

          1. #!/bin/bash:声明脚本使用bash解释器

          2. #SBATCH开头的行:指定资源需求和作业参数

          3. 实际要执行的计算命令

          示例:创建一个名为hello.slurm的文件:

          #!/bin/bash
          #SBATCH --job-name=hello_world  # 作业名称
          #SBATCH --partition=batch       # 提交到batch分区
          #SBATCH --nodes=1               # 请求1个节点
          #SBATCH --ntasks=1              # 1个进程
          #SBATCH --cpus-per-task=4       # 每个进程4个CPU核
          #SBATCH --time=00:10:00         # 最大运行10分钟
          #SBATCH --output=%j.out         # 标准输出文件(%j会替换为作业ID)
          #SBATCH --error=%j.err          # 标准错误文件
          #SBATCH --nodelist=compute001   # 指定compute001节点
          #SBATCH --exclusive             # 指定节点独占
          
          # 实际执行的命令
          echo "Hello, Slurm!"
          echo "作业ID: $SLURM_JOB_ID"
          echo "运行节点: $(hostname)"

          提交作业:

          sbatch hello.slurm

          提交成功后会显示:Submitted batch job 12345,其中12345就是您的作业ID。

          常用SBATCH参数速查表:

          参数含义示例
          --job-name作业名称--job-name=my_job
          --partition提交到的分区--partition=gpu
          -N, --nodes请求的节点数-N 2
          -n, --ntasks总进程数-n 8
          --ntasks-per-node每个节点的进程数--ntasks-per-node=4
          --cpus-per-task每个进程的CPU核数--cpus-per-task=8
          --gres请求GPU资源--gres=gpu:8(请求8张GPU)
          --time最大运行时长--time=7-00:00:00(7天)
          --output标准输出文件--output=output_%j.log
          --error标准错误文件--error=error_%j.log

          sacct:查看历史作业

          sacct用于查询已完成作业的详细信息,包括运行时间、资源使用情况和退出状态,是排查问题和优化作业的重要工具。基本用法如下:

          # 1. 查看过去24小时自己的作业
          sacct
          
          # 2. 查看指定作业的详细信息
          sacct -j 12345
          
          # 3. 查看指定时间范围内的作业
          sacct -S 2026-05-01 -E 2026-05-10
          
          # 4. 自定义输出格式(最常用)
          sacct --format=JobID,JobName,State,Elapsed,AllocCPUS,MaxRSS
          # 5. 输出示例
          [root@master001 deepseek-v4-flash]# sacct
          JobID           JobName  Partition    Account  AllocCPUS      State ExitCode 
          ------------ ---------- ---------- ---------- ---------- ---------- -------- 
          74               qwen35      batch       root        384    RUNNING      0:0 
          74.batch          batch                  root        192    RUNNING      0:0 
          74.extern        extern                  root        384    RUNNING      0:0 

          输出字段说明:

          字段含义单位
          JobID作业ID 
          JobName作业名称 
          State作业最终状态COMPLETED(成功)、FAILED(失败)、CANCELLED(取消)
          Elapsed实际运行时间 
          AllocCPUS分配的CPU核数 
          MaxRSS最大内存使用量KB
          ExitCode退出码0表示正常结束

          scancel:取消作业

          当您的作业运行错误或不再需要时,可以使用squeue查看JOBID,并用scancel命令取消它。基本用法如下:

          # 1. 取消单个作业
          scancel 12345 #(jobid)
          
          # 2. 取消多个作业
          scancel 12345 12346 12347
          
          # 3. 取消自己所有的作业
          scancel --me
          
          # 4. 取消所有排队中的作业
          scancel -t PD
          
          # 5. 取消指定分区的所有作业
          scancel -p batch

          scontrol:作业管理工具

          scontrol是一个功能强大的管理工具,普通用户主要用它来查看作业的详细信息和暂停/恢复作业。基础用法如下:

          # 1. 查看单个/所有作业的完整详细信息(排查问题必备)
          scontrol show job 12345
          scontrol show jobs
          
          # 2. 暂停排队中的作业(暂时不让它运行)
          scontrol hold 12345
          
          # 3. 恢复被暂停的作业
          scontrol release 12345

          常见问题排查

          作业一直在排队(PD状态)

          • 原因1:集群资源不足

            • 解决:使用sinfo查看空闲节点,查看共享存储是否正常,或调整作业资源需求

          • 原因2:有更高优先级的作业在前面

            • 解决:耐心等待,或联系管理员调整优先级

          • 原因3:申请的资源超过分区限制

            • 解决:使用sinfo -l查看分区的最大资源限制,调整申请量

          作业提交后很快失败

          • 步骤1:查看作业的错误文件:cat 12345.err

          • 步骤2:查看作业的退出信息:sacct -j 12345 -l

          • 常见原因:

            • 脚本语法错误

            • 缺少依赖库或文件路径错误

            • 内存不足(OOM)

            • 运行时间超过限制

          如何查看作业的实时输出

          作业运行过程中,输出会实时写入到您指定的--output文件中,可以使用以下命令查看:

          # 实时查看输出
          tail -f 12345.out

          常用Slurm环境变量

          变量名说明
          SLURM_JOB_ID作业ID
          SLURM_JOB_NAME作业名称
          SLURM_JOB_NODELIST作业分配的节点列表
          SLURM_SUBMIT_DIR作业提交目录
          SLURM_ARRAY_TASK_ID作业数组任务ID

          作业状态代码

          代码状态说明
          PDPENDING排队中
          RRUNNING运行中
          CGCOMPLETING完成中
          CDCOMPLETED成功完成
          FFAILED运行失败
          CACANCELLED被取消
          TOTIMEOUT超时
          OOMOUT_OF_MEMORY内存不足

           

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  资源调度
          下一篇 :  高性能计算平台
          搜索 关闭
          ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2026天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明