活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2026智能云生态大会
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      弹性高性能计算 E-HPC

      弹性高性能计算 E-HPC

      • 弹性高性能计算 E-HPC

      无数据

        • 产品动态
        • 产品介绍
        • 产品定义
        • 术语解释
        • 产品特性
        • 产品优势
        • 产品应用场景
        • 产品使用限制
        • 购买指南
        • 计费说明
        • 高性能计算平台
        • 概述
        • 入门指引
        • 创建集群
        • 登录Portal
        • 管理集群
        • 连接集群
        • 扩容集群
        • 配置自动伸缩
        • 管理共享存储
        • 软件管理
        • 删除集群
        • 提交作业
        • 命令行提交作业
        • Portal提交作业
        • ctbatch提交作业
        • 查看作业结果
        • 高性能计算集群
        • 入门指引
        • 创建集群
        • 管理集群
        • 扩容集群
        • 删除集群
        • 部署集群
        • 最佳实践
        • 使用HCC部署DeepSeeK-V4-Flash
        • HCC大模型精简版运维指南
        • 使用VASP软件做分子动力学模拟
        • 使用LAMMPS做分子动力学模拟
        • 使用OpenFOAM软件进行流体力学仿真计算
        • API参考
        • API使用说明
        • 常见问题
        • 计费类
        • 操作类
        • 管理类
        • 文档下载
        • 操作手册
        • 相关协议
        • 弹性高性能计算服务协议
          无相关产品

          本页目录

          帮助中心弹性高性能计算 E-HPC最佳实践HCC大模型精简版运维指南
          HCC大模型精简版运维指南
          更新时间 2026-04-28 16:31:49
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2026-04-28 16:31:49
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接

          一、总体说明

          1.1 部署简介

          通过HCC集群标准化交付,能够统一规范全链路部署路径架构,明确服务部署、高性能容器、模型权重三类核心资源的分区存储路径。依托本地多块 NVMe 硬盘实现资源物理隔离与性能最优配置,全面保障大模型推理服务快速部署、秒级启动与高效稳定运行。

          HCC标准交付将统一采用如下部署路径:

          服务部署工作路径:/home/[模型]/

          高性能容器存储路径:/mnt/nvme0n1/apptainer/

          模型权重参数路径:/mnt/nvme1n1/models/

          本文档以 DeepSeek 模型为例,统一设定服务部署工作路径为/home/deepseek。高性能容器与模型权重文件均存放于各物理机本地 NVMe 硬盘中,该类静态资源的读写性能,直接决定业务服务的拉起部署效率与启动加载速度。在实测中,高性能容器和模型权重分别放置在不同的NVMe硬盘中,性能最优。

          核心注意事项:HCC集群采用共享目录架构,需重点监控/home目录存储容量。服务运行日志会持续增量写入。若该目录空间耗尽,将直接引发推理服务启动失败、接口响应超时等核心业务故障,需做好空间清理与容量管控。

          1.2 部署路径文件说明

          /home/deepseek 路径下核心文件/文件夹功能如下:

          名称类型功能
          srun.shslurm启动脚本模型推理服务启动脚本
          node.shshell脚本模型推理服务核心配置脚本,包含单个计算节点实际环境变量、启动参数等关键配置
          check.shshell脚本推理服务验证脚本,封装的curl命令,用于快速校验服务是否正常可用
          vllm-ascend_xxx.sif软链接指向推理框架实际文件(路径:/mnt/nvme1n1/apptainer/vllm-ascend_xxx.sif),无需手动修改
          logs文件夹存储模型推理服务运行日志,包含服务启动日志、推理请求日志、错误日志等,用于问题排查
          kernel_meta文件夹存储vllm-ascend 框架运行时生成的算子缓存,属于vllm-ascend自动生成及维护,无需手动操作

          二、模型配置修改

          2.1 配置文件路径

          2.1.1 模型基础配置

          模型基础配置放置在/home/deepseek/srun.sh,主要参数如下:

          #!/bin/bash
          ...
          # 模型基础配置
          export MODEL_NAME=DeepSeek-V4 # 模型名
          export MODEL_PORT=11025 # 服务端口
          export MODEL_DIR=/mnt/nvme1n1/model/DeepSeek-V4-Flash-w8a8-mtp # 本地模型权重路径
          export VLLM_IMG=vllm-ascend_v0.13.0rc3.sif # 推理引擎高性能容器
          ...
          名称含义
          MODEL_NAME模型推理服务对外暴露的模型名
          MODEL_PORT模型推理服务对外暴露的端口
          MODEL_DIR本地模型权重路径,默认放置在各物理机本地 NVMe 高速存储介质中
          VLLM_IMG推理引擎高性能容器

          2.1.2 推理服务节点配置

          推理服务节点配置文件:/home/deepseek/nodes.sh(以下文脚本内容为例)

          #!/bin/bash
          
          export LC_CTYPE=C.UTF-8
          
          # 环境变量配置
          export USE_MULTI_BLOCK_POOL=1
          export OMP_PROC_BIND=false
          export OMP_NUM_THREADS=10
          export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
          export VLLM_USE_V1=1
          export ACL_OP_INIT_MODE=1
          
          # 启动高性能容器实例
          apptainer instance start --writable-tmpfs --no-home \
              -B /usr/local/sbin:/usr/local/sbin \
              -B /usr/local/Ascend/driver:/usr/local/Ascend/driver \
              -B $MODEL_DIR:/model \
              $VLLM_IMG deepseek
          
          # 启动vllm推理服务
          apptainer exec instance://deepseek \
              vllm serve \
              /model \
              --served-model-name $MODEL_NAME \
              --host 0.0.0.0 \
              --port $MODEL_PORT \
              --tensor-parallel-size 8 \
              --data-parallel-size 1 \
              --gpu-memory-utilization 0.92 \
              --max_model_len 65536 \
              --max-num-seqs 16 \
              --max-num-batched-tokens 8192 \
              --block-size 128 \
              --async-scheduling \
              --enable-expert-parallel \
              --quantization ascend \
              --no-enable-prefix-caching \
              --trust-remote-code \
              --disable-log-stats \
              --chat-template /model/chat_template.jinja \
              --additional-config '{"enable_cpu_binding": "true", "multistream_overlap_shared_expert": true}' \
              --speculative-config '{"num_speculative_tokens": 1,"method": "deepseek_mtp"}' \
              --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'

          2.2 常用配置修改说明

          修改任意配置,均需重启模型推理服务才能生效。

          2.2.1 修改模型名(MODEL_NAME)

          • 作用:指定推理服务的模型名

          • 修改步骤:

          1. 编辑srun.sh文件,找到 export MODEL_NAME=DeepSeek-V4 字段

          2. 将 DeepSeek-V4 改为需求推理服务模型名

          3. 保存退出后,重启推理服务

          2.2.2 修改服务端口(MODEL_PORT)

          • 作用:指定推理服务对外提供访问的端口,默认 11025

          • 修改步骤:

          1. 编辑srun.sh文件,找到 export MODEL_PORT=11025 字段

          2. 将 11025 改为目标端口(如 11026,需确保端口未被占用)

          3. 保存退出后,重启推理服务

          2.2.3 替换新模型(MODEL_DIR)

          • 作用:指定使用哪个模型提供推理服务

          • 修改步骤:

          1. 编辑srun.sh文件,找到 export MODEL_DIR 字段

          2. 将模型权重路径改为替换的新的模型权重路径,新模型权重文件需要放置在每台服务器本地NVMe盘

          3. 保存退出后,重启推理服务

          2.2.4 升级推理引擎高性能容器(VLLM_IMG)

          • 作用:指定推理服务使用的推理引擎高性能容器

          • 修改步骤:

          1. 下载新的推理引擎高性能容器,推荐使用cthpc工具下载,下载后的容器需要分发到每台服务器相同路径(例如:/mnt/nvme0n1/apptainer/vllm-ascend_vXXX.sif)

          2. 在/home/deepseek目录下建立新推理引擎高性能容器的软连接

          ln -s /mnt/nvme0n1/apptainer/vllm-ascend_vXXX.sif .
          1. 编辑srun.sh文件,找到 export VLLM_IMG 字段

          2. 将推理引擎高性能容器改为新的推理引擎高性能容器

          3. 保存退出后,重启推理服务

          2.2.5 修改上下文长度上限(--max_model_len)

          • 作用:限定模型单次推理的上下文长度(单位:token),默认 65536 token

          • 修改步骤:

          1. 编辑node.sh文件,找到 --max_model_len 65536 字段

          2. 按实际需求修改数值(如 32768、131072,需结合模型支持范围与 GPU 内存容量)

          3. 保存退出后,重启推理服务

          2.2.6 开关前缀缓存(--enable-prefix-caching/--no-enable-prefix-caching)

          • 作用:开启前缀缓存可提升重复前缀请求的推理速度,默认开启

          • 修改步骤:

          1. 编辑node.sh文件,找到 --enable-prefix-caching 字段

          2. 关闭:将其改为 --no-enable-prefix-caching;开启:保持原参数不变

          3. 保存退出后,重启推理服务

          2.2.7 配置聊天模板(--chat-template)

          • 作用:指定模型推理的对话格式模板(如系统提示词、用户 / 助手角色分隔符)

          • 配置步骤:

          1. 确保模板文件(如 chat_template.jinja)已在模型目录($MODEL_DIR,即 /mnt/nvme1n1/model/DeepSeek-V4-Flash-w8a8-mtp)

          2. 编辑node.sh文件,在 vllm serve 启动命令中添加参数:--chat-template /model/chat_template.jinja

          3. 保存退出后,重启推理服务

          三、推理服务启停

          3.1 服务启动

          # 进入部署目录
          cd /mnt/nvme0n1/deepseek
          
          # 启动 DeepSeek 服务
          sbatch srun.sh
          
          # 查看npu运行状态
          npu-smi info
          
          # 查看实例和作业运行信息
          squeue
          # 示例输出
          # JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
          # 1    batch     deepseek     root  R 2-00:20:40      1 master0001

          3.2 服务停止

          停止一项推理服务

          # scancel [JOBID],根据上文deepseek服务的JOBID为1
          scancel 1 

          停止所有推理服务

          scancel --me

          四、服务验证与运维

          4.1 推理服务验证

          测试方法:执行check.sh脚本,向大模型问一个简单的问题,check.sh脚本内容如下:

          #!/bin/bash
          curl http://localhost:11025/v1/chat/completions \
          -H "Content-Type: application/json" \
          -d '{
            "model": "DeepSeek-V4",
            "messages": [
              {"role":"user","content":"你是谁?"}
            ],
            "extra": {"openai_proxy":true}
          }'

          成功响应示例:

           sh check.sh 
          # {"id":"chatcmpl-badd14778df1c172","object":"chat.completion","created":1777055526,"model":"DeepSeek-V4","choices":[{"index":0,"message":{"role":"assistant","content":"你好!我是DeepSeek,由深度求索公司创造的AI助手。很高兴认识你!😊\n\n我是一个纯文本模型,擅长回答各种问题、协助写作、编程、分析数据等。我的一些特点包括:\n\n✨ **完全免费** - 没有任何收费计划\n📚 **超长上下文** - 支持1M上下文,可以一次性处理像《三体》三部曲那么大体量的内容\n📎 **文件上传** - 支持上传图片、PDF、Word、Excel、PPT等文件,从中提取文字信息\n🔍 **联网搜索** - 可以联网获取最新信息(需要手动开启)\n🎙️ **语音输入** - App端支持语音输入功能\n\n我的知识截止于2025年5月,会尽我所能为你提供准确、有用的帮助。有什么我可以为你做的吗?无论是学习、工作还是生活中的问题,都欢迎随时问我!💪","refusal":null,"annotations":null,"audio":null,"function_call":null,"tool_calls":[],"reasoning":null,"reasoning_content":null},"logprobs":null,"finish_reason":"stop","stop_reason":null,"token_ids":null}],"service_tier":null,"system_fingerprint":null,"usage":{"prompt_tokens":6,"total_tokens":196,"completion_tokens":190,"prompt_tokens_details":null},"prompt_logprobs":null,"prompt_token_ids":null,"kv_transfer_params":null}

          4.2 推理日志查看

          若服务异常,可通过日志排查问题:

          # 查看模型推理服务API及模型名
          tail -f /home/deepseek/logs/log.$JOBID.out
          # 查看作业输出日志
          tail -f /home/deepseek/logs/log.$JOBID.${节点编号}.out
          # 查看错误日志
          tail -f /home/deepseek/logs/log.$JOBID.${节点编号}.err

          其中JOBID可通过squeue命令查看,节点编号格式为0.x,x从0开始,表示第一个节点。

          五、附录

          • 天翼云 HCC 产品文档:弹性高性能计算-产品文档-帮助中心 - 天翼云

          • DeepSeek-V4 模型下载地址:https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  使用HCC部署DeepSeeK-V4-Flash
          下一篇 :  使用VASP软件做分子动力学模拟
          搜索 关闭
          ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2026天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明