一、引言

2026年4月24日，DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源，模型上下文处理长度由原有的128K显著扩展至1M，实现近10倍的容量提升，首次增加了KV Cache滑窗和压缩算法，大幅减少Attention计算和访存开销，并通过模型架构创新更好地支持了Agent和Coding场景。本指南基于天翼云 HCC（高性能计算集群）平台，提供从集群开通、环境配置到服务部署的全流程详细操作，帮助用户快速完成 DeepSeek-V4 在昇腾 910B 算力上部署，实现稳定、高效的推理服务。

资源要求

管控节点：1 台搭载昇腾 910B NPU 的节点（每节点 8 × 64GB 昇腾 910B，HBM2e 显存）。
计算节点：1 台搭载昇腾 910B NPU 的节点（每节点 8 × 64GB 昇腾 910B，HBM2e 显存）。(仅集群开通时需要）
共享存储：根据资源池选择 OceanFS 或 SFS Turbo，容量需满足模型权重、数据集与镜像存储需求（默认500GB）。
网络：节点间使用 RoCE 或高速以太网连接，管控节点绑定 EIP 用于公网访问，EIP 避免直接暴露在公网，具体可参照《天翼云业务安全组网建议》。

二、环境准备

2.1 集群开通

天翼云高性能计算集群（HCC）平台拥有基础版和大模型精简版两种集群版本，根据开通机器类型建议选择 大模型精简版 ：

2.1.1 高性能计算集群（HCC）大模型精简版

功能定位：包含 Slurm 调度系统、apptainer 高性能容器，实现deepseek服务一键启停。
开通步骤：
1. 登录天翼云控制台，进入“弹性高性能计算”产品页面，选择“高性能计算集群”，点击进入集群控制台。
2. 点击“创建集群”，在集群类型中选择“大模型精简版”。
3. 依次配置各项参数，包括计费模式、地域、可用区、集群名称、虚拟私有云、安全组、共享存储（ SFS 或 OceanFS）、管理节点和计算节点的对应规格、镜像、磁盘、子网、登录密码。（注：当前大模型精简版暂不支持无计算节点的集群创建，需至少配置1台计算节点）
4. 确认所有配置无误后，提交订单并完成集群创建，等待节点纳管完成，直至集群页面显示“可用”“配置完成”状态。
5. 点击已创建的集群，选择左侧“节点”栏，删除配置的计算节点，仅保留管理节点即可。

2.2 NVMe 磁盘挂载配置

昇腾910B物理机默认配备2×3.2T NVMe SSD，请格式化后用于存储模型文件，提升推理性能。

需将节点的nvme1n1和nvme0n1两块 NVMe 盘分别挂载至/mnt/nvme1n1和/mnt/nvme0n1目录。

可通过以下脚本实现自动化挂载及开机自动挂载的配置：

#!/bin/bash

# 设备列表
devices=("/dev/nvme0n1" "/dev/nvme1n1")
mount_points=("/mnt/nvme0n1" "/mnt/nvme1n1")
fs_type="xfs"

# 确保 root 权限
if [[ $EUID -ne 0 ]]; then
    echo "请使用 root 运行此脚本！"
    exit 1
fi

for i in "${!devices[@]}"; do
    device="${devices[$i]}"
    mount_point="${mount_points[$i]}"

    # 创建挂载目录
    mkdir -p "$mount_point"

    # 获取设备的文件系统类型
    current_fs=$(blkid -s TYPE -o value "$device")

    if [[ -z "$current_fs" ]]; then
        echo "设备 $device 没有文件系统，正在格式化为 $fs_type..."
        mkfs.xfs -f "$device"
    else
        echo "$device 已格式化为 $current_fs，跳过格式化"
    fi

    # 确保设备未被挂载后再尝试挂载
    umount "$device" 2>/dev/null
    mount -t "$fs_type" "$device" "$mount_point"

    if [[ $? -ne 0 ]]; then
        echo "错误：无法挂载 $device 到 $mount_point，请检查设备或文件系统！"
        exit 1
    fi

    echo "$device 已成功挂载到 $mount_point"

    # 获取 UUID 并更新 /etc/fstab，避免重复添加
    uuid=$(blkid -s UUID -o value "$device")
    if ! grep -q "$uuid" /etc/fstab; then
        echo "UUID=$uuid  $mount_point  $fs_type  defaults  0 0" >> /etc/fstab
        echo "$device (UUID=$uuid) 已添加到 /etc/fstab"
    else
        echo "$device 已存在于 /etc/fstab，无需添加"
    fi

done

echo "所有磁盘已成功挂载并配置为开机自动挂载！"

将以上脚本保存为mount.sh，并执行

sh mount.sh

本指南中部署将统一使用一下路径：

高速容器存储路径：/mnt/nvme0n1/apptainer/
服务部署工作路径：/mnt/nvme0n1/deepseek/
模型权重参数路径：/mnt/nvme1n1/models/

建议将权重参数放在单独的nvme盘中，启动加载时更快

三、物料准备

3.1 模型文件获取

方式一：（极速）使用cthpc一键安装工具，分钟级快速下发模型，当前支持：

华东1、武汉41、上海15、华北2、华南2、北京9、西南1、长沙42。

mkdir -p /mnt/nvme1n1/model
# 使用 cthpc 工具极速下发
cthpc model makecache
cthpc model install DeepSeek-V4-Flash-w8a8-mtp --dir /mnt/nvme1n1/model/

方式二：（传统方式速度慢）基于modelscope、魔乐社区、huggingface平台，使用对应工具直接下载（不推荐，受限于公网EIP订阅的带宽大小）

mkdir -p /mnt/nvme1n1/model

# modelscope下载依赖python3.8+的环境，若缺失，则需要构建虚拟环境
pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install modelscope
modelscope download --model Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp --local_dir /mnt/nvme1n1/model/DeepSeek-V4-Flash-w8a8-mtp

3.2 高性能容器SIF文件获取

基于Apptainer（原 Singularity） 封装的 vLLM-Ascend 昇腾推理加速包，高性能计算集群产品将持续迭代优化，原生适配昇腾 NPU 硬件、无权限壁垒、极致轻量化、生产级稳定，全面超越传统 Docker 容器，是昇腾 AI 推理场景的最优融合选择。

方式一：（极速）使用cthpc一键安装工具，秒级快速下发apptainer高性能容器灌装，当前支持：

华东1、武汉41、上海15、华北2、华南2、北京9、西南1、长沙42。

mkdir -p /mnt/nvme0n1/apptainer
# 使用 cthpc 工具极速下发
cthpc apptainer makecache
cthpc apptainer install vllm-ascend_v0.13.0rc3 --dir /mnt/nvme0n1/apptainer/

方式二：（传统方式速度慢）通过天翼云zos站点直接下载（不推荐，受限于公网EIP订阅的带宽大小）

mkdir -p /mnt/nvme0n1/apptainer
# 使用 wget 从 天翼云ZOS 下载 SIF 镜像
wget https://jiangsu-10.zos.ctyun.cn/galaxy/apptainer/vllm_ascend/vllm-ascend_v0.13.0rc3.sif

3.2.1镜像更新说明

华为会持续更新 vllm-ascend 包，优化推理性能与兼容性。更新时只需重新下载最新 SIF 镜像，替换旧文件即可，无需修改部署配置。

四、推理服务启停

4.1 创建部署目录

mkdir -p /mnt/nvme0n1/deepseek

4.2 准备启动脚本

将以下脚本保存至/mnt/nvme0n1/deepseek/run_deepseek.sh

#!/bin/bash

export LC_CTYPE=C.UTF-8

export MODEL_NAME=DeepSeek-V4
export MODEL_DIR=/mnt/nvme1n1/model/DeepSeek-V4-Flash-w8a8-mtp
export MODEL_PORT=11025

export VLLM_IMG=/mnt/nvme0n1/apptainer/vllm-ascend_v0.13.0rc3.sif

export USE_MULTI_BLOCK_POOL=1
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=10
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export VLLM_USE_V1=1
export ACL_OP_INIT_MODE=1

export start_time=$(date +"%Y-%m-%d_%H-%M-%S")

apptainer instance start --writable-tmpfs --no-home \
    -B /usr/local/sbin:/usr/local/sbin \
    -B /usr/local/Ascend/driver:/usr/local/Ascend/driver \
    -B $MODEL_DIR:/model \
    $VLLM_IMG deepseek

apptainer exec instance://deepseek \
    vllm serve \
    /model \
    --served-model-name "$MODEL_NAME" \
    --host 0.0.0.0 \
    --port $MODEL_PORT \
    --tensor-parallel-size 8 \
    --gpu-memory-utilization 0.92 \
    --max_model_len 65536 \
    --max-num-seqs 16 \
    --max-num-batched-tokens 8192 \
    --block-size 128 \
    --enable-expert-parallel \
    --async-scheduling \
    --quantization ascend \
    --enable-prefix-caching \
    --trust-remote-code \
    --disable-log-stats \
    --additional-config '{"enable_cpu_binding": "true", "multistream_overlap_sha
red_expert": true}' \
    --speculative-config '{"num_speculative_tokens": 1,"method": "deepseek_mtp"}
' \
    --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
    > logs/log_${start_time}.out 2> logs/log_${start_time}.err &

4.3 服务启动与停止

# 进入部署目录
cd /mnt/nvme0n1/deepseek

# 新建日志目录（启动后会根据启动时间戳在目录中记录vllm-ascend日志
mkdir -p /mnt/nvme0n1/deepseek/logs

# 启动 DeepSeek 服务
sh run_deepseek.sh

# 查看npu运行状态
npu-smi info

# 查看实例和作业运行信息
apptainer instance list
# 示例输出
# INSTANCE NAME    PID        IP    IMAGE
# deepseek         4105355          /mnt/nvme1n1/apptainer/vllm-ascend_v0.13.0rc3.sif

# 停止服务
apptainer instance stop deepseek

五、服务验证与运维

5.1 推理服务验证

测试方法：向大模型问一个简单的问题，准备如下脚本并保存到check.sh

#!/bin/bash
curl http://localhost:11025/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
  "model": "DeepSeek-V4",
  "messages": [
    {"role":"user","content":"你是谁？"}
  ],
  "extra": {"openai_proxy":true}
}'

成功响应示例：

 sh check.sh 
# {"id":"chatcmpl-badd14778df1c172","object":"chat.completion","created":1777055526,"model":"DeepSeek-V4","choices":[{"index":0,"message":{"role":"assistant","content":"你好！我是DeepSeek，由深度求索公司创造的AI助手。很高兴认识你！😊\n\n我是一个纯文本模型，擅长回答各种问题、协助写作、编程、分析数据等。我的一些特点包括：\n\n✨ **完全免费** - 没有任何收费计划\n📚 **超长上下文** - 支持1M上下文，可以一次性处理像《三体》三部曲那么大体量的内容\n📎 **文件上传** - 支持上传图片、PDF、Word、Excel、PPT等文件，从中提取文字信息\n🔍 **联网搜索** - 可以联网获取最新信息（需要手动开启）\n🎙️ **语音输入** - App端支持语音输入功能\n\n我的知识截止于2025年5月，会尽我所能为你提供准确、有用的帮助。有什么我可以为你做的吗？无论是学习、工作还是生活中的问题，都欢迎随时问我！💪","refusal":null,"annotations":null,"audio":null,"function_call":null,"tool_calls":[],"reasoning":null,"reasoning_content":null},"logprobs":null,"finish_reason":"stop","stop_reason":null,"token_ids":null}],"service_tier":null,"system_fingerprint":null,"usage":{"prompt_tokens":6,"total_tokens":196,"completion_tokens":190,"prompt_tokens_details":null},"prompt_logprobs":null,"prompt_token_ids":null,"kv_transfer_params":null}

5.2 推理日志查看

若服务异常，可通过日志排查问题：

# 查看作业输出日志
tail -f /mnt/nvme0n1/deepseek/log/log_YYYY-MM-DD_HH-MM-SS.out
# 查看错误日志
tail -f /mnt/nvme0n1/deepseek/log/log_YYYY-MM-DD_HH-MM-SS.err

六、注意事项

模型版本管理：建议对模型权重、SIF 镜像进行版本化管理，避免更新后无法回滚。
安全防护：生产环境建议配置安全组IP 白名单，减少公网暴露面，并通过天翼云 WAF 防护恶意攻击，推荐以下5种安全组网方案：
1. ELB+VPN
2. ELB+NAT 网关。
3. DDoS+WAF+ELB+NATGW+VPN。
4. DDoS+WAF+ELB+SDWAN。
5. DDoS+WAF+ELB+专线

七、附录

天翼云 HCC 产品文档：弹性高性能计算-产品文档-帮助中心 - 天翼云
DeepSeek-V4 模型下载地址：https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

弹性高性能计算 E-HPC

弹性高性能计算 E-HPC

一、引言

资源要求

二、环境准备

2.1 集群开通

2.1.1 高性能计算集群（HCC）大模型精简版

2.2 NVMe 磁盘挂载配置

三、物料准备

3.1 模型文件获取

3.2 高性能容器SIF文件获取

3.2.1镜像更新说明

四、推理服务启停

4.1 创建部署目录

4.2 准备启动脚本

4.3 服务启动与停止

五、服务验证与运维

5.1 推理服务验证

5.2 推理日志查看

六、注意事项

七、附录

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

弹性高性能计算 E-HPC

弹性高性能计算 E-HPC

一、引言

资源要求

二、环境准备

2.1 集群开通

2.1.1 高性能计算集群（HCC） 大模型精简版

2.2 NVMe 磁盘挂载配置

三、物料准备

3.1 模型文件获取

3.2 高性能容器SIF文件获取

3.2.1镜像更新说明

四、推理服务启停

4.1 创建部署目录

4.2 准备启动脚本

4.3 服务启动与停止

五、服务验证与运维

5.1 推理服务验证

5.2 推理日志查看

六、注意事项

七、附录

2.1.1 高性能计算集群（HCC）大模型精简版