一、引言
2026年4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,模型上下文处理长度由原有的128K显著扩展至1M,实现近10倍的容量提升,首次增加了KV Cache滑窗和压缩算法,大幅减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。本指南基于天翼云 HCC(高性能计算集群)平台,提供从集群开通、环境配置到服务部署的全流程详细操作,帮助用户快速完成 DeepSeek-V4 在昇腾 910B 算力上部署,实现稳定、高效的推理服务。
资源要求
管控节点:1 台搭载昇腾 910B NPU 的节点(每节点 8 × 64GB 昇腾 910B,HBM2e 显存)。
计算节点:1 台搭载昇腾 910B NPU 的节点(每节点 8 × 64GB 昇腾 910B,HBM2e 显存)。(仅集群开通时需要)
共享存储:根据资源池选择 OceanFS 或 SFS Turbo,容量需满足模型权重、数据集与镜像存储需求(默认500GB)。
网络:节点间使用 RoCE 或高速以太网连接,管控节点绑定 EIP 用于公网访问,EIP 避免直接暴露在公网,具体可参照《天翼云业务安全组网建议》。
二、环境准备
2.1 集群开通
天翼云高性能计算集群(HCC)平台拥有 基础版 和 大模型精简版 两种集群版本,根据开通机器类型建议选择 大模型精简版 :
2.1.1 高性能计算集群(HCC) 大模型精简版
功能定位:包含 Slurm 调度系统、apptainer 高性能容器,实现deepseek服务一键启停。
开通步骤:
登录天翼云控制台,进入“弹性高性能计算”产品页面,选择“高性能计算集群”,点击进入集群控制台。
点击“创建集群”,在集群类型中选择“大模型精简版”。
依次配置各项参数,包括计费模式、地域、可用区、集群名称、虚拟私有云、安全组、共享存储( SFS 或 OceanFS)、管理节点和计算节点的对应规格、镜像、磁盘、子网、登录密码。(注:当前 大模型精简版 暂不支持无计算节点的集群创建,需至少配置1台计算节点)
确认所有配置无误后,提交订单并完成集群创建,等待节点纳管完成,直至集群页面显示“可用”“配置完成”状态。
点击已创建的集群,选择左侧“节点”栏,删除配置的计算节点,仅保留管理节点即可。
2.2 NVMe 磁盘挂载配置
昇腾910B物理机默认配备2×3.2T NVMe SSD,请格式化后用于存储模型文件,提升推理性能。
需将节点的nvme1n1和nvme0n1两块 NVMe 盘分别挂载至/mnt/nvme1n1和/mnt/nvme0n1目录。
可通过以下脚本实现自动化挂载及开机自动挂载的配置:
#!/bin/bash
# 设备列表
devices=("/dev/nvme0n1" "/dev/nvme1n1")
mount_points=("/mnt/nvme0n1" "/mnt/nvme1n1")
fs_type="xfs"
# 确保 root 权限
if [[ $EUID -ne 0 ]]; then
echo "请使用 root 运行此脚本!"
exit 1
fi
for i in "${!devices[@]}"; do
device="${devices[$i]}"
mount_point="${mount_points[$i]}"
# 创建挂载目录
mkdir -p "$mount_point"
# 获取设备的文件系统类型
current_fs=$(blkid -s TYPE -o value "$device")
if [[ -z "$current_fs" ]]; then
echo "设备 $device 没有文件系统,正在格式化为 $fs_type..."
mkfs.xfs -f "$device"
else
echo "$device 已格式化为 $current_fs,跳过格式化"
fi
# 确保设备未被挂载后再尝试挂载
umount "$device" 2>/dev/null
mount -t "$fs_type" "$device" "$mount_point"
if [[ $? -ne 0 ]]; then
echo "错误:无法挂载 $device 到 $mount_point,请检查设备或文件系统!"
exit 1
fi
echo "$device 已成功挂载到 $mount_point"
# 获取 UUID 并更新 /etc/fstab,避免重复添加
uuid=$(blkid -s UUID -o value "$device")
if ! grep -q "$uuid" /etc/fstab; then
echo "UUID=$uuid $mount_point $fs_type defaults 0 0" >> /etc/fstab
echo "$device (UUID=$uuid) 已添加到 /etc/fstab"
else
echo "$device 已存在于 /etc/fstab,无需添加"
fi
done
echo "所有磁盘已成功挂载并配置为开机自动挂载!"将以上脚本保存为mount.sh,并执行
sh mount.sh本指南中部署将统一使用一下路径:
高速容器存储路径:
/mnt/nvme0n1/apptainer/服务部署工作路径:
/mnt/nvme0n1/deepseek/模型权重参数路径:
/mnt/nvme1n1/models/
建议将权重参数放在单独的nvme盘中,启动加载时更快
三、物料准备
3.1 模型文件获取
方式一:(极速)使用cthpc一键安装工具,分钟级快速下发模型,当前支持:
华东1、武汉41、上海15、华北2、华南2、北京9、西南1、长沙42。
mkdir -p /mnt/nvme1n1/model
# 使用 cthpc 工具极速下发
cthpc model makecache
cthpc model install DeepSeek-V4-Flash-w8a8-mtp --dir /mnt/nvme1n1/model/方式二:(传统方式速度慢)基于modelscope、魔乐社区、huggingface平台,使用对应工具直接下载(不推荐,受限于公网EIP订阅的带宽大小)
mkdir -p /mnt/nvme1n1/model
# modelscope下载依赖python3.8+的环境,若缺失,则需要构建虚拟环境
pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install modelscope
modelscope download --model Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp --local_dir /mnt/nvme1n1/model/DeepSeek-V4-Flash-w8a8-mtp3.2 高性能容器SIF文件获取
基于Apptainer(原 Singularity) 封装的 vLLM-Ascend 昇腾推理加速包,高性能计算集群产品将持续迭代优化,原生适配昇腾 NPU 硬件、无权限壁垒、极致轻量化、生产级稳定,全面超越传统 Docker 容器,是昇腾 AI 推理场景的最优融合选择。
方式一:(极速)使用cthpc一键安装工具,秒级快速下发apptainer高性能容器灌装,当前支持:
华东1、武汉41、上海15、华北2、华南2、北京9、西南1、长沙42。
mkdir -p /mnt/nvme0n1/apptainer
# 使用 cthpc 工具极速下发
cthpc apptainer makecache
cthpc apptainer install vllm-ascend_v0.13.0rc3 --dir /mnt/nvme0n1/apptainer/方式二:(传统方式速度慢)通过天翼云zos站点直接下载(不推荐,受限于公网EIP订阅的带宽大小)
mkdir -p /mnt/nvme0n1/apptainer
# 使用 wget 从 天翼云ZOS 下载 SIF 镜像
wget https://jiangsu-10.zos.ctyun.cn/galaxy/apptainer/vllm_ascend/vllm-ascend_v0.13.0rc3.sif3.2.1镜像更新说明
华为会持续更新 vllm-ascend 包,优化推理性能与兼容性。更新时只需重新下载最新 SIF 镜像,替换旧文件即可,无需修改部署配置。
四、推理服务启停
4.1 创建部署目录
mkdir -p /mnt/nvme0n1/deepseek4.2 准备启动脚本
将以下脚本保存至/mnt/nvme0n1/deepseek/run_deepseek.sh
#!/bin/bash
export LC_CTYPE=C.UTF-8
export MODEL_NAME=DeepSeek-V4
export MODEL_DIR=/mnt/nvme1n1/model/DeepSeek-V4-Flash-w8a8-mtp
export MODEL_PORT=11025
export VLLM_IMG=/mnt/nvme0n1/apptainer/vllm-ascend_v0.13.0rc3.sif
export USE_MULTI_BLOCK_POOL=1
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=10
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export VLLM_USE_V1=1
export ACL_OP_INIT_MODE=1
export start_time=$(date +"%Y-%m-%d_%H-%M-%S")
apptainer instance start --writable-tmpfs --no-home \
-B /usr/local/sbin:/usr/local/sbin \
-B /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-B $MODEL_DIR:/model \
$VLLM_IMG deepseek
apptainer exec instance://deepseek \
vllm serve \
/model \
--served-model-name "$MODEL_NAME" \
--host 0.0.0.0 \
--port $MODEL_PORT \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.92 \
--max_model_len 65536 \
--max-num-seqs 16 \
--max-num-batched-tokens 8192 \
--block-size 128 \
--enable-expert-parallel \
--async-scheduling \
--quantization ascend \
--enable-prefix-caching \
--trust-remote-code \
--disable-log-stats \
--additional-config '{"enable_cpu_binding": "true", "multistream_overlap_sha
red_expert": true}' \
--speculative-config '{"num_speculative_tokens": 1,"method": "deepseek_mtp"}
' \
--compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
> logs/log_${start_time}.out 2> logs/log_${start_time}.err &4.3 服务启动与停止
# 进入部署目录
cd /mnt/nvme0n1/deepseek
# 新建日志目录(启动后会根据启动时间戳在目录中记录vllm-ascend日志
mkdir -p /mnt/nvme0n1/deepseek/logs
# 启动 DeepSeek 服务
sh run_deepseek.sh
# 查看npu运行状态
npu-smi info
# 查看实例和作业运行信息
apptainer instance list
# 示例输出
# INSTANCE NAME PID IP IMAGE
# deepseek 4105355 /mnt/nvme1n1/apptainer/vllm-ascend_v0.13.0rc3.sif
# 停止服务
apptainer instance stop deepseek五、服务验证与运维
5.1 推理服务验证
测试方法:向大模型问一个简单的问题,准备如下脚本并保存到check.sh
#!/bin/bash
curl http://localhost:11025/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "DeepSeek-V4",
"messages": [
{"role":"user","content":"你是谁?"}
],
"extra": {"openai_proxy":true}
}'成功响应示例:
sh check.sh
# {"id":"chatcmpl-badd14778df1c172","object":"chat.completion","created":1777055526,"model":"DeepSeek-V4","choices":[{"index":0,"message":{"role":"assistant","content":"你好!我是DeepSeek,由深度求索公司创造的AI助手。很高兴认识你!😊\n\n我是一个纯文本模型,擅长回答各种问题、协助写作、编程、分析数据等。我的一些特点包括:\n\n✨ **完全免费** - 没有任何收费计划\n📚 **超长上下文** - 支持1M上下文,可以一次性处理像《三体》三部曲那么大体量的内容\n📎 **文件上传** - 支持上传图片、PDF、Word、Excel、PPT等文件,从中提取文字信息\n🔍 **联网搜索** - 可以联网获取最新信息(需要手动开启)\n🎙️ **语音输入** - App端支持语音输入功能\n\n我的知识截止于2025年5月,会尽我所能为你提供准确、有用的帮助。有什么我可以为你做的吗?无论是学习、工作还是生活中的问题,都欢迎随时问我!💪","refusal":null,"annotations":null,"audio":null,"function_call":null,"tool_calls":[],"reasoning":null,"reasoning_content":null},"logprobs":null,"finish_reason":"stop","stop_reason":null,"token_ids":null}],"service_tier":null,"system_fingerprint":null,"usage":{"prompt_tokens":6,"total_tokens":196,"completion_tokens":190,"prompt_tokens_details":null},"prompt_logprobs":null,"prompt_token_ids":null,"kv_transfer_params":null}5.2 推理日志查看
若服务异常,可通过日志排查问题:
# 查看作业输出日志
tail -f /mnt/nvme0n1/deepseek/log/log_YYYY-MM-DD_HH-MM-SS.out
# 查看错误日志
tail -f /mnt/nvme0n1/deepseek/log/log_YYYY-MM-DD_HH-MM-SS.err六、注意事项
模型版本管理:建议对模型权重、SIF 镜像进行版本化管理,避免更新后无法回滚。
安全防护:生产环境建议配置安全组IP 白名单,减少公网暴露面,并通过天翼云 WAF 防护恶意攻击,推荐以下5种安全组网方案:
ELB+VPN
ELB+NAT 网关。
DDoS+WAF+ELB+NATGW+VPN。
DDoS+WAF+ELB+SDWAN。
DDoS+WAF+ELB+专线
七、附录
天翼云 HCC 产品文档:弹性高性能计算-产品文档-帮助中心 - 天翼云
DeepSeek-V4 模型下载地址:https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4