活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 聚力AI赋能 天翼云大模型专项 大模型特惠专区·Token Plan 轻享包低至9.9元起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 企业出海解决方案 NEW 助力您的业务扬帆出海,通达全球!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
Token 服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V4-Flash
  • GLM-5.1
  • Qwen3.5-122B-A10B
  • DeepSeek-V3.2(旗舰版)
  • GLM-5(正式版)
  • Qwen3.5-397B-A17B(正式版)
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2026智能云生态大会
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      弹性高性能计算 E-HPC

      弹性高性能计算 E-HPC

      • 弹性高性能计算 E-HPC

      无数据

        • 产品动态
        • 产品介绍
        • 产品定义
        • 术语解释
        • 产品特性
        • 产品优势
        • 产品应用场景
        • 产品使用限制
        • 购买指南
        • 计费说明
        • 资源调度
        • SLURM介绍
        • 高性能计算平台
        • 概述
        • 入门指引
        • 创建集群
        • 管理集群
        • 连接集群
        • 扩容集群
        • 配置自动伸缩
        • 管理共享存储
        • 软件管理
        • 删除集群
        • 登录Portal
        • 提交作业
        • 命令行提交作业
        • Portal提交作业
        • ctbatch提交作业
        • 查看作业结果
        • 高性能计算集群
        • 入门指引
        • 创建集群
        • 管理集群
        • 扩容集群
        • 删除集群
        • 部署集群
        • 最佳实践
        • 使用HCC部署DeepSeek-V4-Flash
        • 使用HCC部署DeepSeek-V4-Pro
        • HCC大模型精简版运维指南
        • HCC性能测试工具--EvalScope
        • HCC性能测试工具--天翼云定制版EvalScope
        • 使用VASP软件做分子动力学模拟
        • 使用LAMMPS做分子动力学模拟
        • 使用OpenFOAM软件进行流体力学仿真计算
        • 文档下载
        • 操作手册
        • API参考
        • API使用说明
        • 相关协议
        • 弹性高性能计算服务协议
        • 常见问题
        • 计费类
        • 操作类
        • 管理类
          无相关产品

          本页目录

          帮助中心弹性高性能计算 E-HPC最佳实践使用HCC部署DeepSeek-V4-Pro
          使用HCC部署DeepSeek-V4-Pro
          更新时间 2026-05-08 18:19:50
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2026-05-08 18:19:50
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接

          一、引言

          2026年4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源,模型上下文处理长度由原有的128K显著扩展至1M,实现近10倍的容量提升,首次增加了KV Cache滑窗和压缩算法,大幅减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。本指南基于天翼云 HCC(高性能计算集群)平台,提供从集群开通、环境配置到服务部署的全流程详细操作,帮助用户快速完成 DeepSeek-V4-Pro 在昇腾 910B 算力上部署,实现稳定、高效的推理服务。

          资源要求

          • 管控节点:1 台搭载昇腾 910B NPU 的节点(每节点 8 × 64GB 昇腾 910B,HBM2e 显存)。

          • 计算节点:3 台搭载昇腾 910B NPU 的节点(每节点 8 × 64GB 昇腾 910B,HBM2e 显存)。

          • 共享存储:根据资源池选择 OceanFS 或 SFS Turbo,容量需满足模型权重、数据集与镜像存储需求(默认500GB)。

          • 网络:节点间使用 RoCE 或高速以太网连接,管控节点绑定 EIP 用于公网访问,EIP 避免直接暴露在公网,具体可参照安全防护。

          二、环境准备

          2.1 集群开通

          天翼云高性能计算集群(HCC)平台拥有 “基础版” 和 “大模型精简版” 两种集群版本,根据开通机器类型建议选择 大模型精简版 :

          2.1.1 高性能计算集群(HCC) 大模型精简版

          • 功能定位:包含 Slurm 调度系统、Apptainer 高性能容器,实现deepseek服务一键启停。

          • 开通步骤:

            1. 登录天翼云控制台,进入“弹性高性能计算”产品页面,选择“高性能计算集群”,点击进入集群控制台。

            2. 点击“创建集群”,在集群类型中选择“大模型精简版”。

            3. 依次配置各项参数,包括计费模式、地域、可用区、集群名称、虚拟私有云、安全组、共享存储( SFS 或 OceanFS)、管理节点和计算节点的对应规格、镜像、磁盘、子网、登录密码。

            4. 确认所有配置无误后,提交订单并完成集群创建,等待节点纳管完成,直至集群页面显示“可用”“配置完成”状态。

          2.2 NVMe 磁盘挂载配置

          昇腾910B物理机默认配备2×3.2T NVMe SSD,请格式化后用于存储模型文件,提升推理性能。

          需将节点的nvme1n1和nvme0n1两块 NVMe 盘分别挂载至/mnt/nvme1n1和/mnt/nvme0n1目录。

          可通过以下脚本实现自动化挂载及开机自动挂载的配置:

          #!/bin/bash
          
          # 设备列表
          devices=("/dev/nvme0n1" "/dev/nvme1n1")
          mount_points=("/mnt/nvme0n1" "/mnt/nvme1n1")
          fs_type="xfs"
          
          # 确保 root 权限
          if [[ $EUID -ne 0 ]]; then
              echo "请使用 root 运行此脚本!"
              exit 1
          fi
          
          for i in "${!devices[@]}"; do
              device="${devices[$i]}"
              mount_point="${mount_points[$i]}"
          
              # 创建挂载目录
              mkdir -p "$mount_point"
          
              # 获取设备的文件系统类型
              current_fs=$(blkid -s TYPE -o value "$device")
          
              if [[ -z "$current_fs" ]]; then
                  echo "设备 $device 没有文件系统,正在格式化为 $fs_type..."
                  mkfs.xfs -f "$device"
              else
                  echo "$device 已格式化为 $current_fs,跳过格式化"
              fi
          
              # 确保设备未被挂载后再尝试挂载
              umount "$device" 2>/dev/null
              mount -t "$fs_type" "$device" "$mount_point"
          
              if [[ $? -ne 0 ]]; then
                  echo "错误:无法挂载 $device 到 $mount_point,请检查设备或文件系统!"
                  exit 1
              fi
          
              echo "$device 已成功挂载到 $mount_point"
          
              # 获取 UUID 并更新 /etc/fstab,避免重复添加
              uuid=$(blkid -s UUID -o value "$device")
              if ! grep -q "$uuid" /etc/fstab; then
                  echo "UUID=$uuid  $mount_point  $fs_type  defaults  0 0" >> /etc/fstab
                  echo "$device (UUID=$uuid) 已添加到 /etc/fstab"
              else
                  echo "$device 已存在于 /etc/fstab,无需添加"
              fi
          
          done
          
          echo "所有磁盘已成功挂载并配置为开机自动挂载!"

          将以上脚本保存为mount.sh,并执行

          bash mount.sh

          本指南中部署将统一使用以下路径:

          1. 高速容器存储路径:/mnt/nvme0n1/apptainer/

          2. 服务部署工作路径:/home/deepseek/

          3. 模型权重参数路径:/mnt/nvme1n1/model/

          建议将权重参数放在单独的nvme盘中,启动加载时更快

          2.3 管控节点加入计算队列

          Slurm 集群默认架构设计中,管控(管理)节点常规场景下不纳入计算调度队列。在大模型训推、高性能算力作业场景下,单靠原有计算节点资源难以满足大模型权重加载、容器运行、推理生成的高算力与大内存诉求。

          为最大化挖掘整机集群资源利用率、扩充可用算力规模,需将管控节点从纯管理模式,纳入 Slurm 计算调度队列,使其同时承担集群管理 + 大模型算力计算双重角色,统一参与大模型相关作业调度与算力承载。

          sed -i 's/^\s*noderole\s*=.*/NodeRole=server,execute/i' /usr/local/galaxy/cluster/default/galaxy-launcher/etc/launcher.conf
          
          launcher resource setup_scheduler
          # {"success": true, "result": null}
          
          # master0001为管控节点hostname,按实际修改;batch是队列名,在计算节点下单页可自定义命名,建议用batch
          launcher resource add_node --node_name master0001 --queue_name batch
          # {"success": true, "result": null}

          命令执行成功后,可通过sinfo命令查看计算队列节点

          # 查看计算队列节点
          sinfo
          # PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
          # batch*       up   infinite     4   idle compute[0001-0003],master0001

          三、物料准备

          3.1 模型文件获取

          方式一:(极速)使用cthpc一键安装工具,分钟级快速下发模型,当前支持:

          • 华东1、武汉41、上海15、华北2、华南2、西南1、西南2-贵州、长沙42、杭州7。

          mkdir -p /mnt/nvme1n1/model
          # 使用 cthpc 工具极速下发
          cthpc model makecache
          cthpc model install DeepSeek-V4-Pro-w4a8-mtp --dir /mnt/nvme1n1/model/

          方式二:(传统方式速度慢)基于modelscope、魔乐社区、huggingface平台,使用对应工具直接下载(不推荐,受限于公网EIP订阅的带宽大小)

          mkdir -p /mnt/nvme1n1/model
          
          # modelscope下载依赖python3.8+的环境,若缺失,则需要构建虚拟环境
          pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple
          pip install modelscope
          modelscope download --model Eco-Tech/DeepSeek-V4-Pro-w4a8-mtp --local_dir /mnt/nvme1n1/model/DeepSeek-V4-Pro-w4a8-mtp

          3.2 高性能容器SIF文件获取

          基于Apptainer(原 Singularity) 封装的 vLLM-Ascend 昇腾推理加速包,高性能计算集群产品将持续迭代优化,原生适配昇腾 NPU 硬件、无权限壁垒、极致轻量化、生产级稳定,全面超越传统 Docker 容器,是昇腾 AI 推理场景的最优融合选择。

          方式一:(极速)使用cthpc一键安装工具,秒级快速下发Apptainer高性能容器灌装,当前支持:

          • 华东1、武汉41、上海15、华北2、华南2、西南1、西南2-贵州、长沙42、杭州7。

          mkdir -p /mnt/nvme0n1/apptainer
          # 使用 cthpc 工具极速下发
          cthpc apptainer makecache
          cthpc apptainer install vllm-ascend_deepseekv4 --dir /mnt/nvme0n1/apptainer/

          方式二:(传统方式速度慢)通过天翼云zos站点直接下载(不推荐,受限于公网EIP订阅的带宽大小)

          mkdir -p /mnt/nvme0n1/apptainer
          # 使用 wget 从 天翼云ZOS 下载 SIF 镜像
          wget https://jiangsu-10.zos.ctyun.cn/galaxy/apptainer/vllm_ascend/vllm-ascend_deepseekv4.sif

          3.2.1镜像更新说明

          华为会持续更新 vllm-ascend 包,优化推理性能与兼容性。更新时只需重新下载最新 SIF 镜像,替换旧文件即可,无需修改部署配置。

          3.3 模型权重及高性能容器分发至所有节点

          将 AI 模型权重文件与高性能业务容器镜像统一分发至集群所有计算节点,确保全节点模型文件、运行环境完全一致,避免单机重复下载。

          进入集群工作目录

          mkdir -p /home/bcast
          cd /home/bcast

          创建 / 编辑分发脚本 srun_bcast.sh:

          #!/bin/bash
          #SBATCH --job-name=bcast
          #SBATCH --nodes=4
          #SBATCH --ntasks-per-node=1
          #SBATCH --partition=batch      # batch 需修改为集群初始化时设置的队列名
          #SBATCH --time=01:00:00
          #SBATCH --output=log_%j.out
          #SBATCH --error=log_%j.err
          
          export MPICH_NET_DEV=eno0
          
          module load mpich/3.2.1/gcc-10.3.1 
          module load cthpc_910b/2.0.0/mpich-3.2.1
          
          # cthpc_model_bcast [发送节点] [发送节点路径] [接受节点路径]
          # 管理节点名如 master0001
          
          srun --mpi=pmi2 \
               --output=logs/log_%j_%t.log \
               --error=logs/log_%j_%t.err  \
               cthpc_model_bcast master0001 /mnt/nvme0n1/apptainer /mnt/nvme0n1/apptainer
          
          srun --mpi=pmi2 \
               --output=logs/log_%j_%t.log \
               --error=logs/log_%j_%t.err  \
               cthpc_model_bcast master0001 /mnt/nvme1n1/model/DeepSeek-V4-Pro-w4a8-mtp /mnt/nvme1n1/model/DeepSeek-V4-Pro-w4a8-mtp

          提交任务至 Slurm 调度器执行分发

          sbatch srun_bcast.sh

          当前cthpc_model_bcast在部分资源池上线,如您的提交任务时提示不存在二进制文件,请提交工单。

          四、推理服务启停

          4.1 创建部署目录

          mkdir -p /home/deepseek
          mkdir -p /home/deepseek/logs
          mkdir -p /home/deepseek/ascend_log

          4.2 准备slurm启动脚本

          将以下脚本保存至/home/deepseek/srun.sh

          #!/bin/bash
          #SBATCH -N 4
          #SBATCH --partition=batch
          #SBATCH -J deepseek
          #SBATCH -o logs/log_%J.out
          #SBATCH -e logs/log_%J.err
          #SBATCH --gres=gpu:8
          #SBATCH --cpus-per-task=190
          #SBATCH --nodelist=master0001,compute0001,compute0002,compute0003
          
          export LC_CTYPE=C.UTF-8
          
          export MASTER_ADDR=$(scontrol show hostnames "$SLURM_JOB_NODELIST" | head -n 1 | hostname -i)
          
          export MODEL_NAME=DeepSeek-V4
          export MODEL_PORT=11025
          export MODEL_DIR=/mnt/nvme1n1/model/DeepSeek-V4-Pro-w4a8-mtp
          export VLLM_IMG=vllm-ascend_deepseekv4.sif
          
          echo "模型推理服务API为:http://$MASTER_ADDR:$MODEL_PORT/v1"
          echo "模型名称为:$MODEL_NAME"
          
          srun --ntasks-per-node=1 \
               -o logs/log_%J.%t.out \
               -e logs/log_%J.%t.err \
               ./node.sh

          4.3 准备节点部署脚本

          将以下脚本保存至/home/deepseek/node.sh

          #!/bin/sh
          
          nic_name="eno0" # 网卡,弹性裸金属使用“eno0”,标准裸金属使用“bond0”
          local_ip=$(hostname -i | awk '{print $1}')
          node0_ip=$MASTER_ADDR
          
          export HCCL_IF_IP=$local_ip
          export GLOO_SOCKET_IFNAME=$nic_name
          export TP_SOCKET_IFNAME=$nic_name
          export HCCL_SOCKET_IFNAME=$nic_name
          export OMP_PROC_BIND=false
          export OMP_NUM_THREADS=10
          export HCCL_BUFFSIZE=200
          export HCCL_OP_EXPANSION_MODE="AIV"
          export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
          export HCCL_CONNECT_TIMEOUT=120
          export HCCL_INTRA_PCIE_ENABLE=1
          export HCCL_INTRA_ROCE_ENABLE=0
          export ACL_OP_INIT_MODE=1
          export TRITON_ALL_BLOCKS_PARALLEL=1
          export USE_MULTI_BLOCK_POOL=1
          export USE_MULTI_GROUPS_KV_CACHE=1
          export ASCEND_BUFFER_POOL=0:0
          export VLLM_ASCEND_ENABLE_FLASHCOMM1=1
          export VLLM_ENGINE_READY_TIMEOUT_S=3600
          
          apptainer instance start --no-home --writable-tmpfs \
                  -B /usr/local/sbin:/usr/local/sbin \
                  -B /usr/local/Ascend/driver:/usr/local/Ascend/driver \
                  -B ascend_log:/root/ascend \
                  -B $MODEL_DIR:/model \
                  $VLLM_IMG app-instance
          
          if [ $SLURM_NODEID == 0 ]; then
          
            apptainer exec instance://app-instance \
                  vllm serve \
                  /model \
                  --served-model-name "$MODEL_NAME" \
                  --host 0.0.0.0 \
                  --port "$MODEL_PORT" \
                  --data-parallel-size $SLURM_NNODES \
                  --data-parallel-size-local 1 \
                  --data-parallel-address $node0_ip \
                  --data-parallel-rpc-port 13389 \
                  --tensor-parallel-size 8 \
                  --quantization ascend \
                  --seed 1024 \
                  --enable-expert-parallel \
                  --max-num-seqs 16 \
                  --max-model-len 65536 \
                  --max-num-batched-tokens 4096 \
                  --tokenizer-mode deepseek_v4 \
                  --tool-call-parser deepseek_v4 \
                  --enable-auto-tool-choice \
                  --reasoning-parser deepseek_v4 \
                  --trust-remote-code \
                  --async-scheduling \
                  --enable-prefix-caching \
                  --gpu-memory-utilization 0.95 \
                  --safetensors-load-strategy 'prefetch' \
                  --default-chat-template-kwargs '{"thinking": true}' \
                  --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}' \
                  --additional-config '{"ascend_compilation_config":{"enable_npugraph_ex":true,"enable_static_kernel":false},"enable_cpu_binding":"True"}' \
                  --speculative-config '{"num_speculative_tokens": 3, "method": "deepseek_mtp"}'
          
          else
          
            apptainer exec instance://app-instance \
                  vllm serve \
                  /model \
                  --served-model-name "$MODEL_NAME" \
                  --host 0.0.0.0 \
                  --port "$MODEL_PORT" \
                  --headless \
                  --data-parallel-size $SLURM_NNODES \
                  --data-parallel-size-local 1 \
                  --data-parallel-start-rank $SLURM_NODEID  \
                  --data-parallel-address $node0_ip \
                  --data-parallel-rpc-port 13389 \
                  --tensor-parallel-size 8 \
                  --quantization ascend \
                  --seed 1024 \
                  --enable-expert-parallel \
                  --max-num-seqs 16 \
                  --max-model-len 65536 \
                  --max-num-batched-tokens 4096 \
                  --tokenizer-mode deepseek_v4 \
                  --tool-call-parser deepseek_v4 \
                  --enable-auto-tool-choice \
                  --reasoning-parser deepseek_v4 \
                  --trust-remote-code \
                  --async-scheduling \
                  --enable-prefix-caching \
                  --gpu-memory-utilization 0.95 \
                  --safetensors-load-strategy 'prefetch' \
                  --default-chat-template-kwargs '{"thinking": true}' \
                  --compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}' \
                  --additional-config '{"ascend_compilation_config":{"enable_npugraph_ex":true,"enable_static_kernel":false},"enable_cpu_binding":"True"}' \
                  --speculative-config '{"num_speculative_tokens": 3, "method": "deepseek_mtp"}'
          fi

          4.4 服务启动与停止

          # 进入部署目录
          cd /home/deepseek
          
          # 设置节点启动脚本执行权限
          chmod +x node.sh
          
          # 启动 DeepSeek 服务
          sbatch srun.sh
          
          # 查看npu运行状态
          npu-smi info
          
          # 查看实例和作业运行信息
          squeue
          # 示例输出
          # JOBID  PARTITION   NAME   USER   ST    TIME    NODES  NODELIST(REASON)
          # 1     batch        deepseek   root    R   3:04:45    4   compute[0001-0003],master0001
          
          # 停止一项服务
          # scancel [JOBID],根据上文deepseek服务的JOBID为1
          scancel 1
          
          # 停止全部服务
          scancel --me

          五、服务验证与运维

          5.1 推理服务验证

          测试方法:向大模型问一个简单的问题,准备如下脚本并保存到check.sh

          #!/bin/bash
          curl http://localhost:11025/v1/chat/completions \
          -H "Content-Type: application/json" \
          -d '{
            "model": "DeepSeek-V4",
            "messages": [
              {"role":"user","content":"你是谁?"}
            ],
            "extra": {"openai_proxy":true}
          }'

          成功响应示例:

           sh check.sh 
          # {"id":"chatcmpl-a716c986cde163c7","object":"chat.completion","created":1778038089,"model":"DeepSeek-V4","choices":[{"index":0,"message":{"role":"assistant","content":"你好呀!我是DeepSeek,很高兴认识你!🎉\n\n让我来正式介绍一下自己:\n\n## 我的身份\n我是由**深度求索公司**创造的AI助手,是这个星球上最“聪明”的AI之一!我的知识截止到2025年5月。\n\n## 我能做什么\n- 📝 **文字处理高手**:写作、翻译、编程、数据分析、创意策划...各种文本任务我都擅长\n- 📎 **文件处理**:支持上传图片、PDF、Word、Excel、PPT等文件,我能读取其中的文字信息帮你分析\n- 🔗 **阅读链接**:可以把网址发给我,我能帮你读取内容\n- 🌐 **联网搜索**:需要最新信息时,你可以手动开启联网搜索功能(在Web/App上点击按钮)\n- 🎤 **语音交互**:App端支持语音输入,更方便交流 hilabihan\n\n## 我的特点\n- ✅ **完全免费**:没错,目前没有任何收费计划!可以放心使用\n- 📚 **超长上下文**:1M token的上下文窗口,可以一次性处理像《三体》三部曲那么大体量的内容\n- 📱 **多平台使用**:支持Web网页版和App移动端,可以在官方应用商店下载\n\n## 我不能做什么\n- ❌ 不支持多模态识别(虽然可以上传图片,但只能读取其中的文字信息)\n- ❌ 知识截止后的事情我就不知道啦,需要联网搜索帮忙\n\n有什么问题想问我,或者需要我帮忙的吗?尽管来聊!😊","refusal":null,"annotations":null,"audio":null,"function_call":null,"tool_calls":[],"reasoning":"嗯,用户让我介绍一下我自己。这是一个非常基础且常见的问题。\n\n我需要用清晰、友好的方式介绍我的身份、能力、特点和局限性。考虑到用户可能刚接触我,信息应该全面但不过于冗长。\n\n可以从名字和创造者开始,然后列举核心能力,比如文本处理、文件支持、上下文长度,再说明免费属性和其他特点如联网搜索、语音输入,最后提及知识截止日期和局限性。这样结构比较清晰。\n\n最后可以用热情的语气收尾,并主动询问是否需要帮助,引导进一步互动。"},"logprobs":null,"finish_reason":"stop","stop_reason":null,"token_ids":null}],"service_tier":null,"system_fingerprint":null,"usage":{"prompt_tokens":6,"total_tokens":441,"completion_tokens":435,"prompt_tokens_details":null,"completion_tokens_details":{"reasoning_tokens":111,"audio_tokens":null,"accepted_prediction_tokens":null,"rejected_prediction_tokens":null}},"prompt_logprobs":null,"prompt_token_ids":null,"kv_transfer_params":null}

          5.2 推理日志查看

          若服务异常,可通过日志排查问题:

          # 查看模型推理服务API及模型名
          tail -f /home/deepseek/logs/log.$JOBID.out
          # 查看作业输出日志
          tail -f /home/deepseek/logs/log.$JOBID.${节点编号}.out
          # 查看错误日志
          tail -f /home/deepseek/logs/log.$JOBID.${节点编号}.err

          其中JOBID可通过squeue命令查看,节点编号格式为0.x,x从0开始,表示第一个节点。

          六、注意事项

          1. 模型版本管理:建议对模型权重、SIF 镜像进行版本化管理,避免更新后无法回滚。

          2. 安全防护:生产环境建议配置安全组IP 白名单,减少公网暴露面,并通过天翼云 WAF 防护恶意攻击,推荐以下5种安全组网方案:

            1. ELB+VPN

            2. ELB+NAT 网关。

            3. DDoS+WAF+ELB+NATGW+VPN。

            4. DDoS+WAF+ELB+SDWAN。

            5. DDoS+WAF+ELB+专线

          七、附录

          • 天翼云 HCC 产品文档:弹性高性能计算-产品文档-帮助中心 - 天翼云

          • DeepSeek-V4 模型下载地址:https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

           

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  使用HCC部署DeepSeek-V4-Flash
          下一篇 :  HCC大模型精简版运维指南
          搜索 关闭
          ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2026天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明