活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 618智算钜惠季 爆款云主机2核4G限时秒杀,88元/年起!
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      弹性云主机

      弹性云主机

        • 产品动态
        • 新手指引
        • 操作导航
        • 新手入门:购买并登录Windows弹性云主机
        • 新手入门:购买并登录Linux弹性云主机
        • DeepSeek专题
        • DeepSeek专题导航
        • 图解DeepSeek与公有云深度融合
        • 从基础设施到智能中枢:DeepSeek如何重塑公有云服务价值链
        • 高性能GPU云主机助力DeepSeek深度应用
        • 天翼云SD-WAN与DeepSeek超强联动,开启云上高效互联新时代
        • 实践指南:DeepSeek驱动高效能云生态
        • GPU云主机/弹性云主机:零基础搭建DeepSeek云端环境指南
        • 在天翼云使用Ollama运行DeepSeek的最佳实践-7B等版本
        • 基于OpenWebUI+Ollama+DeepSeek实现大模型私有知识库零代码构建的最佳实践
        • 基于DeepSeek和Chroma构建个性化知识库的最佳实践
        • 基于LLaMA-Factory微调DeepSeek-R1-Distill-Qwen-7B最佳实践
        • 基于Open WebUI实现DeepSeek API调用及外部大模型API接入最佳实践
        • AnythingLLM 协同 Ollama 启用 DeepSeek 大模型最佳实践
        • CherryStudio 协同 Ollama 启用 DeepSeek 大模型
        • 天翼云CPU实例部署DeepSeek-R1模型最佳实践
        • GPU物理机:物理机搭建DeepSeek指南
        • SD-WAN跨境:SD-WAN助力DeepSeek模型定向加速
        • 智算容器:云容器引擎与DeepSeek融合实践
        • 函数计算:天翼云函数计算与DeepSeek大模型
        • Q&A:典型问题解析与策略应对
        • 产品概述
        • 产品定义
        • 术语解释
        • 产品优势
        • 弹性云主机选型
        • 功能特性
        • 产品应用场景
        • 产品使用须知
        • 产品使用限制
        • 云主机与其他服务之间的关系
        • 产品规格
        • 规格说明
        • 规格族
        • 通用云主机
        • 概述
        • 通用型
        • 计算型
        • 内存型
        • 增强型
        • 本地盘云主机
        • GPU云主机
        • 国产云主机
        • 鲲鹏系列
        • 海光系列
        • 飞腾系列
        • 经济型云主机
        • 镜像
        • 镜像类型
        • Cloud-init
        • 网络
        • 云硬盘
        • 地域和可用区
        • 购买指南
        • 计费说明
        • 计费项及其计费方式
        • 价格与折扣
        • 计费模式
        • 按量计费模式
        • 包年包月计费模式
        • 变更配置
        • 变更配置概述
        • 支持变配的实例规格
        • 云主机冷变配规则说明
        • 云主机热变配规则说明
        • 续费说明
        • 规则说明
        • 手动续订
        • 自动续订
        • 退费说明
        • 规则说明
        • 退费流程
        • 包周期按量互转
        • 成本优化
        • 计费FAQ
        • 快速入门
        • 注册账号
        • 创建弹性云主机
        • 登录Linux弹性云主机
        • 登录Windows弹性云主机
        • 初始化数据盘
        • 入门实践
        • 修订记录
        • 用户指南
        • 云主机实例
        • 实例生命周期
        • 查看实例
        • 查看实例状态
        • 查看实例详情
        • 导出实例信息
        • 搜索实例
        • 登录实例
        • 登录Windows弹性云主机实例
        • Windows弹性云主机登录方式概述
        • Windows弹性云主机控制中心远程登录(VNC方式)
        • 远程桌面连接(MSTSC方式)
        • 在Linux主机上登录Windows云主机
        • 在移动设备上登录Windows云主机
        • Mac OS系统登录Windows云主机
        • 登录Linux弹性云主机实例
        • Linux弹性云主机登录方式概述
        • Linux弹性云主机远程登录(VNC方式)
        • SSH密钥方式登录
        • SSH密码方式登录
        • 在移动设备上登录Linux云主机
        • Mac OS系统登录Linux云主机
        • 管理远程登录用户
        • 管理实例属性
        • 修改实例名称
        • 修改主机名称(hostname)
        • 批量设置有序的实例名称或主机名称
        • 修改实例描述
        • 更改实例时区
        • 开启和关闭实例保护功能
        • 配置主机名与IP地址的映射
        • 实例自定义数据注入
        • 实例自定义元数据
        • 管理实例状态
        • 开机实例
        • 关机实例
        • 重启实例
        • 重装操作系统
        • 变更规格
        • 创建相同配置实例
        • 克隆实例
        • 管理云主机组
        • 安装驱动和工具包(可选)
        • NVIDIA驱动安装指引
        • 创建配备GPU驱动的GPU云主机(Linux)
        • 安装GRID驱动
        • 卸载GRID驱动
        • 安装Tesla驱动
        • 卸载Tesla驱动
        • 使用可信云主机
        • 云主机启动模版
        • 创建云主机启动模版
        • 查看云主机启动模版
        • 修改云主机启动模版
        • 使用云主机启动模版创建云主机
        • 删除云主机启动模版
        • 云主机镜像
        • 镜像概述
        • 通过镜像创建云主机
        • 通过云主机创建Windows私有镜像
        • 通过云主机创建Linux私有镜像
        • 镜像更多操作
        • 云硬盘
        • 云硬盘概述
        • 创建云硬盘
        • 挂载数据盘
        • 卸载数据盘
        • 扩容云硬盘
        • 加密云硬盘
        • 云硬盘加密概述
        • 管理加密云硬盘
        • 随主机释放设置
        • 弹性IP
        • 弹性IP概述
        • 绑定弹性IP
        • 解绑弹性IP
        • 更换弹性IP
        • 修改弹性IP带宽
        • 使用SNAT访问公网
        • 密码和密钥对
        • 密码
        • 密码使用场景介绍
        • 在控制台重置密码
        • 密钥对
        • 密钥对使用场景介绍
        • 在控制台创建密钥对
        • 导入密钥对
        • 为云主机绑定/更换密钥对
        • 为云主机解绑密钥对
        • 网卡
        • 弹性网卡概述
        • 创建弹性网卡
        • 管理弹性网卡
        • 修改弹性网卡基本信息、分配IPv6、辅助私网IP
        • 如何修改内网IP、切换VPC
        • 开启网卡多队列功能
        • 虚拟IP概述
        • IPv6带宽
        • 云主机备份
        • 备份弹性云主机
        • 文件系统
        • 一键挂载文件系统
        • 监控
        • 监控弹性云主机
        • 监控Agent概览
        • 监控Agent版本说明
        • 安装监控Agent
        • 云主机支持的操作系统监控指标(安装监控Agent)
        • 设置告警规则
        • 查看监控指标
        • 安全
        • 提升云主机安全的方法
        • 服务的访问控制
        • 安全组
        • 安全组概述
        • 安全组配置示例
        • 配置安全组规则
        • 修改安全组规则
        • 更改安全组
        • 数据保护技术
        • Hypervisor安全
        • 用户加密
        • 故障恢复
        • 重点操作短信二次验证
        • 验证规则
        • 开启重点操作短信验证
        • 关闭重点操作短信验证
        • 云服务器CTIAM
        • 统一身份认证IAM介绍
        • 通过IAM用户控制资源访问
        • 云审计
        • 迁移
        • 迁移云主机实例
        • 迁移本地盘云主机数据
        • 运维
        • 云助手
        • 云助手产品介绍
        • 安装云助手客户端
        • 购买指南
        • 创建命令
        • 免登录执行命令
        • 查看命令执行结果
        • 查看和执行公共命令
        • 上传文件
        • 查看文件上传结果
        • 资源与标签
        • 标签管理
        • 标签概述
        • 标签设计原则及示例
        • 绑定标签
        • 使用标签筛选资源
        • 解绑标签
        • 云主机服务委托
        • 配额调整
        • 云主机快照
        • 云主机快照管理
        • 云主机快照策略
        • 常见问题
        • 高频常见问题
        • 地域与可用区类
        • 如何选择地域?
        • 地域之间是否存在差异?
        • 已购买的弹性云主机,是否支持更换地域?
        • 什么是可用区,怎样选择可用区?
        • 可用区之间的数据传输是否需要收费?
        • 是否可以将应用的不同组件分散部署到不同的地域?
        • 是否提供应用灾备的相关服务?
        • 是否可以在不同的地域之间实施应用灾备?
        • 如何获取弹性云主机的物理机房位置?
        • 购买与退订冻结相关问题
        • 弹性云主机提供哪些计费方式,区别是什么?
        • 同一台云主机是否同时支持两种计费方式?
        • 是否支持更改已有云主机的计费方式?
        • 账户里面有余额,为什么无法创建按量付费云主机?
        • 弹性云主机关机后还会继续计费吗?
        • 一个账户最多可以创建多少按量付费的云主机?
        • 如何选择适合业务的云主机实例?
        • 购买实例时,资源已经售罄怎么办?
        • 什么是ARM CPU架构与X86 CPU架构?
        • 控制台无法看到云主机,如何处理?
        • 如何处理支付订单后云主机开通失败?
        • 申请开通弹性云主机需要多久?
        • 什么情况下弹性云主机会被冻结,冻结后怎么办?
        • 如何退订弹性云主机?
        • 已到期资源如果续订,续订周期如何计算?
        • 是否支持账户余额变动提醒?
        • 弹性云主机怎样停止计费?
        • 创建与删除
        • 创建类
        • 删除类
        • 登录与连接
        • VNC登录类
        • VNC方式登录后,播放音频文件没有声音怎么办?
        • 如何修改Windows弹性云主机的分辨率
        • 怎样修改远程登录的端口?
        • 修改Linux弹性云主机的默认SSH端口后,使用新端口无法登录?
        • 使用 VNC远程登录,想要复制本地字符发送到虚机中,发现一次性无法达到描述的3000个字符
        • VNC方式登录弹性云主机后,较长时间不操作,界面无响应怎么办
        • 控制台登录类
        • VNC方式登录弹性云主机时,登录界面显示乱码怎么办?
        • 通过控制台登录弹性云主机时提示1006或1000怎么办?
        • VNC方式登录弹性云主机时,系统黑屏输入无反应?
        • VNC方式登录弹性云主机后,查看数据失败,VNC无法正常使用?
        • 登录前准备类
        • 使用创建时的用户名和密码无法SSH方式登录云主机
        • 远程登录时需要输入的帐号和密码是什么
        • 弹性云主机登录前准备工作有哪些
        • 远程登录忘记密码怎么办
        • 远程连接类
        • MSTSC方式登录Windows 2012的弹性云主机,登录失败怎么办?
        • Windows 2012系统卸载某些软件后无法进入系统桌面怎么办?
        • 远程登录弹性云主机时,对浏览器版本的要求?
        • 使用私有镜像创建Windows弹性云主机时设置的密码不生效怎么办?
        • 弹性云主机实例出现了异地登录怎么办
        • 无法远程登录Windows云主机怎么办
        • 无法远程登录Linux云主机怎么办
        • 规格变更类
        • 弹性云主机怎样变更规格
        • 国产化云主机变配有什么限制
        • 主机升配后CPU的ID是否会变化
        • Windows弹性云主机变更规格后磁盘脱机怎么办?
        • Linux弹性云主机变更规格后磁盘脱机怎么办?
        • 弹性云主机变配操作无法成功提交
        • 使用故障类
        • 弹性云主机使用时有什么限制
        • 宿主机故障时,弹性云主机是否能自动恢复
        • 如何处理管理控制台异常提示信息
        • 如何修改弹性云主机(Windows)的SID
        • Windows弹性云主机没有声音
        • 弹性云主机配置的邮件无法正常发送
        • 使用free -m命令查询弹性云主机内存大小与实际配置不符
        • linux虚机内关键文件路径
        • 鲲鹏、海光、飞腾系列云主机挂载云硬盘和弹性网卡异常
        • 操作系统管理
        • 图形化系统安装类
        • 云主机是否有图形界面
        • CentOS 7系列弹性云主机如何安装图形化界面
        • CentOS 8系列弹性云主机如何安装图形化界面
        • Ubuntu系列弹性云主机如何安装图形化界面
        • Debian系列弹性云主机安装图形化界面流程
        • 操作系统故障类
        • 针对Intel处理器芯片存在的Meltdown和Spectre安全漏洞,应该如何规避?
        • 如何开启CentOS操作系统的SELinux功能?
        • 怎样查看GPU加速型云主机的GPU使用率?
        • Linux弹性云主机如何升级内核?
        • 用户自持镜像导致的弹性云主机操作系统无法正常启动是什么原因?
        • 文件系统损坏,Linux弹性云主机启动失败
        • 文件系统checkfs使用 fsck 工具检查并修复文件系统
        • 重装操作系统
        • 重装弹性云主机时是否可以选择其他操作系统
        • 重装操作系统需要多长时间?
        • 用户能否自己安装或者升级操作系统
        • 重装/切换操作系统/变更规格对磁盘数据有影响吗
        • 文件上传/数据传输
        • 使用FTP上传文件时写入失败、文件传输失败
        • WinSCP无法连接到Linux云主机
        • Windows云主机搭建了FTP,通过公网无法访问
        • 使用FTP上传文件时客户端连接服务端超时
        • 本地Windows主机通过MSTSC上传文件到Windows云主机
        • 本地Windows主机使用对象存储上传文件到Windows云主机
        • 本地Windows主机使用WinSCP上传文件到Linux云主机
        • 本地MacOS系统主机上传文件到Windows云主机
        • 本地Linux主机使用SCP上传文件到Linux云主机
        • 本地Linux主机使用SFTP上传文件到Linux云主机
        • 本地Windows主机使用FTP上传文件到Windows/Linux云主机
        • 本地Linux主机使用FTP上传文件到Linux云主机
        • 怎样在本地主机和Windows云主机之间互传数据?
        • FTP服务器上的文件夹因权限访问出错怎么办?
        • 迁移云服务器
        • 弹性云主机可以迁移到其他地域/帐号吗?
        • 镜像源管理
        • 内网yum源及NTP配置
        • Windows或Linux操作系统镜像怎么选
        • 常见docker源配置指导
        • 磁盘管理类
        • 磁盘分区与虚拟内存类
        • 磁盘扩容类
        • 卸载云硬盘操作指南及故障排除
        • 其它
        • 密码与密钥对类
        • 密码
        • 云主机默认密码是多少?
        • 忘记天翼云账号密码怎么办?
        • 如何在控制台重置弹性云主机密码?
        • 如何在操作系统内部修改云主机密码?
        • 用户创建弹性云主机成功后远程登录提示密码错误?
        • 一键重置密码后无法使用新密码登录弹性云主机
        • 用户未修改密码,正常使用弹性云主机一段时间后无法登录
        • 如何关闭Selinux?
        • 密钥对
        • 如何创建密钥对?
        • 如何使用密钥对?
        • 密钥对无法下载
        • 无法导入密钥对
        • 怎样查询弹性云主机使用的密钥对是哪个?
        • 已开云主机是否还支持使用密钥对?
        • 如何在云主机上使用安装USB类型的Ukey秘钥?
        • 弹性云主机中使用cloudbase-init是什么?
        • Python升级导致Cloud-init不工作
        • 使用密钥文件无法正常登录Linux弹性云主机
        • 通过puttygen.exe工具创建的密钥对,导入管理控制台失败
        • 网络配置类
        • 弹性IP类
        • DNS与NTP配置类
        • 配置DNS
        • 怎样配置弹性云主机的DNS和NTP信息?
        • 网卡类
        • 弹性云主机添加网卡后是否会自动启动?
        • 怎样修改云主机的VPC网段、子网的网段?
        • 路由类
        • iptables如何配置、建议配置规则指导
        • 访问网站或应用故障类
        • 其它类
        • 云主机mac是否为固定的?
        • DHCP无法正常获取内网IP?
        • 如何查看、修改Linux弹性云主机的内核参数?
        • 端口映射配置
        • 如何查看云主机的mac地址?
        • 不同帐号下弹性云主机内网是否可以互通?
        • 我购买的云主机是否在同一子网?
        • 云主机网络优化方案
        • 如何排查带宽超过限制
        • 安全类
        • 怎么设置云主机密码可以在一定程度上提升云主机安全
        • 安全组和安全规则配额是多少
        • 安全组加规则报错:参数错误,请检查你的参数
        • 如何关闭重点操作短信验证
        • 弹性云主机上是否可以搭建数据库
        • 如何保护弹性云主机安全
        • 如何防止实例被暴力破解
        • 云主机卡顿
        • Windows云主机卡顿
        • Linux云主机卡顿
        • 数据库应用
        • 弹性云主机是否支持Oracle数据库?
        • 云主机快照常见问题
        • 监控类
        • 云主机无监控数据如何处理
        • 如何重启监控Agent
        • 监控Agent自动退出如何处理
        • 产品咨询类
        • 怎样注册天翼云
        • 弹性云主机可以做什么
        • 私有数据是否支持物理邮寄
        • 升级CPU、内存、带宽时是否需要关机
        • Linux虚机product_uuid参数是否可以修改
        • 香港节点的云主机是否可以实现与国内云主机互通
        • 云主机windows 2019操作系统对应普通电脑哪个操作系统
        • 其它类
        • 云助手常见问题
        • 故障修复
        • 高频故障案例
        • Linux操作系统执行passwd命令重置密码失败提示:Authentication token manipulation error
        • 云主机错误状态及解决方案
        • 如何解决云平台创建云主机状态错误
        • 云主机端口不通怎样排查?
        • 云主机网络延迟和丢包,如何定位
        • 弹性云主机启动缓慢
        • ping不通或丢包时如何进行链路测试?
        • 云主机带宽占用高怎么办
        • Linux系统云主机如何自查病毒及中病毒后处理建议
        • Windows系统云主机如何自查病毒及中病毒后处理建议
        • 操作系统类(Windows)
        • 云主机时间与标准时间不一致
        • Windows弹性云主机蓝屏如何处理
        • Windows弹性云主机配置双网卡外网访问
        • Windows无法正常启动时怎样恢复数据?
        • 如何查看Windows云主机的登录日志?
        • CentOS设置系统时区
        • 启动Tomcat时报错,提示80端口被占用怎么办?
        • windows操作系统下卸载云硬盘操作指南及故障排除
        • 怎样实现Windows云主机文件共享?
        • 输入法无法使用怎么办?
        • 怎样设置Windows弹性云主机首选语言
        • Windows云主机配置文件共享和网络磁盘映射方法
        • Windows云主机如何保持会话连接长时间不断开?
        • Windows弹性云主机不能复制粘贴内容?
        • 云主机错误状态处理方式
        • 弹性云主机配置的邮件无法正常发送
        • 如何解决云平台创建云主机状态错误
        • 云主机错误状态及解决方案
        • 操作系统类(Linux)
        • 弹性云主机新内核启动失败如何设置使用第二内核启动
        • 为什么操作系统实际版本和购买时的镜像版本不一致?
        • 怎样配置Linux分析工具:atop和kdump
        • Ubuntu操作系统如何设置默认启动内核
        • Linux操作系统云主机安装Docker支持的操作系统版本
        • 弹性云主机IP地址丢失处理方法
        • 内核参数kernel.unknown_nmi_panic配置错误导致Linux弹性云主机异常重启
        • pip安装软件时出现错误:command ´gcc´ failed with exit status 1
        • CentOS云主机根目录设置成777权限后如何恢复?
        • Linux弹性云主机执行命令或启动服务时出现错误:Cannot allocate memory
        • 无法编辑fstab文件怎么办
        • 非root用户切root用户时,连接超时怎么办?
        • Web访问超时且系统日志打印:nf_conntrack: table full, dropping packet
        • 修改/etc/security/limits.conf文件,重启后不生效怎么办?
        • emergency mode(紧急模式)问题处理方法
        • 使用taskset命令让进程运行在指定CPU上
        • 弹性云主机中/etc/rc.local开机启动脚本不生效怎么办?
        • 远程连接报错
        • 远程连接云主机出现蓝屏
        • 远程连接Windows云主机报错:出现身份验证错误,要求的函数不受支持
        • 天翼云Windows云主机远程连接时出现报错: 此计算机无法连接到远程计算机
        • 远程连接Windows云主机报错:没有远程登录的权限
        • 登录Windows云主机提示“内部错误”怎么办?
        • 远程连接Windows云主机报错:无法验证此远程计算机的身份
        • Windows云主机远程连接时出现报错:RDP连接断开,出现内部错误
        • Windows云主机远程连接时出现报错:您的连接已丢失
        • Windows云主机报错:您的凭据无法工作
        • 网络配置
        • resolv文件被重置怎么办?
        • Linux系统重启后/etc/hosts自动添加主机名解析
        • CentOS 7重启后dhclient未运行,导致无法获取IP
        • Linux系统使用多网卡时网卡名称出现漂移
        • 同一子网的两块网卡均绑定弹性公网IP
        • 磁盘空间管理
        • Linux操作系统云主机中buffer和cache占用内存怎么办?
        • Linux文件系统提示:Read-only file system
        • Linux操作系统云主机磁盘分区提示空间不足怎么办?
        • 文件已经删除,但空间未释放怎么办?
        • Inode节点耗尽导致无法创建新文件问题处理
        • Linux如何创建swap分区/swap文件
        • GPU驱动故障
        • GPU驱动异常怎么办?
        • GPU实例启动异常,查看系统日志发现NVIDIA驱动空指针访问怎么办?
        • GPU设备显示异常
        • T4 GPU设备显示异常
        • G系列弹性云主机GPU驱动故障
        • GPU驱动不可用
        • SSH连接
        • 怎样长时间保持SSH会话连接不断开?
        • /etc/passwd文件损坏导致云主机登录失败怎么办?
        • 怎样设置允许或禁止用户/IP通过SSH连接云主机?
        • Linux启动sshd服务出现/var/empty/sshd无法访问的解决方案
        • CentOS 7修改SSH默认端口后无法连接怎么办?
        • 开启UseDNS导致SSH连接缓慢怎么办?
        • 怎样禁用SSH密码方式连接云主机?
        • 多用户登录
        • 配置多用户登录后,普通用户登录闪屏怎么办?
        • Windows云主机如何配置多用户登录?(Windows 2008)
        • 多用户登录Windows主机时无法打开浏览器
        • Windows云主机如何配置多用户登录?(Windows 2012)
        • 密码与密钥对
        • Linux 云主机怎样切换密钥登录为密码登录?
        • Linux云主机如何进入单用户模式重置root密码
        • 密钥对方式购买的弹性云主机,使用私钥文件获取登录密码失败
        • 使用密钥文件无法正常登录 Linux 弹性云主机
        • 如何更换密钥对
        • Linux云主机重置密码
        • 无法导入密钥对
        • 安装IIS服务
        • 怎样做网页定向?
        • IIS服务修改已绑定的网站域名
        • Windows云主机上安装IIS服务
        • 最佳实践
        • 创建云主机最佳实践
        • 为Windows Server添加AD、DHCP、DNS、IIS服务
        • 基于Tomcat构建Java web环境(CentOS 7.4)
        • 基于弹性云主机部署 WordPress 的安全防护
        • 典型网站类场景
        • 镜像部署Windows环境
        • 麒麟系统云主机配置图形化界面
        • 下载并安装SQL Server
        • 线下OpenStack环境导入公有云环境
        • Mysql数据库自建,使用,问题排查最佳实践
        • 弹性云主机配置
        • 创建双栈云主机
        • 弹性云主机之间迁移最佳实践
        • Linux服务器SSH登录的安全加固
        • 使用VNC Viewer连接Linux云主机
        • Linux系统进入单用户模式
        • 修改云主机默认远程端口
        • 设置Windows操作系统首选语言
        • ECS安全组实践(入方向规则)
        • 针对云主机的最佳实践
        • 搭建微信公众号后台
        • 网络性能测试的最佳实践
        • 网站性能测试的最佳实践
        • 网站搭建指导
        • 手动部署Java Web
        • 基于天翼云ECS搭建Oracle RAC集群
        • 手动搭建LNMP环境
        • 快速构建FTP站点(Windows)
        • 搭建FTP
        • 快速构建FTP站点(Linux)
        • 手工部署RabbitMQ(CentOS 7.4)
        • 在天翼云上配置NTP服务器
        • 跨账号同区域迁移云主机
        • 手工搭建Ghost博客(Ubuntu 20.04)
        • 手工安装宝塔面板(CentOS7.2)
        • 快速部署SD-WAN vCPE最佳实践
        • 通过配置监控Agent实现指定进程监控
        • 部署Palworld幻兽帕鲁服务器最佳实践
        • 部署Palworld幻兽帕鲁服务器最佳实践(Ubuntu)
        • 部署Palworld幻兽帕鲁服务器最佳实践(Windows)
        • Palworld幻兽帕鲁世界参数修改最佳实践(Ubuntu)
        • Palworld幻兽帕鲁世界参数修改最佳实践(Windows)
        • Palworld幻兽帕鲁更新游戏最佳实践
        • 已有天翼云Ubuntu云主机,搭建幻兽帕鲁服务器
        • 已有天翼云Windows云主机,搭建幻兽帕鲁服务器
        • 大模型学习机最佳实践
        • 一键部署与登录Llama 3/Llama 2大模型学习机
        • 部署与登录Llama 3/Llama 2大模型学习机
        • 已有天翼云云主机,部署与登录Llama 3/Llama 2大模型学习机
        • 修改大模型学习机登录密码
        • 大模型学习机服务启停最佳实践
        • 大模型学习机图像生成最佳实践
        • 大模型学习机文本生成最佳实践
        • 大模型学习机文本生成模型微调最佳实践
        • 使用大模型学习机微调自己的文本生成模型
        • 使用大模型学习机微调自己的图像生成模型
        • AIGC实践
        • 在天翼云使用Ollama运行DeepSeek的最佳实践-7B等版本
        • 在天翼云使用vLLM运行DeepSeek的最佳实践-32B等版本
        • 基于DeepSeek和Chroma构建个性化知识库的最佳实践
        • 基于OpenWebUI+Ollama+DeepSeek实现大模型私有知识库零代码构建的最佳实践
        • 基于LLaMA-Factory微调DeepSeek-R1-Distill-Qwen-7B最佳实践
        • 基于CPU的AI推理加速技术在天翼云EMR云主机上的应用
        • 基于Open WebUI实现DeepSeek API调用及外部大模型API接入最佳实践
        • AnythingLLM 协同 Ollama 启用 DeepSeek 大模型最佳实践
        • CherryStudio 协同 Ollama 启用 DeepSeek 大模型
        • 天翼云CPU实例部署DeepSeek-R1模型最佳实践
        • Open WebUI 快速入门
        • 天翼云 GPU 云主机构建高性能 Deepseek 集群最佳实践-32B等版本
        • 使用云主机启动模版快速部署DeepSeek的最佳实践
        • 弹性伸缩搭配GPU云主机水平扩展最佳实践
        • 基于Anything LLM实现云主机外挂Embedding模型、向量数据库的最佳实践指南
        • 大模型推理性能测试实践
        • Open WebUI及vLLM版本升级最佳实践
        • API参考
        • 调用前必知
        • 概述
        • 终端节点
        • 请求状态码
        • 状态枚举值
        • API概览
        • 如何调用API
        • 认证鉴权
        • 构造请求
        • Python调用示例
        • API
        • 2022-09-09
        • 新版
        • 云主机生命周期管理
        • 删除云主机及释放关联资源
        • 全部操作云主机
        • 创建相同配置的云主机
        • 批量释放云主机
        • 克隆云主机
        • 创建一台按量付费或包年包月的云主机
        • 批量创建按量付费或包年包月云主机
        • 续订一台包周期的云主机
        • 释放云主机
        • 云主机添加共享网卡
        • 节省关机一台云主机
        • 节省关机多台云主机
        • 开启一台云主机
        • 关闭一台云主机
        • 销毁一台包周期已退订云主机
        • 重启一台云主机
        • 重装一台云主机
        • 开启多台云主机
        • 关闭多台云主机
        • 重启多台云主机
        • 重装多台云主机
        • 云主机查询
        • 查询云主机支持的冷变配规格信息
        • 根据masterOrderID查询云主机ID
        • 查询一个异步任务的结果
        • 查询用户云主机统计信息
        • 查询云主机支持的热变配规格信息
        • 查询云主机的云硬盘列表
        • 查询用户云硬盘统计信息
        • 查询GPU云主机驱动版本
        • 查询云主机的WEB管理终端地址
        • 查询云主机的固定IP
        • 获取多台云主机的状态信息
        • 查询云主机列表
        • 查询一台或多台云主机详细信息
        • 查询一台云主机详细信息
        • 查询多个异步任务的结果
        • 查询一台云主机的自定义数据
        • 查询指定规格族下的云主机信息
        • 查询云主机规格族列表
        • 查询一个或多个云主机规格资源
        • 云主机修改信息
        • 编辑云主机标签
        • 批量绑定解绑云主机标签
        • 云主机热变配
        • 更新云主机的部分信息
        • 更新多台云主机的部分信息
        • 更新云主机密码
        • 更新云主机实例删除保护信息
        • 更新多台云主机的密码
        • 云主机修改带宽或规格
        • 云主机修改规格
        • 云主机修改带宽
        • 云主机委托管理
        • 云主机清除委托
        • 云主机绑定委托
        • 云主机组管理
        • 删除云主机组
        • 更新云主机组信息
        • 云主机组批量移除云主机
        • 云主机加入主机组校验
        • 云主机组中删除单台云主机
        • 云主机组中添加单台云主机
        • 创建云主机组
        • 查询云主机组内的云主机
        • 查询云主机所在云主机组
        • 查询云主机组列表或者详情
        • 快照管理
        • 快照任务管理
        • 查询云主机快照任务列表
        • 批量删除云主机快照
        • 快照策略管理
        • 修改云主机快照策略
        • 停用云主机快照策略
        • 创建云主机快照策略
        • 启用云主机快照策略
        • 快照策略绑定云主机
        • 快照策略解绑云主机
        • 查询云主机快照任务列表
        • 查询云主机快照策略列表
        • 查询云主机快照策略详情
        • 查询快照策略绑定云主机列表
        • 立即执行云主机快照策略
        • 删除云主机快照策略
        • 快照创建一台云主机
        • 云主机快照个数统计
        • 查询云主机快照详情
        • 云主机快照状态
        • 查询云主机快照列表
        • 删除云主机快照
        • 批量更新云主机快照信息
        • 更新云主机快照信息
        • 创建云主机快照
        • 恢复云主机快照
        • 密钥对管理
        • 绑定SSH密钥对到Linux云主机
        • 查询一个或多个密钥对
        • 创建一对SSH密钥对
        • 导入RSA密钥对
        • 删除SSH密钥对
        • 为云主机解绑SSH密钥对
        • 元数据管理
        • 批量删除云主机元数据
        • 云主机元数据创建
        • 云主机元数据查询
        • 云主机元数据更新
        • 云主机元数据删除
        • 文件系统
        • 查询文件系统关联虚机列表
        • 查询虚机绑定文件系统列表
        • 云主机挂载文件系统
        • 云主机卸载文件系统
        • 云主机备份管理
        • 云主机备份任务管理
        • 查询云主机备份任务列表
        • 云主机备份周期管理
        • 云主机备份统计
        • 备份创建一台云主机
        • 查询云主机备份状态
        • 查询云主机备份详情
        • 查询云主机备份列表
        • 删除云主机备份
        • 恢复云主机备份
        • 查看云主机备份空间占用大小
        • 云主机备份查询虚机磁盘大小
        • 云主机备份查询虚机
        • 创建云主机备份
        • 批量更新云主机备份信息
        • 更新云主机备份信息
        • 云主机备份策略管理
        • 查询云主机备份策略绑定云主机信息
        • 创建云主机备份策略
        • 删除云主机备份策略
        • 修改启用停用云主机备份策略
        • 云主机立即备份
        • 备份策略绑定云主机
        • 备份策略解绑云主机
        • 云主机备份策略绑定存储库
        • 云主机备份策略解绑存储库
        • 查询云主机备份策略列表
        • 云主机备份存储库管理
        • 退订云主机备份存储库
        • 续订云主机备份存储库
        • 查询云主机备份存储库
        • 创建云主机备份存储库
        • 扩容云主机备份存储库
        • 轻量型云主机
        • 轻量型云主机退订数据盘
        • 重装一台轻量型云主机
        • 轻量型云主机新建云硬盘
        • 创建轻量型云主机
        • 查询轻量型云主机列表
        • 查询轻量型主机详细信息
        • 续订一台包周期的轻量型云主机
        • 释放轻量型云主机
        • 查询一台轻量型云主机的Web管理终端地址
        • 开启一台轻量型云主机
        • 关闭一台轻量型云主机
        • 重启一台轻量型云主机
        • 更新一台轻量型云主机密码
        • 轻量型云主机规格套餐升级
        • 查询轻量型云主机的规格套餐资源
        • 公共接口
        • 查询虚机(云主机)规格
        • 资源池查询
        • 资源池产品可售状态查询
        • 查询账户资源池中可用区信息
        • 资源池列表查询
        • 资源池产品信息查询
        • 资源池可用区查询
        • 资源池概况信息查询
        • 用户已有资源查询
        • 用户配额查询
        • 根据订单号查询uuid
        • 新订单询价
        • 资源uuid续订询价
        • 资源uuid升级询价
        • 通用任务状态查询
        • 订单询价
        • 订单续订询价
        • 订单升级询价
        • 网络管理
        • 弹性网卡
        • 查询网卡列表
        • 查询网卡信息
        • 删除弹性公网IP
        • 创建弹性网卡
        • 删除弹性网卡
        • 修改网卡属性
        • 创建弹性公网IP
        • 网卡关联辅助私网IPs
        • 网卡解绑辅助私网IPs
        • 网卡关联多个IPv6地址
        • 网卡解绑多个IPv6地址
        • 网卡绑定云主机
        • 网卡解绑云主机
        • 安全组管理
        • 创建安全组
        • 查询用户安全组列表
        • 删除安全组
        • 创建安全组入向规则
        • 创建安全组出向规则
        • 修改安全组入方向规则
        • 修改安全组出方向规则
        • 删除安全组入方向规则
        • 删除安全组出方向规则
        • 绑定安全组
        • 解绑安全组
        • 查询用户安全组详情
        • 云主机监控
        • 查询云主机的CPU实时监控数据
        • 查询云主机的内存实时监控数据
        • 查询云主机的磁盘实时监控数据
        • 查询云主机的网卡实时监控数据
        • 查询指定时间段内的CPU监控数据
        • 查询指定时间段内的内存监控数据
        • 查询指定时间段内的磁盘监控数据
        • 查询指定时间段内的网卡监控数据
        • 云硬盘管理
        • 创建一块按量付费或包年包月云硬盘
        • 修改云硬盘属性
        • 云主机卸载云硬盘
        • 扩容云硬盘
        • 云主机挂载云硬盘
        • 释放一块包周期或按需付费的云硬盘
        • 云硬盘信息查询
        • 云助手
        • 云助手查询结果
        • 云助手执行命令
        • 查询文件上传结果
        • 创建命令
        • 修改命令
        • 删除命令
        • 触发命令
        • 查询命令列表
        • 查询实例是否安装了云助手agent
        • 查询命令详情
        • 上传文件
        • 文档下载
        • 文档下载
        • 视频专区
        • 相关协议
        • 弹性云主机产品服务协议
        • 弹性云主机服务等级协议
        • 弹性云主机产品个人信息保护声明
        • 关于禁止使用天翼云服务从事虚拟货币相关活动的声明
        • 关于弹性云主机、物理机产品中麒麟、统信镜像无License使用的声明
          无相关产品

          本页目录

          帮助中心弹性云主机最佳实践AIGC实践大模型推理性能测试实践
          大模型推理性能测试实践
          更新时间 2025-06-25 14:46:24
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2025-06-25 14:46:24
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本节简要介绍大模型推理性能测试实践。

          1 前言

          本文介绍三种大模型评测工具,包括EvalScope、LLMPerf和vLLM Benchmark,总结每种测评工具的测试实践,并对三种测评工具在核心功能、性能指标、典型应用场景等方面进行了对比。

          2 EvalScope

          2.1 前言

          EvalScope是魔搭社区官方推出的模型评测与性能基准测试框架,内置多个常用测试基准和评测指标,如MMLU、CMMLU、C-Eval、GSM8K、ARC、HellaSwag、TruthfulQA、MATH和HumanEval等;支持多种类型的模型评测,包括LLM、多模态LLM、Embedding模型和Reranker模型。

          下面介绍基于EvalScope评测DeepSeek R1模型,涵盖基本评测和模型推理性能压测两大场景。

          2.2 测试环境配置

          如下图所示为使用EvalScope测评工具对DeepSeek R1模型进行测试的拓扑图,其中推理引擎选择vLLM。

          image.png

          安装EvalScope测评工具的步骤如下所示:

          pip install evalscope

          2.3 测试实践

          ● 基本评测场景

          本文采用指定模型API地址(api_url)和API Key(api_key),评测部署的模型API服务,指定eval-type参数为service。

          测试命令示例:

          evalscope eval \
           --model DeepSeek-R1-Distill-Qwen-32B \
           --api-url http://127.0.0.1:8000/v1/chat/completions \
           --api-key Vb7h4cVRFPgfAr8a  \
           --eval-type service \
           --datasets gsm8k \
           --limit 10

          测试结果:

          +------------------------------+-----------+-----------------+----------+-------+---------+---------+
          |              Model           |   Dataset |     Metric      |  Subset  |   Num |  Score  | Cat.0   |
          +------------------------------+-----------+-----------------+----------+-------+---------+---------+
          | DeepSeek-R1-Distill-Qwen-32B |  gsm8k    | AverageAccuracy |  main    |    10 |    0.9  | default |
          +------------------------------+-----------+-----------------+----------+-------+---------+---------+

          ● 推理性能压测场景

          使用openqa数据集进行推理性能压测。

          openqa可以模拟真实的问答情况,更接近现实场景,其中包括了超3000条中文对话数据,可以有效评估模型在实际应用中的推理性能。

          测试命令示例:

          evalscope perf \
              --url "http://127.0.0.1:8000/v1/chat/completions" \
              --parallel 1 \
              --model qwen2.5 \
              --number 15 \
              --api openai \
              --dataset openqa \
              --stream

          要准确统计Time to First Token (TTFT)指标,需要在请求中包含--stream参数。

          测试结果如下所示:

          Percentile results: 
          +------------+----------+----------+-------------+--------------+---------------+----------------------+
          | Percentile | TTFT (s) | TPOT (s) | Latency (s) | Input tokens | Output tokens | Throughput(tokens/s) |
          +------------+----------+----------+-------------+--------------+---------------+----------------------+
          |    10%     |  0.0202  |  0.0027  |   0.1846    |      41      |      50       |       270.8324       |
          |    25%     |  0.0209  |  0.0028  |   0.2861    |      44      |      83       |       290.0714       |
          |    50%     |  0.0233  |  0.0028  |   0.7293    |      49      |      250      |       335.644        |
          |    66%     |  0.0267  |  0.0029  |   0.9052    |      50      |      308      |       340.2603       |
          |    75%     |  0.0437  |  0.0029  |   0.9683    |      53      |      325      |       341.947        |
          |    80%     |  0.0438  |  0.003   |   1.0799    |      58      |      376      |       342.7985       |
          |    90%     |  0.0439  |  0.0032  |   1.2474    |      62      |      424      |       345.5268       |
          |    95%     |  0.0463  |  0.0033  |   1.3038    |      66      |      431      |       348.1648       |
          |    98%     |  0.0463  |  0.0035  |   1.3038    |      66      |      431      |       348.1648       |
          |    99%     |  0.0463  |  0.0037  |   1.3038    |      66      |      431      |       348.1648       |
          +------------+----------+----------+-------------+--------------+---------------+----------------------+

          使用openqa可以有效评估模型在处理实际自然语言问题时的具体响应时间,如上展示了模型在不同百分位下的TTFT(首token时间)、TPOT(生成每个token需要的时间)、Latency(延迟时间)、Input tokens(输入token)、Output tokens(输出token)、Throughput(吞吐率)等指标。

          此外,使用Speed Benchmark工具可以重点测试模型在不同输入长度下的推理速度。以下为测试生成2048 tokens时的速度,输入长度分别为1、6144、14336、30720。

          测试命令示例:

          evalscope perf \
           --parallel 1 \
           --url http://127.0.0.1:8000/v1/completions \
           --model DeepSeek-R1-Distill-Qwen-32B \
           --log-every-n-query 1 \
           --connect-timeout 60000 \
           --read-timeout 60000\
           --max-tokens 2048 \
           --min-tokens 2048 \
           --api openai \
           --dataset speed_benchmark \
           --api-key Vb7h4cVRFPgfAr8a

          参数说明如下所示:

          ● parallel:指定并发数,默认为1个;

          ● url:指定待测试系统的服务地址;

          ● model:指定待测试的模型名称;

          ● log-every-n-query:指定日志打印间隔;

          ● connect-timeout:指定网络连接超时时间,单位为毫秒;

          ● read-timeout:指定网络读取超时时间,单位为毫秒;

          ● max-tokens:指定输出最大token值;

          ● min-tokens:指定输出最小token值;

          ● api:指定服务API类型;

          ● dataset:指定数据集;

          ● api-key:指定认证的API key值。

          测试结果:

          +---------------+-----------------+----------------+
          | Prompt Tokens | Speed(tokens/s) | GPU Memory(GB) |
          +---------------+-----------------+----------------+
          |       1       |      44.58      |      0.0       |
          |     6144      |      42.47      |      0.0       |
          |     14336     |      34.55      |      0.0       |
          |     30720     |      31.72      |      0.0       |
          +---------------+-----------------+----------------+

          从测试结果可以看出,随着输入token数量增加,模型推理速度下降。

          ● 定制化推理性能压测场景

          我们对Speed Benchmark 工具代码进行了修改,增加了输入token和repeat参数,用户可以在压测命令中可以直接指定需要测试的输入token长度和repeat值,不需要去修改代码重新配置环境,改动代码如下所示:

          1)修改数据集文件:evalscope/perf/plugin/datasets/speed_benchmark.py。注释掉之前的INPUT_LENGTH和REPEAT,然后替换初始化代码和build_messages方法

              def __init__(self, query_parameters: Arguments):
                  super().__init__(query_parameters)
                  self.input_length = getattr(query_parameters,'dataset_input_length', [1, 6144, 14336, 30720])
                  # 从参数获取重复次数,默认值为 2
                  self.repeat = getattr(query_parameters, 'dataset_repeat', 2)
          
              def build_messages(self) -> Iterator[List[Dict]]:
                  for input_len in self.input_length:
                      for _ in range(self.repeat):
                          yield self.create_query(input_len)

          2)修改参数加载文件evalscope/perf/arguments.py,修改如下

          #在Arguments中添加对应字段
          dataset_input_length=args.dataset_input_length,
          dataset_repeat=args.dataset_repeat
          #在add_argument函数里添加:
          parser.add_argument(
                  '--dataset-input-length',
                  nargs='+',
                  type=int,
                  default=[1, 6144, 14336, 30720],
                  help='The length of the input, default [1, 6144, 14336, 30720]')
          parser.add_argument('--dataset-repeat', type=int, default=2, help='The repeat times of the dataset')

          安装修改后的evalscope工具后,执行测试的示例如下所示:

          evalscope perf \
           --parallel 1 \
           --url http://127.0.0.1:8000/v1/completions \
           --model DeepSeek-R1-Distill-Qwen-32B \
           --log-every-n-query 1 \
           --connect-timeout 60000 \
           --read-timeout 60000\
           --max-tokens 2048 \
           --min-tokens 2048 \
           --api openai \
           --dataset speed_benchmark \
           --api-key Vb7h4cVRFPgfAr8a
           --dataset-input-length 256 1024 2048
           --dataset-repeat 5

          当我们传入多个dataset-input-length值时会同时测试多个不同的输入长度的样本,总的请求数为dataset-input-length输入的样本个数乘以dataset-repeat传入的值。

          3 LLMPerf

          3.1 前言

          LLMPerf(大型语言模型性能测试)是评估大语言模型(LLM)在生产环境中表现的核心评测体系。本文基于真实业务场景提炼最佳实践方法论,为开发、运维与测试团队提供可靠的测试方案,系统性保障服务的高吞吐、低延迟和稳定性。

          3.2 测试环境配置

          测试脚本下载

          LLMPerf由 Ray 项目团队开发,在github上开源,可直接下载。

          git clone https://github.com/ray-project/llmper

          工具核心功能:

          性能评估

          ● 负载测试:LLMPerf可以对大语言模型(如Llama 2、GPT-3等)的吞吐量和延迟性能进行测量。它通过负载测试来评估模型在不同负载下的响应延迟和生成吞吐量,帮助用户了解模型在实际应用中的性能表现。

          ● 准确性测试:该工具还可以进行正确性测试,衡量模型输出的准确性,确保模型在生成内容时能够保持较高的质量。

          参数化测试

          LLMPerf允许用户更改输入和输出大小等参数,以匹配不同的应用场景。这意味着用户可以根据自己的具体需求和工作负载,灵活地调整测试参数,从而获得更具针对性的性能评估结果。

          结果分析

          LLMPerf能够提供详细的性能指标分析,包括响应时间、吞吐量、准确性等,帮助用户深入了解模型的性能特点。

          兼容性

          LLMPerf支持主流的大语言模型,如OpenAI、Anthropic、TogetherAI等。这使得用户可以在一个统一的框架下对不同来源的模型进行性能比较和评估。

          安装测试工具

          git clone https://github.com/ray-project/llmperf
          cd llmperf
          pip install -e .
          #如下载速度较慢可以使用国内源进行加速
          pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple

          配置环境变量

          根据不同的API服务,需要设置不同的密钥信息和服务地址。例如对于OpenAi(vLLM类推理框架):

          export OPENAI_API_KEY="your api-key"
          export OPENAI_API_BASE="https://api.endpoints.anyscale.com/v1"

          3.3 测试实践

          性能测试

          使用token_benchmark_ray.py脚本运行测试,主要参数如下:

          ● --model:被测的模型名称(如DeepSeek-R1-Distill-Qwen-32B)。

          ● --mean-input-tokens:输入token的均值。

          ● --mean-output-tokens:输出token均值。

          ● --stddev-input-tokens:输入token的标准差。

          ● --stddev-output-tokens:输出token的标准差。

          ● --num-concurrent-requests:并发请求数。

          示例:

          python token_benchmark_ray.py \
              --model "DeepSeek-R1-Distill-Qwen-32B" \
              --mean-input-tokens 256 \
              --stddev-input-tokens 0 \
              --mean-output-tokens 256 \
              --stddev-output-tokens 0 \
              --max-num-completed-requests 200 \
              --timeout 600 \
              --num-concurrent-requests 10 \
              --results-dir "result" \
              --llm-api openai \
              --additional-sampling-params '{}'

          用vLLM部署DeepSeek-R1-Distill-Qwen-32B模型进行测试,测试结果主要指标如下所示:

          image.png

          测试结果还包含一些不同分位的指标,这里只展示关键指标,其主要含义如下:

          ● TTFT(首token时间):请求开始到收到第一个token的时间。

          ● Prefill-Throughput:表示模型处理输入Prompt的速率。

          ● TPOT:表示生成相邻token之间的间隔时间。

          ● Decoder-Throughput:模型的输出速率。

          准确性测试

          使用llm_correctness.py脚本可进行文本转换任务,测试模型准确性,其主要测试模型能否准确将文本转换为数字。

          示例:

          python llm_correctness.py \
              --model "DeepSeek-R1-Distill-Qwen-32B" \
              --max-num-completed-requests 100 \
              --num-concurrent-requests 5 

          用vLLM部署DeepSeek-R1-Distill-Qwen-32B模型进行准确性测试,主要测试模型的文本转化能力,测试结果如下所示:

          image.png

          可以看到模型的文本转换请求全部成功,没有失败的请求。

          4 vLLM Benchmark

          4.1 前言

          vLLM Benchmark 是 vLLM 框架用于评估和优化其推理性能的标准化测试工具集,核心作用是为大语言模型(LLM)的推理服务提供量化指标,帮助开发者优化模型部署策略。

          4.2 测试环境配置

          如下图所示为测试环境拓扑,其中GPU云主机配置有4块GPU卡。部署DeepSeek的模型,安装vLLM推理引擎服务并启动;启动Open WebUI服务来接入到vLLM,实现从浏览器客户端登录系统进行问答;vLLM Benchmark用于进行性能压力测试,sharegpt dataset数据集用于性能压测过程的输入数据。

          image.png

          可以通过如下命令来安装vLLM Benchmark工具脚本:

          git clone https://github.com/vllm-project/vllm.git
          cd vllm/benchmarks/

          4.3 测试实践

          使用vLLM Benchmark进行性能测试时可以指定sharegpt数据集。

          Sharegpt数据集的所有问题论来自于真实的用户提问,更贴近实际应用场景,可以全面、真实地评估模型在实际应用场景中的表现。具体的指标和测试方法见下文。

          如下所示为性能压测命令:

          python benchmark_serving.py --model /root/model-path/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --backend vllm --dataset-name sharegpt --dataset-path /root/ShareGPT_V3_unfiltered_cleaned_split.json --max-concurrency 1 --num-prompts 50

          命令参数解释如下:

          ● model:指定模型路径;

          ● backend:指定后端推理引擎类型;

          ● dataset-name:指定数据集类型;

          ● dataset-path:指定数据集路径;

          ● max-concurrency:指定并发数,默认为1;

          ● num-prompts:指定总的请求数;

          对应的测试结果如下所示:

          image.png

          指标说明:

          测试结果中的具体指标含义如下所示:

          ● Output token throughput(tok/s):输出 Token 吞吐量,单位为 tok/s,是衡量大模型服务生成效率的核心指标,指系统每秒能够生成的输出 token 数量。它直接反映模型的文本生成速度和系统的整体处理能力,是评估推理成本和服务商业价值的关键依据。

          ● TTFT:Time to First Token,首 Token 延迟,是衡量大模型服务响应速度的核心指标,具体指从用户发送请求到系统生成第一个输出 。

          ● TPOT:指排除首 Token 延迟后,生成每个后续输出 token 的平均耗时。计算公式为:总解码时间 / 输出 token 数量。例如,若 TPOT 为 50ms,则每秒可生成 20 个 token。

          ● ITL:连续两个输出token之间的间隔时间,单位毫秒,反映生成稳定性。

          指定输入输出token长度

          当使用的数据集为random类型的时候,执行vLLM Benchmark压测命令的时候可以指定输入长度和输出长度,测试命令如下:

          python vllm/benchmarks/benchmark_serving.py \
            --model /root/model-path/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
            --backend vllm \
            --dataset-name random \
            --random-input-len 256 \
            --random-output-len 256 \
            --max-concurrency 1 \
            --num-prompts 50

          进行上述测试时如果使用vllm启动的时候添加了--served-model-name参数以及--api-key参数,测试的时候需要在上述命令中加入--served-model-name内容,并且在环境变量中添加OPENAI_API_KEY=yourkey。

          5 三种测评工具对比

          5.1 核心功能对比

          1. vLLM Benchmark

          • 专注于LLM推理引擎性能评测,支持OpenAI接口兼容的框架(如Qwen系列模型)

          • 内置TTFT(首Token延迟)、TPOT(后续Token时延)、吞吐量等核心指标

          • 支持长上下文压力测试(如LongAlpaca-12k数据集)

          1. EvalScope

          • 大模型多维度评估框架,覆盖性能测试(Perf)、效果评测(Accuracy)和合规性检测

          • 提供标准化测试集(如MMLU、CMMLU)和自定义数据集扩展能力,支持多种测评场景

          • 集成生产级压力测试功能,支持并发请求模拟与实时监控(通过Wandb可视化)

          1. LLMPerf

          • 开源基准测试工具,专攻API级性能评估(延迟、吞吐量、请求成功率)

          • 支持正确性验证(如数字格式转换准确性测试)

          5.2 性能指标侧重

          工具核心指标测试场景差异
          vLLM Benchmark首Token延迟(TTFT)、Token吞吐量、显存占用率重推理引擎的硬件资源利用率,常用于GPU云主机环境下的引擎选型
          EvalScope综合吞吐量、QPS、端到端延迟、多模态任务准确率适配生产环境压力测试,支持API服务与本地模型的混合评测
          LLMPerfToken间延迟、首Token延迟(TTFT)、请求吞吐量、错误率强调高并发模拟能力(如10+并发请求),适合API服务的SLA验证

          5.3 技术特性差异

          1. 部署复杂度

          • vLLM Benchmark:从vLLM的github代码仓库源克隆

          • EvalScope:提供Docker镜像和Python CLI工具链,支持快速接入ModelScope社区模型和数据集

          • LLMPerf:依赖Ray分布式框架,需修改Tokenizer配置适配私有化模型

          1. 测试数据灵活性

          • vLLM Benchmark:使用ShareGPT_V3、LongAlpaca等结构化数据集,也可使用随机数据自定义输入长度

          • EvalScope:允许自定义输入长度(--dataset-input-length)和样本重复次数

          • LLMPerf:支持动态调整输入Token分布参数(--mean-input-tokens)

          1. 结果可视化

          • vLLM Benchmark/EvalScope:支持Wandb面板实时监控测试进度

          • LLMPerf:生成CSV格式原始数据,需二次处理

          5.4 典型应用场景

          1. vLLM Benchmark

          • 推理引擎选型(如对比vLLM、LMDeploy、TensorRT-LLM的吞吐量)

          • 长上下文支持能力验证(如测试16k+Token输入的显存溢出风险)

          1. EvalScope

          • 生产环境服务容量规划(如通过--parallel 模拟多路并发)

          • 多模态模型效果-性能平衡分析(如Embedding模型响应延迟与召回率关联性)

          1. LLMPerf

          • 云API服务商性能对比(如Anthropic Claude vs OpenAI GPT-4 Turbo)

          • 模型部署前的SLA合规性检查(如验证P99延迟是否达标)

          5.5 工具选型建议

          ● LLMPerf:功能比较单一,适合API基准测试以及快速对比多个LLM API性能场景,聚焦于LLM API性能(如延迟、吞吐量、请求成功率)和正确性测试(输出格式与内容验证);

          ● EvalScope:功能全面且灵活,适合复杂评测的需求场景,支持多维度评估,包括模型能力、性能压测、端到端RAG评测、多模态模型评测等。适合综合评估模型在学术研究、工业部署中的表现,支持自定义评测指标和复杂场景(如竞技场模式、长文本生成测试);

          ● vLLM Benchmark:主要针对vLLM推理引擎的性能优化(如PagedAttention技术效果、多卡扩展性)。专为优化vLLM框架的部署参数设计,适合需要调整批次大小、显存利用率等参数以实现高吞吐量推理的场景。

          6 附录

          vLLM官方代码仓库

          EvalScope官方文档

          LLMPerf官方代码仓库

          DeepSeek提示库

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  基于Anything LLM实现云主机外挂Embedding模型、向量数据库的最佳实践指南
          下一篇 :  Open WebUI及vLLM版本升级最佳实践
          搜索 关闭
          ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2025天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明