前置条件
创建在线服务
登录训推智算服务平台。
创建在线服务入口:
入口一:在左侧菜单选择“模型服务”-“服务部署”,点击“部署模型”,进入在线服务创建页面。
入口二:在左侧菜单选择“模型管理”,点击模型卡片的“部署”,进入在线服务创建页面。
当前模型部署支持将不同来源、不同类型的模型转化为可对外提供服务的模型应用,满足多样化的业务场景需求:
我的模型:
自定义配置:部署的模型来自于模型管理中用户通过开发机和训练任务生成的个性化的自有模型。选择“我的模型”列表下的目标模型文件,要求客户对自有模型的训练逻辑、 部署时的资源规格有清晰的认知,否则会直接影响部署效果。该方法只适用于单机部署,如果想使用多机部署,请选择”模板配置“。
参数名 说明 服务名称 必填,在线服务名称。 模型选择 选择模型管理中的“我的模型”文件,挂载到容器内路径。 模型配置 选择“自定义配置“。部署的模型来自于模型管理中用户通过开发机和训练任务生成的个性化的自有模型。 模型文件 选择自定义配置,则可选择模型管理中“我的模型”下的模型文件。 镜像来源 支持选择系统预置镜像、自定义镜像、共享容器镜像和他人分享镜像。 代码包选择 非必填,可以选择目标代码包。 环境变量 输入变量名称和值。 运行命令 必填,用以启动镜像的运行命令和端口号(例如:启动镜像的运行命令脚本。示例如下:cd /work/mount/code #切换到执行脚本所在目录。python /run.py#执行启动脚本。) 资源配额 选择目标资源配额,展示当前总资源及使用情况。 资源规格 选择当前任务所需要的资源规格。 实例数量 输入当前部署实例的数量。 服务授权 必填,选择调用服务时使用的服务授权。 模板配置:平台预置了分布式部署模型模板,平台预置模板经过优化测试,部署后服务稳定性高。当前只支持DeepSeek-R1 模型的分布式部署,单实例部署机器数为2。例如,部署3个实例且每个实例需2台机器,则共需3×2=6台机器。当前的模板配置为平台预置,无法调整模板参数。如果想快速体验单机部署可以选择”预置模型”。
参数名 说明 服务名称 必填,在线服务名称。 模型选择 选择模型管理中的“我的模型”文件,挂载到容器内路径。 模型配置 选择“模板配置“。当前只支持DeepSeek-R1 模型的分布式部署,单实例部署机器数为2。 模型文件 选择模板配置所需要的模型文件。 资源配额 选择目标资源配额,展示当前总资源及使用情况。 资源规格 选择当前任务所需要的资源规格。 实例数量 输入当前部署实例的数量。 服务授权 必填,选择调用服务时使用的服务授权。
预置模型:部署的模型来自于平台的“预置模型”,无需用户自主训练模型,操作简单。预置模型通常是通用性模型,用户无法根据自身业务需求进行优化调整,如果需要针对垂直领域进行优化调整,请选择“自定义配置”。
参数名 说明 服务名称 必填,在线服务名称。 模型选择 选择模型管理中的“预置模型”文件,挂载到容器内路径。 训练框架 根据用户选择的模型文件,会自动带出训练所用框架。
资源规格 选择当前任务所需要的资源规格。 实例数量 输入当前部署实例的数量。 服务授权 必填,选择调用服务时使用的服务授权。
在列表可查看模型是否部署成功,在操作列可进行模型查看、更新、停止、重启、修改、上下线、删除等操作。停止服务后计费也会停止,再次启动服务即可开通计费。
操作列点击【查看】可进入该服务的详情页,查看部署的模型列表、服务监控、配置历史、运行记录、事件日志、服务日志。
算力虚拟化
当开启“自定义分配”表示对资源配额内的资源虚拟化切分使用(当前仅支持在英伟达专属集群下使用)。当前平台采用显存隔离的虚拟化策略,开启后多个eGPU实例会优先调度于同一物理GPU上;算力切分策略支持算力(最低1%)与显存(最低1MB)的细粒度切分。当开启自定义分配之后,可以根据自己的任务情况输入当前需要切分的虚拟卡配置:
虚拟卡数量:不可超过当前节点的物理卡总量,单张物理卡可切分的虚拟化卡数上限由显存切分的粒度决定(例如,一张128G显存的物理卡,每张虚拟卡申请16G显存,则最多可切分8张虚拟卡);可用显存总量=虚拟卡数量*单卡显存。
虚拟单卡显存:每张虚拟卡的显存,大于等于1且小于等于单张物理卡显存。
根据用户输入的显存值,会自动计算出虚拟卡的单卡CPU和内存推荐值:默认推荐值=单张物理卡CPU或内存*显存占比。默认展示系统推荐最佳值,谨慎修改,若修改可能会增加碎片降低算力卡使用效率。可以点击”恢复推荐值“快速返回系统推荐值。
服务授权
服务授权为服务部署创建App Key供用户调用。
创建在线服务入口:
入口一:在左侧菜单选择“服务部署”-“我的服务”-“部署模型”,新建页面点击“创建服务授权”。
入口二:在左侧菜单选择“服务部署”-“授权管理”,点击“创建服务授权”,进入服务授权创建页面。
入口三“在左侧菜单选择“服务部署”-“我的服务”,详情页点击“服务授权”页面中点击“创建服务授权”。
创建服务授权:
输入服务授权名称:必填,最长不超过15个字符。
查看服务授权:在授权管理菜单还可以查看当前授权绑定的服务列表。
可以单击操作列的按钮查询当前授权的明文、重置或删除。
服务授权解绑和添加:在服务部署详情页,可以点击“服务授权”按钮进入当前服务绑定的授权信息列表,可以解绑不再使用的授权,绑定新的授权。
服务调用
获得服务调用接口地址
在postman中构造请求接口,在请求header中需要填入Authorization鉴权信息,为避免被安全护栏拦截,建议在http请求header中填入User-Agent信息:
请求路径:https://wishub-x5.ctyun.cn/api/v1/c760bd1e83/d1a696ae54419d34987d95d52ac337f8/v1/xxx/yyy,其中/xxx/yyy 为具体的功能路径,如/chat/completions;其余前缀通过服务详情的“接口地址”获得。
请求方式:POST;
请求header必填项: Authorization: Bearer AppKey Content-Type: application/json;
其他header:
User-Agent: PostmanRuntime-ApipostRuntime/1.1.0获得服务调用返回
服务监控
推理服务提供两类监控指标,一类是调用监控,展示了与业务及性能强相关的指标,例如调用tokens量、QPS等;一类是资源监控,展示了CPU、内存、显卡等相应资源的使用情况。
调用监控
找到需要查看的任务卡片,点击【查看】进入服务详情页面,下拉页面切换到【调用监控】tab,可查看部署服务的调用情况。
选择相应的服务授权,不选则默认统计所有的服务授权。
统计说明及名词解释:
流式响应:模型边推理边输出结果(如逐词、逐句生成),用户可以实时看到部分结果;
非流式响应:模型需要完整计算所有结果后,一次性返回全部内容。
图像展示:
放大与明细:点击指标右侧“>”箭头,可展开指标大图,大图展示对图像上点的统计细项,包括最大值、最小值、平均值、中位数、75分位数;
图例:点击图例,可以对线段进行展示/隐藏;
时间轴:滑动图像下方时间轴,可以在已选定时间的基础上,查看更小范围的监控。
指标含义:
指标 | 解释 |
调用次数 | 一段时间内服务被调用的次数,包含调用总次数、成功次数、失败次数。 |
累计调用次数 | 服务启动后,服务累计被调用的次数,包含调用总次数、成功次数、失败次数。 例如,服务于1/1日启动,2/1日统计值为1/1-2/1日时间段内的调用次数总和。 |
调用失败率 | 调用失败率。 |
平均响应时间 | 单位时间内成功请求的响应时间平均值。 |
调用Token量 | 一段时间内服务被调用的tokens数,包含总量、输入、输出。 |
累计调用Token量 | 服务启动后,服务累计被调用的tokens数,包含总量、输入、输出。 例如,服务于1/1日启动,2/1日统计值为1/1-2/1日时间段内的调用tokens总和。 |
首Token时延 | 从接收请求到生成第一个输出token所需的时间,仅统计流式响应。 AVG:首Token时延的平均值。 MAX:首Token时延的最大值。 P50:50%的首Token时延低于该值。 P80:80%的首Token时延低于该值。 P90:90%的首Token时延低于该值。 P99:99%的首Token时延低于该值。 |
非首Token时延 | 生成后续每个输出token所需的时间间隔,不包括首token,仅统计流式响应。 AVG:非首Token时延的平均值。 MAX:非首Token时延的最大值。 P50:50%的非首Token时延低于该值。 P80:80%的非首Token时延低于该值。 P90:90%的非首Token时延低于该值。 P99:99%的非首Token时延低于该值。 |
端到端时延 | 服务在该时间点所有请求的端到端时延,端到端时延表示从接收到请求到返回所有Token的时间,统计流式及非流式响应。 AVG:端到端时延的平均值。 MAX:端到端时延的最大值。 P50:50%的端到端时延低于该值。 P80:80%的端到端时延低于该值。 P90:90%的端到端时延低于该值。 P99:99%的端到端时延低于该值。 |
QPS | Query Per Second,即每秒响应请求数。 |
资源监控
找到需要查看的任务卡片,点击【查看】进入服务详情页面,下拉页面切换到【资源监控】tab,可查看部署服务的资源使用情况。
统计说明及名词解释:
作业:指运行一次任务,一次运行即一个作业;
实例:指pod实例,是Kubernetes的最小调度单元;
作业维度与实例维度:一般在部署时,一个任务作业会起多个pod实例。在实例维度,展示了不同实例的最小粒度的监控,此时可以精确到某个实例中的某一张卡;在作业维度,统计了该作业下的所有实例(Pod)或显卡的聚合值,以反映作业整体的资源使用情况,一般使用率、速率以平均值聚合,使用量以累加值聚合。
图像展示:
放大与明细:点击指标右侧“>”箭头,可展开指标大图,大图展示对图像上点的统计细项,包括最大值、最小值、平均值、中位数、75分位数;
图例:点击图例,可以对线段进行展示/隐藏;
时间轴:滑动图像下方时间轴,可以在已选定时间的基础上,查看更小范围的监控。
监控指标:
| 类别 | 指标 | 维度 | 解释 |
| CPU、内存与网络监控 | CPU使用率 | 作业、实例 | CPU在单位时间内,CPU被任务占用使用的时间占比。 |
| CPU使用量 | 作业、实例 | CPU 实际使用的核数。 | |
| 内存使用率 | 作业、实例 | 已用内存占总内存的百分比。 | |
| 内存使用量 | 作业、实例 | 内存实际使用量。 | |
| 普通网络吞吐 | 作业、实例 | 传统以太网的实际数据传输速率,即单位时间内实际传输的数据量。 | |
| 显卡基础指标 | GPU/NPU使用率 | 作业、实例 | 在单位时间内,显卡被任务占用使用的时间占比。 |
| GPU/NPU显存使用率 | 作业、实例 | 已用显存占总显存的百分比。 | |
| GPU/NPU显存使用量 | 作业、实例 | 显存实际使用量。 | |
| GPU/NPU卡温度 | 实例 | 显卡温度。 | |
| GPU/NPU功耗 | 实例 | 显卡功耗。 | |
NPU卡健康状态
| 实例 | 每张卡的NPU芯片健康状态。 取值范围:{0,1} 1:表示在过去一段时间间隔内芯片处于健康状态; 0:表示在过去一段时间间隔内出现了不健康状态。 |