调用监控
更新时间 2026-01-16 14:30:58
最近更新时间: 2026-01-16 14:30:58
调用监控支持查看在线推理预置服务、我的服务在指定时间段内的调用数据和监控指标详情,包括调用总量、调用失败量、调用总tokens等指标,并支持按日、按时、按分钟粒度展示数据,帮助了解服务的使用情况和性能变化。
支持查看在线推理预置服务、专属服务、我的服务以及批量推理在指定时间段内的调用数据和监控指标详情,并支持按日、按时、按分钟粒度展示数据,帮助了解服务的使用情况和性能变化。
前提条件
在线推理的我的服务和批量推理产生调用记录后才可查看调用监控数据。
账号权限说明
主账号可查看其名下所有子账号分别的调用监控数据,且支持导出所有子账号的所选服务的监控数据。
查看服务调用的监控数据
登录模型推理服务。
在左侧导航栏选择“调用监控”。
选择目标服务名称,点击“调用监控”,进入该模型的调用数据详情页,可以查看具体的模型在特定服务组、特定服务中的调用监控情况。
点击“调用失败明细”,可以查看调用失败的次数、占比、错误信息等数据。
点击“导出”,可以直接导出调用总览或调用失败明细数据到本地。
选择目标专属服务,点击“资源监控”,进入可查看专属服务资源的监控信息,包含GPU/NPU利用率、显存利用率、
表1 调用监控详情页筛选项说明
| 筛选项 | 说明 |
|---|---|
| 主/子用户 | 筛选子账号。 仅名下存在子账号的主账号可见。 |
| 服务名称 | 支持选择在线推理的预置服务和我的服务。 |
| 服务组 | 选择查看全部服务组或具体的服务组名称。 |
| 时间精度 | 支持选择按日、按时、按分钟。 |
| 时间范围 | 自定义选择时间范围。 当时间精度选择按日时,范围最大支持31天;当时间精度选择按时时,范围最大支持7天;当时间精度选择按分钟时,范围最大支持1天。 |
表2 调用总览指标说明
| 参数 | 说明 |
|---|---|
| 调用Token量(万tokens) | 服务调用的token数,包括总量、输入量、输出量。支持细分筛选不同计费类型下的调用量。 文本生图类模型服务调用无此项统计值。 |
| 调用次数 | 服务调用的次数。 |
| 调用失败率(%) | 调用失败次数/调用总次数。 |
| 平均响应时延(ms) | 单位时间内成功请求的响应时间平均值。 |
| 首Token时延(ms) | 仅统计流式响应。 从接收请求到生成第一个输出token所需的时间。 文本生图类模型服务调用无此项统计值。 |
| 非首Token时延(ms) | 仅统计流式响应。 生成后续每个输出token所需的时间间隔,不包括首token。 文本生图类模型服务调用无此项统计值。 |
| 整句Token时延(ms) | 请求从开始到返回到最后一个token的耗时,统计流式及非流式响应。 文本生图类模型服务调用无此项统计值。 |
| QPS | Query Per Second,即每秒响应请求数。 |
表3 调用失败明细的参数说明
| 参数 | 说明 |
|---|---|
| 错误码 | 报错的错误码。 |
| 错误次数 | 错误发生的次数。 |
| 错误占比 | 该错误码发生次数占全部错误次数的比例。 |
| 错误描述 | 错误的描述信息。 |
表4 资源监控详情页的指标说明
| 参数 | 说明 |
|---|---|
| NPU/GPU使用率 | 在单位时间内,显卡被使用的时间占比。 |
| NPU/GPU显存使用率 | 已用显存占总显存的百分比。 |
| CPU使用率 | CPU在单位时间内,CPU被使用的时间占比。 |
| 内存使用率 | 已用内存占总内存的百分比。 |