调用监控
更新时间 2025-09-17 18:06:43
最近更新时间: 2025-09-17 18:06:43
调用监控支持查看在线推理预置服务、我的服务在指定时间段内的调用数据和监控指标详情,包括调用总量、调用失败量、调用总tokens等指标,并支持按日、按时、按分钟粒度展示数据,帮助了解服务的使用情况和性能变化。
前提条件
预置服务和我的服务产生调用记录后才可查看调用监控数据。
账号权限说明
主账号可查看其名下所有子账号分别的调用监控数据。
查看服务调用的监控数据
登录模型推理服务。
在左侧导航栏选择“调用监控”。
选择目标预置服务,点击“查看监控”,进入该模型的调用数据详情页,可以查看具体的模型在特定服务组、特定服务中的调用监控情况。
点击“调用失败明细”,可以查看调用失败的次数、占比、错误信息等数据。
点击“导出”,可以直接导出调用总览或调用失败明细数据到本地。
调用统计筛选项说明
| 筛选项 | 说明 |
|---|---|
| 服务组创建人 | 筛选子账号。 仅名下存在子账号的主账号可见。 |
| 服务名称 | 支持选择在线推理的预置服务和我的服务。 |
| 服务组 | 选择查看全部服务组或具体的服务组名称。 |
| 时间精度 | 支持选择按日、按时、按分钟。 |
| 时间范围 | 自定义选择时间范围。 当时间精度选择按日时,范围最大支持31天;当时间精度选择按时时,范围最大支持7天;当时间精度选择按分钟时,范围最大支持1天。 |
调用总览的参数说明
| 参数 | 说明 |
|---|---|
| 调用次数 | 服务调用的次数。 |
| 调用失败率(%) | 调用失败次数/调用总次数。 |
| 调用Token量(万tokens) | 服务调用的tokens数。 文本生图类模型服务调用无此项统计值。 |
| 平均响应时延(ms) | 单位时间内成功请求的响应时间平均值。 |
| 首Token时延(ms) | 仅统计流式响应。 从接收请求到生成第一个输出token所需的时间。 文本生图类模型服务调用无此项统计值。 |
| 非首Token时延(ms) | 仅统计流式响应。 生成后续每个输出token所需的时间间隔,不包括首token。 文本生图类模型服务调用无此项统计值。 |
| 整句Token时延(ms) | 请求从开始到返回到最后一个token的耗时,统计流式及非流式响应。 文本生图类模型服务调用无此项统计值。 |
| QPS | Query Per Second,即每秒响应请求数。 |
调用失败明细的参数说明
| 参数 | 说明 |
|---|---|
| 错误码 | 报错的错误码。 |
| 错误次数 | 错误发生的次数。 |
| 错误占比 | 该错误码发生次数占全部错误次数的比例。 |
| 错误描述 | 错误的描述信息。 |