日志分析常用监控指标
更新时间 2026-05-27 17:54:36
最近更新时间: 2026-05-27 17:54:36
本章节为您介绍日志分析常用的监控指标
| 监控指标 | 释义 | 常见原因 | 建议阈值 | 处理建议 |
|---|---|---|---|---|
| resp_code:200 | 服务器已成功处理请求,返回了请求的数据。 | - | 初始化正常业务时,200状态码的告警监控阈值可以配置为90%,具体根据实际业务情况调整。 | 如果发现低于监控比例,需要分析比例下降的原因,例如是否因为其他错误状态码比例增加。 |
| request_time | 客户端请求到返回结果的请求耗时,即从客户端-WAF-源站再从源站-WAF-客户端整个时长 | - | 按实际业务请求所需耗时,设置合适的超时告警监控阈值。 | 如果发现域名请求耗时较长,需要检查客户端-WAF-源站整体网络链路质量,并排查源站响应状态是否正常。 |
| response_time | 请求回源时,源站返回数据的响应时间,即从WAF-源站再从源站-WAF的时间。 | - | ||
| status:403 | WAF拦截状态码,由Web核心防护、BOT防护、CC防护、地域防护等所有防护模块产生的防护状态均为403 | WAF安全策略拦截 | - | 通过全量日志分析拦截的规则、请求行为,判断是正常拦截还是误拦截。 |
| status:404 | 服务器找不到请求的资源。 | 【客户端相关】 客户端输入错误(最常见) 前端/App代码问题 【服务端相关】 资源被删除或迁移 权限/状态导致逻辑404 短暂的系统异常 自动化扫描/攻击 | 初始化时,建议配置5%~10%的告警阈值比例,后续运营期间可以根据业务拦截情况灵活调整。 | 少量404(例如总请求量的0.1%以下)且集中在特定来源(爬虫/旧书签)通常无需紧急处理,但如果涉及核心业务流程或突增超过0.5%,建议按以下步骤排查。 检查最近一次代码/配置发布的时间点与404突增时间是否吻合。 查看404 URL是否有明显规律(如特定路径、特定参数值、特定来源页面)。 确认是否存在损坏的外部链接(如合作方网站跳转)。 验证Web服务器(如Nginx)和应用程序的404日志是否一致。 针对单个404 URL,使用 curl -v 模拟请求,查看完整响应头。 |
| status:499 | 客户端发起请求,服务端未返回数据,超过客户端设置的等待时间后,客户端主动断链,服务端返回给客户端该状态码。 | 【客户端相关】 客户端超时设置过短 用户行为 【服务端相关】 后端处理太慢(最常见) 【网络相关】 网络问题 【WAF相关】 WAF超时配置过短 | 优先排查慢接口(SQL、下游调用、复杂计算),然后调整超时配置,同时关注非幂等请求的重复调用问题。少量偶发(<0.1%)可以接受,超过 1% 需要尽快优化。 | |
| status:500 | 服务器内部发生了预期外的错误,无法完成请求。简单说:代码报错了。 不是客户端的问题(请求本身可能是合法的) 不是网络问题 是后端代码运行时抛出了未捕获的异常(如空指针、数组越界、数据库连接失败、语法错误等) 少量 500 通常意味着存在 Bug,需要修复。 | 【服务器相关】 1.服务器代码异常(最常见) 2.数据库问题 3.依赖服务故障 4.内存/资源不足 5.配置错误 6.发布相关 | 少量 500(比如单日个位数)如果确认是偶发的极端情况(比如某个特殊数据导致的空指针),建议记录并修复,不应存在预期内的 500。任何 500 都应该被当做一个可观测的 Bug 来处理。 | |
| status:502 | WAF作为“前台”,向后端(“后台”)请求数据,但后台没有给出正确的 HTTP 响应。这通常意味着前后台之间的通道断了。一般由于回源网络质量变差、回源链路有访问控制拦截回源请求导致源站无响应。 | 【服务器相关】 1. 后端服务进程挂了(最常见) 2. 后端服务端口未监听 3. WAF到后端的连接失败 4. 超时(容易与 504 混淆) 5. 响应格式不合法,后端返回了一个 WAF 无法解析的响应(如不是标准的 HTTP 格式),响应的 Content-Length 与实际 body 长度不一致。 6.WAF回源配置中源站位置不可达 【WAF相关】 7.WAF keepalive超限 | 建议检查回源网络链路、回源链路中间的访问控制策略、源站处理资源负载、数据库等情况。检查源站是否拦截了WAF回源IP的请求。少量偶发的 502(比如发布期间的几秒钟)可以接受,但持续性或高比例的 502 必须立即处理。 | |
| status:503 | 服务器暂时无法处理请求,通常是因为过载、正在维护或后端主动拒绝服务。 | 【服务器相关】 1. 服务过载(最常见) 2. 主动限流/熔断(设计行为) 3. 正在维护/部署 4. 配置错误 5. 资源耗尽(系统层面) | 少量 503 在高峰期或发布期间可以接受(如限流触发的正常拒绝),但如果核心接口持续返回 503,说明系统容量不足或配置有问题,需要扩容或优化。对于限流返回的 503,建议在响应头中添加 Retry-After: 5 | |
| status:504 | 作为网关或代理的服务器(如 Nginx),在规定时间内没有从上游服务器(如应用服务器)收到响应。 | 【服务器相关】 1. 后端处理慢(最常见) 2. 超时配置过短 3. 后端资源瓶颈 4. 数据库问题 5. 依赖服务故障 6. 网络问题(少见,但可能) | 根据以下可能的原因进行排查: 检查WAF的回源IP网段是否有被拦截 服务器无法响应,负载过高。 源站丢弃请求没有reset。 协议通讯不成功。 |