添加客服微信
400 035 7887
一、基础概念
事务响应时间 RT:一次完整业务的耗时(登录、下单等)
标准差 Std:衡量一批请求耗时稳不稳定
标准差小:大部分请求速度接近,系统平稳
标准差大:时快时慢,抖动严重,用户体验差
变异系数 CV = 标准差 ÷ 平均 RT
用来跨接口对比稳定性,消除平均耗时大小的影响
二、判断标准(CV)
CV<0.1:稳定,优秀
0.1≤CV<0.3:轻微波动,可接受
0.3≤CV<0.5:抖动明显,需要排查
CV≥0.5:波动严重,存在性能瓶颈
三、均值和标准差的区别
平均 RT:只看整体快慢,会掩盖卡顿的慢请求
标准差:看波动,同样平均耗时,标准差大的系统更容易出现用户卡顿
例:两组平均 100ms 的数据
A:90/100/110,标准差小,流畅;
B:10/100/190,标准差大,忽快忽慢。
四、标准差飙升常见原因
数据库:无索引、锁竞争、IO 波动
服务端:频繁 Full GC、线程 / 连接池争抢
缓存:冷热数据差距大,缓存穿透
网络:跨机房、瞬时限流、丢包重传
脚本问题:参数倾斜、混合不同业务、错误超时数据混入统计
五、标准差 & P95/P99 搭配使用
标准差大 + P99 很高:持续存在大量慢请求,资源瓶颈
标准差大 + P99 正常:偶尔瞬时毛刺(单次 GC、网络抖动)
标准差小 + P99 偏高:大部分请求稳定,但固定有一批慢查询
六、实操使用要点
压测报告不能只看平均耗时,必须看:平均 RT + 标准差 + CV+P99
数据先清洗:剔除报错、超时的失败事务,分开统计查询 / 提交 / 导出接口
分层定位:网关、应用、Redis、MySQL 分别计算标准差,找到抖动源头
前后对比基线,用 CV 判断优化是否生效
线上监控告警:普通业务 CV>0.25 预警,批量报表接口可放宽阈值
七、常见误区
只看平均 RT,忽略波动,容易漏掉线上卡顿隐患
直接对比标准差数值,不看 CV:耗时 10ms、标准差 5ms 很差;耗时 1000ms、标准差 100ms 很稳定
样本太少(少于 1000 条),标准差数据不准,无参考意义
所有接口统一一套标准:批量导出类接口天然波动大,标准要放宽
八、总结
标准差核心作用:弥补平均响应时间的缺陷,直观反映系统稳定性;分析时配合变异系数、百分位,分层排查,就能快速定位抖动瓶颈。
本文内容不用于商业目的,如涉及知识产权问题,请权利人联系SPASVO小编(021-60725088-8054),我们将立即处理,马上删除。