添加客服微信
400 035 7887
一、AI 测试用例覆盖度评估
覆盖度分 4 个维度:需求覆盖、接口 / 代码覆盖、场景分类覆盖、风险覆盖。
1. 需求覆盖度(业务层面最核心)
计算公式
需求覆盖度 = AI 用例覆盖到的需求点数量 ÷ PRD 总需求点 × 100%
评估步骤
拆解 PRD,逐条梳理功能点、规则、分支逻辑、约束条件,形成需求清单;
逐条核对 AI 生成用例是否对应该需求;
标记:完全覆盖 / 部分覆盖 / 未覆盖 / AI 虚构需求;
判定标准
≥95%:优秀;80%~94%:合格;<80%:AI 生成不全,需补充人工用例
常见 AI 缺陷
遗漏分支逻辑、特殊业务约束、状态流转、多角色权限分支
2. 接口 / 字段覆盖度(接口自动化场景专用)
基于 Swagger/OpenAPI 文档统计
接口覆盖
接口覆盖率 = 有对应 AI 用例的接口数 ÷ 总接口数 ×100%
入参字段覆盖
字段覆盖率 = 被测试的请求参数 ÷ 所有入参(path/query/header/body)×100%
参数场景覆盖
每个参数是否覆盖:正常值、边界、空、非法格式、超长、特殊字符
示例
用户注册接口 phone 字段:AI 只测合法手机号,未测空、11 位以外、中文手机号 → 字段场景覆盖不达标
3. 场景分类覆盖率(校验 AI 是否兼顾各类测试类型)
固定 8 类标准场景池,统计 AI 产出各类场景占比:
1)正向正常流程 2)边界值 3)空 / 缺失参数 4)非法格式
5)业务异常分支 6)权限越权 7)安全注入(SQL/XSS) 8)并发 / 超时兼容
计算公式:场景覆盖完整度 = AI 实际产出场景类别数 ÷ 8 ×100%
低于 6 类:AI 严重漏测,提示词缺少约束;
8 类齐全才算达标。
4. 代码覆盖率(落地执行后验证)
把 AI 生成用例转化自动化脚本执行,通过 Jacoco/Pytest-cov 统计:
行覆盖率、分支覆盖率、条件覆盖率
作用:弥补 “纸面覆盖” 缺陷 ——AI 写了用例,但步骤逻辑错误,执行时走不到对应代码分支,纸面覆盖虚高。
5. 风险覆盖度
梳理模块风险清单(线上故障、历史缺陷、高危操作),统计 AI 用例覆盖高危风险比例;
如支付退款、资金修改、用户删除等高风险功能,必须独立用例覆盖。
二、AI 测试用例质量评估
分 5 大质量维度,支持打分制(0–5 分)。
维度 1:业务准确性(权重 30%,最高优先级)
检查项:
用例逻辑是否符合 PRD,无 AI 编造不存在业务;
前置条件、状态流转、业务规则无冲突;
角色权限、数据约束和真实系统一致;
扣分点:
AI 凭空新增业务逻辑、颠倒流程、错误理解业务规则、混淆字段含义。
维度 2:可执行性(权重 25%)
检查项:
前置条件完整、可复现;
测试数据明确(手机号、金额、ID、参数值,无 “随便填”);
操作步骤分步清晰,无模糊描述;
预期结果精准,可自动化断言,不出现 “页面正常显示” 这类模糊描述;
扣分点:
步骤笼统、无明确测试数据、预期结果无法校验、缺少环境 / 账号前置条件。
维度 3:唯一性与无冗余(权重 15%)
检查项:
不存在多条用例场景完全重复;
相似场景做差异化区分(边界 / 异常分开,不合并一条);
无无关场景混入当前模块;
扣分点:大量重复用例、一条用例混合多个独立场景,无法单独执行。
维度 4:断言有效性(权重 15%)
优质用例必须多层断言:
接口场景:状态码 + 业务 code + 返回字段 + 数据库数据;
UI 场景:页面文案、跳转、按钮状态、存储数据;
差质量:仅断言 “操作成功”,无具体校验点,无法发现隐性 bug。
维度 5:分层优先级合理性(权重 15%)
AI 是否正确区分 P0 核心流程 / P1 次要功能 / P2 边缘异常;
常见问题:把安全注入、边界异常标为 P0,主流程标记 P2,优先级错乱。
三、量化综合评分模型
总分 100 分,分为覆盖度分 50 + 质量分 50
覆盖度分项(合计 50)
需求覆盖度 20 分
8 大类场景完整度 15 分
接口 / 字段覆盖 10 分
风险场景覆盖 5 分
质量分项(合计 50)
业务准确 15
可执行性 12
无冗余重复 8
断言精准 8
优先级合理 7
评级标准:
≥90:优秀,少量微调即可入库;
70–89:合格,人工补充漏测场景、修正逻辑;
<70:不合格,AI 生成质量差,需优化提示词 / RAG 知识库后重新生成。
四、标准化人工核查清单
覆盖度检查
所有 PRD 功能点均有用例覆盖
所有接口入参都覆盖正常 / 边界 / 异常值
包含正向、边界、空值、非法、业务异常、权限、安全、并发 8 类场景
高风险操作独立设计用例
执行自动化后代码分支覆盖率≥80%
质量检查
无 AI 虚构业务逻辑,全部基于输入文档
每条用例前置条件完整可复现
测试数据明确、具体,无模糊占位
操作步骤分步清晰,顺序正确
预期结果可量化,具备明确断言点
无重复场景,单条用例只测一个独立场景
优先级 P0/P1/P2 划分符合业务风险
安全类用例包含注入、越权、伪造凭证等场景
五、常见 AI 生成用例问题 & 优化方案
纸面覆盖很高,但执行代码覆盖率低
原因:步骤逻辑错误、参数写死导致无法触发分支;
优化:用例评审后转自动化脚本执行,用代码覆盖率反向修正 AI 提示词。
只生成正向流程,缺少安全 / 边界场景
原因:提示词未强制要求 8 类场景;
优化:固定提示词强制输出安全、越权、注入类用例。
AI 自行编造业务规则,需求覆盖看似高但全部无效
原因:LLM 幻觉;
优化:接入 RAG 限制 AI 只能使用提供文档内容,禁止扩展业务;评审时逐条对照 PRD 校验。
用例颗粒度太大,一条用例混合多个场景
优化:提示词约束 “一条用例仅覆盖单一独立测试场景”。
六、企业级自动化评估方案
上传 PRD/OpenAPI,系统自动拆解需求点、接口字段;
AI 生成用例后,平台自动比对需求清单,输出需求覆盖率、接口字段覆盖率;
内置 8 类场景识别模型,自动统计场景完整度;
内置质量规则引擎,自动检测:模糊预期、重复用例、缺失测试数据、优先级错乱;
自动输出评估报告,标注漏测需求、低质量用例,支持一键重生成补充用例。
本文内容不用于商业目的,如涉及知识产权问题,请权利人联系SPASVO小编(021-60725088-8054),我们将立即处理,马上删除。