AI 测试资产与 Agent 执行

# AI 测试资产与 Agent 执行

Agent 接管重复执行，我专注意图构造与质量治理，陌生 AI 需求从一天压缩到两小时

商汤 AI 研究院的实验性项目，有时从点子到实现只有两三天时间。没有定稿的接口文档，没有流程图评审，产品经理在群里丢一段描述或者不需要介入，开发用 AI 辅助编码推进，测试当天就要给结论。这就是 AI 原生的研发速度。

传统测试模型在这里几乎失效。加班硬扛，临时加人，都不能完全解决问题。你今天通宵测完，明天接口已经变了；面对的是一段语音描述和一个正在变动的代码库，理解成本极高，而我们需要的是几小时内的结论。人力追不上 AI 时代的速度。

测试工作必须换个思路。人同时做设计和执行，执行速度就是天花板。我要把自己从执行层抽出来，做测试意图的构造者、Agent 执行的监督者、测试资产的沉淀者。Agent 跑重复执行，我做判断和治理，每次任务的产出成为下一次任务的起点。形成一个越转越快的飞轮。

# 第一步：构造 Agent 可理解的测试意图

没有接口文档，我就从代码、从产品经理的描述、从上一轮的执行日志里，提炼接口定义、输入边界、异常场景和计费规则，把它们结构化成 Agent 可读的资产。Agent 不需要理解业务，它只需要知道测什么、边界在哪、结果怎么存。

# 第二步：让 Agent 执行

把结构化任务交给 AI 工具（CloudCode / CodeX / OpenClaw），覆盖功能验证、边界探测、异常注入和计费对账。铁律只有一条：Agent 只负责执行，不负责判断。它必须保留完整的 request、response、trace、日志和中间证据，然后交给我审查。AI 产品里，HTTP 200 可能包裹着错误的模型输出，成功的响应可能隐藏着计费漏洞。

# 第三步：我做质量门禁

检查 Agent 的执行路径是否正确，复核结果的可信度，对模糊输出增加新的约束条件。AI 产品的输出带有概率性和不确定性，测试如果无人看管，跑得越快，埋得越深。

# 第四步：复盘并沉淀为可复用资产

每次任务结束后，把有效的 Prompt、成功的数据样本、踩过的坑、新增的约束规则，整理进团队的测试资产库。下一次遇到同类需求，Agent 站在上一轮任务的肩膀上启动。资产越厚，启动越快，我需要增加的约束越少。

# 结果

Agent 执行的测试越来越多，越来越快。一个陌生 AI 需求，一开始一整天，后来半天，再后来两三个小时。资产库在增厚，Agent 知道该怎么执行，我的监督成本在下降。我的角色也从手工执行者，变成了 AI 测试流程的设计者和治理者。时间花在判断风险、设计策略和沉淀规范上，而不是盯着屏幕等结果。

飞轮转起来之后，团队里其他人接同类需求的启动成本也在降低。以前一个新需求进来，所有人从零理解业务；现在先从资产库里找类似的 Prompt 和样本，调整边界条件就能跑。测试不再是每次迭代的刹车片，变成了与开发并行的管道。

上次更新: 2026/05/06, 13:38:33