AI 测试资产与 Agent 执行
# AI 测试资产与 Agent 执行
Agent 接管重复执行,我专注意图构造与质量治理,陌生 AI 需求从一天压缩到两小时
商汤 AI 研究院的实验性项目,有时从点子到实现只有两三天时间。没有定稿的接口文档,没有流程图评审,产品经理在群里丢一段描述或者不需要介入,开发用 AI 辅助编码推进,测试当天就要给结论。这就是 AI 原生的研发速度。
传统测试模型在这里几乎失效。加班硬扛,临时加人,都不能完全解决问题。你今天通宵测完,明天接口已经变了;面对的是一段语音描述和一个正在变动的代码库,理解成本极高,而我们需要的是几小时内的结论。人力追不上 AI 时代的速度。
测试工作必须换个思路。人同时做设计和执行,执行速度就是天花板。我要把自己从执行层抽出来,做测试意图的构造者、Agent 执行的监督者、测试资产的沉淀者。Agent 跑重复执行,我做判断和治理,每次任务的产出成为下一次任务的起点。形成一个越转越快的飞轮。
# 第一步:构造 Agent 可理解的测试意图
没有接口文档,我就从代码、从产品经理的描述、从上一轮的执行日志里,提炼接口定义、输入边界、异常场景和计费规则,把它们结构化成 Agent 可读的资产。Agent 不需要理解业务,它只需要知道测什么、边界在哪、结果怎么存。
# 第二步:让 Agent 执行
把结构化任务交给 AI 工具(CloudCode / CodeX / OpenClaw),覆盖功能验证、边界探测、异常注入和计费对账。铁律只有一条:Agent 只负责执行,不负责判断。它必须保留完整的 request、response、trace、日志和中间证据,然后交给我审查。AI 产品里,HTTP 200 可能包裹着错误的模型输出,成功的响应可能隐藏着计费漏洞。
# 第三步:我做质量门禁
检查 Agent 的执行路径是否正确,复核结果的可信度,对模糊输出增加新的约束条件。AI 产品的输出带有概率性和不确定性,测试如果无人看管,跑得越快,埋得越深。
# 第四步:复盘并沉淀为可复用资产
每次任务结束后,把有效的 Prompt、成功的数据样本、踩过的坑、新增的约束规则,整理进团队的测试资产库。下一次遇到同类需求,Agent 站在上一轮任务的肩膀上启动。资产越厚,启动越快,我需要增加的约束越少。
# 结果
Agent 执行的测试越来越多,越来越快。一个陌生 AI 需求,一开始一整天,后来半天,再后来两三个小时。资产库在增厚,Agent 知道该怎么执行,我的监督成本在下降。我的角色也从手工执行者,变成了 AI 测试流程的设计者和治理者。时间花在判断风险、设计策略和沉淀规范上,而不是盯着屏幕等结果。
飞轮转起来之后,团队里其他人接同类需求的启动成本也在降低。以前一个新需求进来,所有人从零理解业务;现在先从资产库里找类似的 Prompt 和样本,调整边界条件就能跑。测试不再是每次迭代的刹车片,变成了与开发并行的管道。