ASR 实时转写精度 Benchmark
# ASR 实时转写精度 Benchmark
搭建 ASR(语音转文字)实时转写精度 Benchmark,把主观听译变成可重复的客观测评
多语言 ASR 实时识别项目的准确度测试工程化。接口功能已经跑通,但团队卡在一个更深层的问题:接口返回 200、能出文字,不等于转写准确。以前测精度靠人耳听,找懂日语的同事听一遍,凭感觉打分。标准随人变,模型升级后没法做回归对比。这种主观粗糙评判在 AI 时代已经不够用了。
我要搭建一套可重复的 ASR 实时转写精度 Benchmark,把主观听译变成客观工程流程。
收到需求的同时,我参考一篇 Hugging Face 的论文。没有等别人消化,我直接推动用 AI 快速复现这套框架,结合我们的中/日/英三语场景落地。
# 制备测试数据集
我从 Hugging Face 筛选三语语音样本和对应文本,制备测试数据集。按语种拆分指标:中文和日文共用一套,英文单独一套。
# 建立数据清洗规则
基础验证跑完,我发现论文是理想环境,我们的 ASR 输出带有很多噪声。中文多出空格和回车,英文大小写不统一,日文平假名片假名可能与原文写法不同。这些都不算识别错误,但如果不清洗,指标直接失真。
我针对三种语言分别建了清洗规则:
- 中文:去空格换行
- 英文:统一大小写
- 日文:假名归一化
# LLM 二次审查与偏差分级
日文更复杂。光靠字符匹配不够,有些偏差不影响理解,有些则完全说反了。我引入 LLM 做二次审查,按严重程度分级:
- 完全说错
- 方向正确但漏信息
- 描述不恰当但可理解
人工复核时,先看 LLM 标的高风险样本,不用全量听译。
# 固化标准流程
最后我把整个流程固化成标准动作:数据制备、清洗规则、分语种指标计算、LLM 分级审查、报告输出。每轮新 ASR 模型上线,同一批样本重新跑一遍,直接出精度对比。
# 结果
新模型上线当天就能拿到客观报告,知道三语精度变化,失败样本能定位到具体音频和转写片段。人工复核从全量听译压缩到按偏差等级优先审查。
上次更新: 2026/05/06, 13:38:33