Bull's blog Bull's blog
Resume
  • MBTI 人格测评
  • SBTI 沙雕人格测评
  • Tools Home
  • Testing Toolbox
  • 测试文件下载中心
  • 图片测试文件下载
  • 音频测试文件下载
  • 视频测试文件下载
  • 文档测试文件下载
  • Pinyin Dictation Sheet
  • English Word Daily
  • Paper Games
  • AI Podcast Generator
  • MiniMax Music
  • Work Notes
  • Categories
  • Tags
  • Archives

Bull

Resume
  • MBTI 人格测评
  • SBTI 沙雕人格测评
  • Tools Home
  • Testing Toolbox
  • 测试文件下载中心
  • 图片测试文件下载
  • 音频测试文件下载
  • 视频测试文件下载
  • 文档测试文件下载
  • Pinyin Dictation Sheet
  • English Word Daily
  • Paper Games
  • AI Podcast Generator
  • MiniMax Music
  • Work Notes
  • Categories
  • Tags
  • Archives

ASR 实时转写精度 Benchmark

← 返回简历

# ASR 实时转写精度 Benchmark

搭建 ASR(语音转文字)实时转写精度 Benchmark,把主观听译变成可重复的客观测评

多语言 ASR 实时识别项目的准确度测试工程化。接口功能已经跑通,但团队卡在一个更深层的问题:接口返回 200、能出文字,不等于转写准确。以前测精度靠人耳听,找懂日语的同事听一遍,凭感觉打分。标准随人变,模型升级后没法做回归对比。这种主观粗糙评判在 AI 时代已经不够用了。

我要搭建一套可重复的 ASR 实时转写精度 Benchmark,把主观听译变成客观工程流程。

收到需求的同时,我参考一篇 Hugging Face 的论文。没有等别人消化,我直接推动用 AI 快速复现这套框架,结合我们的中/日/英三语场景落地。

# 制备测试数据集

我从 Hugging Face 筛选三语语音样本和对应文本,制备测试数据集。按语种拆分指标:中文和日文共用一套,英文单独一套。

# 建立数据清洗规则

基础验证跑完,我发现论文是理想环境,我们的 ASR 输出带有很多噪声。中文多出空格和回车,英文大小写不统一,日文平假名片假名可能与原文写法不同。这些都不算识别错误,但如果不清洗,指标直接失真。

我针对三种语言分别建了清洗规则:

  • 中文:去空格换行
  • 英文:统一大小写
  • 日文:假名归一化

# LLM 二次审查与偏差分级

日文更复杂。光靠字符匹配不够,有些偏差不影响理解,有些则完全说反了。我引入 LLM 做二次审查,按严重程度分级:

  • 完全说错
  • 方向正确但漏信息
  • 描述不恰当但可理解

人工复核时,先看 LLM 标的高风险样本,不用全量听译。

# 固化标准流程

最后我把整个流程固化成标准动作:数据制备、清洗规则、分语种指标计算、LLM 分级审查、报告输出。每轮新 ASR 模型上线,同一批样本重新跑一遍,直接出精度对比。

# 结果

新模型上线当天就能拿到客观报告,知道三语精度变化,失败样本能定位到具体音频和转写片段。人工复核从全量听译压缩到按偏差等级优先审查。

上次更新: 2026/05/06, 13:38:33
最近更新
01
2026-04-21-music-generator
04-21
02
2026-04-21-music-generator-design
04-21
03
test-report
04-15
更多文章>
Theme by Vdoing | Copyright © 2018-2026 Evan Xu | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式