关于asr:微调用于多语言-ASR-的-MMS-适配器模型
新内容 (06/2023): 这篇博文受到 “在多语言 ASR 上微调 XLS-R” 的强烈启发,能够看作是它的改良版本。 Wav2Vec2 是主动语音辨认 (ASR) 的预训练模型,由 Alexei Baevski、Michael Auli 和 Alex Conneau 于 2020 年 9 月 公布。其在最风行的 ASR 英语数据集之一 LibriSpeech 上展现了 Wav2Vec2 的弱小性能后不久, Facebook AI 就推出了 Wav2Vec2 的两个多语言版本,称为 XLSR 和 XLM-R,可能辨认多达 128 种语言的语音。XLSR 代表 跨语言语音示意 ,指的是模型学习跨多种语言有用的语音示意的能力。 Meta AI 的最新版本,大规模多语言语音 (MMS),由 Vineel Pratap、Andros Tjandra、Bowen Shi 等人编写。将多语言语音示意晋升到一个新的程度。通过公布的各种 语言辨认、语音辨认和文本转语音检查点,能够辨认、转录和生成超过 1,100 多种书面语。 在这篇博文中,咱们展现了 MMS 的适配器训练如何在短短 10-20 分钟的微调后实现惊人的低单词错误率。 对于资源匮乏的语言,咱们 强烈 倡议应用 MMS 的适配器训练,而不是像 “在多语言 ASR 上微调 XLS-R” 中那样微调整个模型。 ...