自从 ChatGPT 火爆以来,各种通用的大型模型层出不穷,GPT4、SAM 等等,本周一 Meta 又开源了新的语音模型 MMS,这个模型号称反对 4000 多种语言,并且公布了反对 1100 种语言的预训练模型权重,最次要的是这个模型不仅反对 ASR,还反对 TTS,也就是说不仅能够语音转文字,还能够文字转语音。
因为以前对语音方面没有钻研,所以我就查阅了一下材料,世界上一共有 7,000 多种语言(我始终认为只有几百),目前的语音辨认技术目前仅能笼罩 100 多种,其实我感觉 100 多种曾经够用了,当然如果有非凡的钻研须要那要另说。
Facebook(Meta)AI 的最新大型多语言语音 (MMS) 我的项目能够为 1,100 多种语言提供语音转文本、文本转语音等性能。这是现有模型的 10 倍!它的官网 blog 上特地提到了 Tatuyo 语,只有几百人在应用。这其实对于日常来说没什么用,然而对于钻研来说这是一个很好的例子,因为只有几百人如何找到并无效的提炼数据集呢?
Meta 与 OpenAI 的 Whisper 做了具体的比照,在数据上训练的模型实现了一半的单词错误率,并且训练数据更少:
能够看到它的训练数据只有 45k 小时的标注数据,要比 Whisper 少 10 倍,而语言反对也多了 10 倍,这是一个大的进步。在 blog 中还特意提到了应用了《圣经》这种流传宽泛,翻译语种多的内容作为数据集,我感觉这是一个很好方向。
MMS 我的项目还利用了 wav2vec 2.0 自监督语音示意学习技术的劣势。在 1,400 种语言的大概 500,000 小时的语音数据上进行自监督的训练,显著缩小了对标记数据的依赖。而后针对特定的语音工作对生成的模型进行微调,例如多语言语音辨认和语言辨认。
Whisper 的成果对于我来说就曾经十分好了,我也始终在应用他做为语言转文字的工具,如果 MMS 的成果更好,那对于咱们来说几乎太棒了,并且 MMS 还反对 language identification (LID) 也就说能够自动识别所说的语言,然而通过我的测试,这个对于反对这么多种语言的模型来说有一个致命的谬误,就是转录或谬误解释可能会导致触犯性或不精确的语言。
还记得大张伟吗, 越是精确的模型越会出问题:
这种多语言语音模型的呈现使得语言障碍将被突破,来自寰球每个角落人们都能够通过声音失常的交换。还记得 META 烂尾的 VR 和 AR 利用吗,我感觉 MMS 应该是它们 VR 的一个子项目,VR 烂尾很失常,然而这个 MMS 会为咱们带来更多的提高。
最初地址, 外面有预训练模型下载和装置办法:
https://avoid.overfit.cn/post/b4e41042a2ee4a21a82e4a48f1061f05