自从ChatGPT火爆以来,各种通用的大型模型层出不穷,GPT4、SAM等等,本周一Meta 又开源了新的语音模型MMS,这个模型号称反对4000多种语言,并且公布了反对1100种语言的预训练模型权重,最次要的是这个模型不仅反对ASR,还反对TTS,也就是说不仅能够语音转文字,还能够文字转语音。
因为以前对语音方面没有钻研,所以我就查阅了一下材料,世界上一共有 7,000 多种语言(我始终认为只有几百),目前的语音辨认技术目前仅能笼罩100多种,其实我感觉100多种曾经够用了,当然如果有非凡的钻研须要那要另说。
Facebook (Meta) AI 的最新大型多语言语音 (MMS) 我的项目能够为 1,100 多种语言提供语音转文本、文本转语音等性能。这是现有模型的 10 倍!它的官网blog上特地提到了Tatuyo 语,只有几百人在应用。这其实对于日常来说没什么用,然而对于钻研来说这是一个很好的例子,因为只有几百人如何找到并无效的提炼数据集呢?
Meta 与 OpenAI 的 Whisper 做了具体的比照,在数据上训练的模型实现了一半的单词错误率,并且训练数据更少:
能够看到它的训练数据只有45k 小时的标注数据,要比Whisper少10倍,而语言反对也多了10倍,这是一个大的进步。在blog中还特意提到了应用了 《圣经》这种流传宽泛,翻译语种多的内容作为数据集,我感觉这是一个很好方向。
MMS 我的项目还利用了 wav2vec 2.0 自监督语音示意学习技术的劣势。在 1,400 种语言的大概 500,000 小时的语音数据上进行自监督的训练,显著缩小了对标记数据的依赖。而后针对特定的语音工作对生成的模型进行微调,例如多语言语音辨认和语言辨认。
Whisper 的成果对于我来说就曾经十分好了,我也始终在应用他做为语言转文字的工具,如果MMS的成果更好,那对于咱们来说几乎太棒了,并且MMS还反对 language identification (LID) 也就说能够自动识别所说的语言,然而通过我的测试,这个对于反对这么多种语言的模型来说有一个致命的谬误,就是转录或谬误解释可能会导致触犯性或不精确的语言。
还记得大张伟吗,越是精确的模型越会出问题:
这种多语言语音模型的呈现使得语言障碍将被突破,来自寰球每个角落人们都能够通过声音失常的交换。还记得META烂尾的VR和AR利用吗,我感觉MMS应该是它们VR的一个子项目,VR烂尾很失常,然而这个MMS会为咱们带来更多的提高。
最初地址,外面有预训练模型下载和装置办法:
https://avoid.overfit.cn/post/b4e41042a2ee4a21a82e4a48f1061f05