关于人工智能:谷歌推出能讲会听的大语言模型AudioPaLM实现语音理解和生成

42次阅读

共计 1646 个字符,预计需要花费 5 分钟才能阅读完成。

出品人:Towhee 技术团队

作者:顾梦佳

近日,谷歌推出了一个可能了解并生成语音了解的大型语言模型——AudioPaLM。这一模型交融了别离基于文本和语音两种语言模型——PaLM-2 和 AudioLM,造成了一个对立的多模态架构。该模型不仅能对文本进行解决,还能解决音频,实现多模态解决。另外,AudioPaLM 还同时继承了 AudioLM 和 PaLM- 2 的能力,比方保留语音信息(如谈话人身份和语调)以及文本大语言模型所独有的语言常识。

|Speech-to-Speech Translation & Automatic Speech Recognition by AudioPaLM

AudioPaLM 可能模仿由文本和音频 token 组成的序列。模型采纳仅用解码器的 Transformer 构造来解决输出,将文本和音频作为任意整数序列,输出前进行分词,输入后再进行反分词。AudioPaLM 在解决音频数据时,首先从现有语音表征模型中提取向量,而后将这些向量离散化为一组无限的音频 token,用于示意语音。联合该音频词汇表和一个用于示意文本的 SentencePiece,模型构建了一个多模态词汇表。

因为 AudioPaLM 是基于 Transformer 模型的大语言模型,它能够应用根底的文本预训练模型来初始化权重,从而受害于 PaLM 或 PaLM 2 等模型的语言和常识常识。因为对立的多模态架构,AudioPaLM 可能应用间接映射或组合工作的形式来解决语音辨认、语音合成和语音翻译等问题。繁多工作包含主动语音辨认(ASR)、主动语音翻译(AST)、语音到语音翻译(S2ST)、文本到语音(TTS)和文本到文本机器翻译(MT)等。为了指定模型在给定输出上执行的工作,能够在输出前加上标签,指定工作和输出语言的英文名称,输入语言也能够抉择加上。例如,[ASR French]示意执行法语的主动语音辨认工作,[TTS English]示意执行英语的文本到语音工作,[S2ST English French]示意执行从英语到法语的语音到语音翻译工作,而组合工作的标签 [ASR AST S2ST English French] 示意顺次进行从英语到法语的主动语音辨认、主动语音翻译、语音到语音翻译。微调应用的数据集蕴含音频、音频的转录、音频的翻译、音频的翻译文本等。一个数据集能够用于多个工作,将同一数据集中的多个工作联合起来能够进步性能。

|Top level experiment results of AudioPaLM

AudioPaLM 在语音翻译基准测试中展现了最先进的后果,并在语音辨认工作上体现出竞争性能。利用 AudioLM 的语音提醒,该模型还能够对未见过的讲话者进行 S2ST,超过现有办法,以主观和主观评估的形式掂量语音品质和声音放弃。另外,该模型展现了零样本迁徙的能力,能够应用训练中未曾呈现过的语音输入 / 目标语言组合进行 AST。

总的来说,AudioPaLM 是一款十分弱小的语音了解与生成的大型语言模型,可能解决和生成语音和文本,并且能够被利用于语音辨认和语音翻译等畛域。它为语音技术畛域的倒退带来了新的思路和冲破,将有助于大大提高语音了解和生成的准确性和效率,为人们的生存带来更多便当。另外,这一新技术的呈现也让机器更加“聪慧”、更加靠近人类。

相干材料:

  • 论文链接:https://arxiv.org/abs/2306.12925
  • 官网演示:https://google-research.github.io/seanet/audiopalm/examples/

🌟全托管 Milvus SaaS/PaaS 行将上线,由 Zilliz 原厂打造!笼罩阿里云、百度智能云、腾讯云、金山云。目前已反对申请试用,企业用户 PoC 申请或其余商务单干请分割 business@zilliz.com。


  • 如果在应用 Milvus 或 Zilliz 产品有任何问题,可增加小助手微信“zilliz-tech”退出交换群。
  • 欢送关注微信公众号“Zilliz”,理解最新资讯。

本文由 mdnice 多平台公布

正文完
 0