关于人工智能:谷歌推出能讲会听的大语言模型AudioPaLM实现语音理解和生成

出品人：Towhee 技术团队

作者：顾梦佳

近日，谷歌推出了一个可能了解并生成语音了解的大型语言模型——AudioPaLM。这一模型交融了别离基于文本和语音两种语言模型——PaLM-2 和 AudioLM，造成了一个对立的多模态架构。该模型不仅能对文本进行解决，还能解决音频，实现多模态解决。另外，AudioPaLM 还同时继承了AudioLM 和PaLM-2的能力，比方保留语音信息（如谈话人身份和语调）以及文本大语言模型所独有的语言常识。

｜Speech-to-Speech Translation & Automatic Speech Recognition by AudioPaLM

AudioPaLM 可能模仿由文本和音频 token 组成的序列。模型采纳仅用解码器的Transformer构造来解决输出，将文本和音频作为任意整数序列，输出前进行分词，输入后再进行反分词。AudioPaLM 在解决音频数据时，首先从现有语音表征模型中提取向量，而后将这些向量离散化为一组无限的音频token，用于示意语音。联合该音频词汇表和一个用于示意文本的SentencePiece，模型构建了一个多模态词汇表。

因为 AudioPaLM 是基于 Transformer 模型的大语言模型，它能够应用根底的文本预训练模型来初始化权重，从而受害于 PaLM 或 PaLM 2 等模型的语言和常识常识。因为对立的多模态架构，AudioPaLM 可能应用间接映射或组合工作的形式来解决语音辨认、语音合成和语音翻译等问题。繁多工作包含主动语音辨认（ASR）、主动语音翻译（AST）、语音到语音翻译（S2ST）、文本到语音（TTS）和文本到文本机器翻译（MT）等。为了指定模型在给定输出上执行的工作，能够在输出前加上标签，指定工作和输出语言的英文名称，输入语言也能够抉择加上。例如，[ASR French]示意执行法语的主动语音辨认工作，[TTS English]示意执行英语的文本到语音工作，[S2ST English French]示意执行从英语到法语的语音到语音翻译工作，而组合工作的标签[ASR AST S2ST English French]示意顺次进行从英语到法语的主动语音辨认、主动语音翻译、语音到语音翻译。微调应用的数据集蕴含音频、音频的转录、音频的翻译、音频的翻译文本等。一个数据集能够用于多个工作，将同一数据集中的多个工作联合起来能够进步性能。

｜Top level experiment results of AudioPaLM

AudioPaLM 在语音翻译基准测试中展现了最先进的后果，并在语音辨认工作上体现出竞争性能。利用 AudioLM 的语音提醒，该模型还能够对未见过的讲话者进行 S2ST，超过现有办法，以主观和主观评估的形式掂量语音品质和声音放弃。另外，该模型展现了零样本迁徙的能力，能够应用训练中未曾呈现过的语音输入/目标语言组合进行 AST。

总的来说，AudioPaLM 是一款十分弱小的语音了解与生成的大型语言模型，可能解决和生成语音和文本，并且能够被利用于语音辨认和语音翻译等畛域。它为语音技术畛域的倒退带来了新的思路和冲破，将有助于大大提高语音了解和生成的准确性和效率，为人们的生存带来更多便当。另外，这一新技术的呈现也让机器更加“聪慧”、更加靠近人类。

相干材料：

论文链接：https://arxiv.org/abs/2306.12925
官网演示：https://google-research.github.io/seanet/audiopalm/examples/

🌟全托管 Milvus SaaS/PaaS 行将上线，由 Zilliz 原厂打造！笼罩阿里云、百度智能云、腾讯云、金山云。目前已反对申请试用，企业用户 PoC 申请或其余商务单干请分割 business@zilliz.com。

如果在应用 Milvus 或 Zilliz 产品有任何问题，可增加小助手微信 “zilliz-tech” 退出交换群。
欢送关注微信公众号“Zilliz”，理解最新资讯。

本文由mdnice多平台公布

关于人工智能:谷歌推出能讲会听的大语言模型AudioPaLM实现语音理解和生成

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于人工智能:谷歌推出能讲会听的大语言模型AudioPaLM实现语音理解和生成

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复