关于语音:火山语音7篇论文入选国际顶会Interspeech

日前，火山语音团队七篇论文胜利入选国内顶会 Interspeech2022，内容涵盖音频合成、音频了解等多个技术方向的翻新冲破。Interspeech 作为国内语音通信协会 ISCA 组织的语音钻研畛域的顶级会议之一，也被称为寰球最大的综合性语音信号处理盛会，在世界范畴内享有极高名誉，并受到寰球各地语言畛域人士的宽泛关注。上面咱们就入选论文进行全面解读，一起理解火山语音技术的重要停顿吧！
音频合成方向——
●针对语音合成有声书的自动化配乐零碎
An Automatic Soundtracking System for Text-to-Speech Audiobooks

通常在有声小说中，合适的背景音乐能够大幅晋升听感，加强用户的沉迷式体验。该论文独创性提出了基于篇章级情节了解的有声小说配乐零碎，可能自动化地筛选并组合出贴合文章情节、衬托感情气氛的背景音乐，同时与语音合成的有声小说音频进行精准的工夫戳对齐和混音，极大节俭了前期配乐的人力投入。

具体来说该零碎能够分为情节划分 (Plot Partition)、情节分类(Plot Classification) 和音乐抉择(Novel Selection) 三个局部。前两局部次要通过 NLP 技术实现了篇章级语意了解，可能主动将小说文本进行片段式的情节划分， 做到预测多达十二类的情节 ；第三局部则实现了基于语意及小说音频长度的启发式规定，自动化地从音乐库中抉择适合的音乐片段并与小说音频进行主动混音。 该零碎在与人工配乐的比照试验中，目前的合格率已追平人工程度（均为 88.75%）；优秀率也高达 45%，但比照人工 52.5% 的数据指标还略有差距。

有声小说自动化配乐零碎框架

在语音合成有声小说的场景和业务中，自动化精配背景音乐的退出不仅可能大幅度晋升用户的听觉感触和代入感，还极大升高了音频前期的人力投入老本。目前，自动化精配背景音乐曾经在番茄小说等业务中开始利用。

●一种借助声学参考特色和比照学习的高品质歌唱转换方法
TOWARDS HIGH-FIDELITY SINGING VOICE CONVERSION WITH ACOUSTIC REFERENCE AND CONTRASTIVE PREDICTIVE CODING

近年来随同语音后验概率（Phonetic PosteriorGrams，PPG）特色的宽泛应用，语音转换成果获得了显著晋升，但 PPG 特色在声学信息上的缺失导致了在格调和天然度方面的转换成果并不尽如人意，尤其对于「歌唱」这种对声学表现力极高要求的场景。

基于上述考量，本篇论文在端到端歌唱转换模型的根底上，一方面尝试应用了梅尔谱、无监督声学表征和语音辨认模型中间层表征等多种附加特色来补足歌唱转换模型对声学信息的需要，同时确保音色成果不受影响，最终通过比照明确了无监督声学表征的成果劣势。

另一方面，针对转换模型的编码器输入后果，团队抉择减少一个比照预测编码（Contrastive Predictive Coding，CPC）模块以进步编码后果的连贯性，加强模型对声学信息的建模能力。通过与根底模型的主观评测比照，团队提出的优化计划取得了显著收益，主观评测 MOS 分晋升了 0.18；同时该办法也被证实能够晋升语音音色的歌唱能力，音准主观指标晋升了 6%，达到较好的跨域转换成果。

联合附加声学特色和 CPC 模块的歌唱转换零碎框架

现在语音转换和歌唱转换已在视频和歌曲创作方面有相干的利用，而论文提出的办法能够进一步晋升直播场景以及视频创作中的语音转换和歌唱转换的天然度，晋升用户体验的同时升高创作门槛。

音频了解方向——
●联合对话上下文的流式 RNN-T 语音辨认
Bring dialogue-context into RNN-T for streaming ASR

日常生活中，人们说出的语音内容通常与所处的上下文（context）相干，而在对话工作中，凭借历史轮次的对话文本所蕴含的与以后句无关的信息，能够晋升语音辨认成果。基于此，该论文提出将对话历史作为 context 输出到流式 RNN- T 模型中，总结出几种不同的引入对话历史的办法和训练策略，最终取得了比单句 ASR 晋升 5%+ 的辨认成果。

（a）根底 RNN-T 构造（b）引入对话历史到 predictor 的构造（c）引入对话历史到 encoder 的构造

首先针对 RNN- T 的构造特点，论文提出将对话历史更早地引入到 RNN-T 的 predictor（上图(b)）和 encoder（上图(c)），从而能够更充沛地将对话历史信息融入到 RNN-T 模型中。其次论文提出了两种训练策略：有 / 无对话历史输出模型的联结训练（joint training）和对话历史增加随机扰动（context perturbation）。Joint training 策略升高了模型在对话历史缺失状况下的性能损失，而 context perturbation 则解决了对话历史含有的辨认谬误对 context-aware ASR 模型的烦扰。最初论文通过在神经网络语言模型（neural network language model，NNLM）中引入对话历史，来取得更好的语言模型，并用于 beam-search 解码，进一步晋升辨认成果。

在 Switchboard-2000h 的公开数据中，采纳论文办法引入对话历史，将基于 RNN- T 的语音识别系统的性能在两个测试集上绝对晋升了 4.8% / 6.0%（无语言模型的状况下）和 10.6% / 7.8%（有语言模型的状况下）。

●基于间断整合发放机制的交融谈话人差别和语音内容的字级别谈话人转换点检测
Token-level Speaker Change Detection Using Speaker Difference and Speech Content via Continuous Integrate-and-fire

谈话人转换点检测（Speaker Change Detection, SCD）工作经常作为谈话人分聚类子工作或者语音辨认（Automatic Speech Recognition，ASR）模型的前端模块被研究者人员所理解。目前该畛域提出的大部分解决方案都只利用了谈话人特色的差别，而疏忽了语音内容能够在 SCD 工作中发挥作用这一方向。

基于此，火山语音团队提出一种综合思考“谈话人差别”与“语音内容”两条线索的谈话人转换点检测办法，次要通过间断整合发放机制（Continuous Integrate-and-fire，CIF）来达成。目前该形式可能获取到字级别的谈话人差别和语音内容，在同样的示意粒度上交融了两局部线索之后，就能够在字的声学边界处胜利进行谈话人转换点的判断。

基于 CIF 的交融两条线索的字级别谈话人转换点检测计划

在实在录制的会议数据集 AISHELL- 4 上，基于该办法提出的计划相比于目前比拟有竞争力的基线办法，取得了相对 2.45% 的等纯度覆盖度（Equal Purity Coverage，EPC）晋升。

同时也通过试验证实“谈话人差别”与“语音内容”都能作为谈话人转换点判断的线索应用，而且同时应用两条线索才是目前最优的计划。此外，该办法所提出的在字符的声学边界处进行谈话人转换点检测，相比于逐帧进行检测更具劣势，做到间接解决多谈话人的语音并输入字序列以及谈话人转换的地位。利用场景上，实用于多人参加且疾速交替对话的场景，例如会议等语音场景。

●留神机制编解码器端到端语音辨认模型中基于上下文矢量学习的外部语言模型预计
Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-decoder ASR (https://arxiv.org/abs/2201.11627)

目前，端到端语音辨认模型建模曾经成为语音界支流建模办法，其显著长处在于建模操作简略、所建模型性能突出且致密，即无需对字典、声学模型和语言模型独自建模，而是将三者合而为一。换言之，端到端语音辨认模型既具备声学模型性能，又具备语言模型性能。

但这种致密性在肯定条件下会给模型的适用性和灵活性带来不利影响。譬如端到端辨认模型和语言模型之间的交融不再满足传统的贝叶斯后验概率原理，而是一个后验概率和条件概率的相加。当具备这样的条件，如更多的文本语料以及将模型自适应到某一特定畛域辨认的时候，传统的端到端辨认模型和语言模型的交融只能带来次优的后果，使模型优越性不能失去充分发挥。

对于此，论文基于贝叶斯后验概率原理，将端到端预计的后验概率拆解成似然概率和“外部语言模型”概率乘积模式，指标是更好地预计“外部语言模型”，从而让模型更高效地与内部语言模型交融，进而提出两个“外部语言模型”的预计办法，别离是一次性动态上下文矢量学习办法以及基于轻量级神经网络动静上下文矢量学习办法，两种预计办法无需任何额定假如，在多种语料以及多种环境下验证了提出办法的有效性。在跨域条件下绝对传统的语言模型交融办法，咱们提出的办法能获得 19.05% 绝对正向收益；在域内条件下，新办法也能获得 7.4% 的正向收益。

●应用原始序列流畅度特色晋升书面语流畅度打分性能
Using Fluency Representation Learned from Sequential Raw Features for Improving Non-native Fluency Scoring

对于英语口语学习者而言，除了发音规范之外，流畅水平也能够在某种程度上反映学习者的英语水平。作为评估学习者英语能力的重要维度之一，书面语流畅度次要反映了学习者发音语速的快慢以及是否出现异常进展等发音景象。

●对此火山语音团队提出了一种基于原始序列特色的英语口语流畅度建模办法，利用原始序列特色来替换传统的手工设计特色，如语速，进展次数等，即在音素层级提取出音素时长以及声学特色并对其进行建模；此外还将静音作为一种非凡音素，用于表征词和词之间的进展景象。

a. 原始序列特征提取 b. 流畅度建模

这种基于原始特色序列建模办法超过了畛域内其余计划, 在机器预测后果和人类专家打分之间相关性达了 0.817，靠近专家和专家之间的相关性 0.831。该计划将原始时长、进展和声学信息交融到一个序列建模框架中，让机器主动去学习和工作相干的流畅度特色，更好用于流畅度打分。利用场景方面，该办法可被利用于有流畅度主动评估的需要场景中，例如书面语考试以及各种在线书面语练习等。

●基于多任务和迁徙学习办法的 MOS 主动打分
A Multi-Task and Transfer Learning based Approach for MOS Prediction

语音品质是反映语音合成 (Text-To-Speech, TTS)、语音转换(Voice Conversion, VC) 等零碎性能的次要指标；而 MOS(Mean Opinion Score)则是标注人员对合成音频进行听力测试后，针对该音频的语音品质进行的主观评估分数。在 Interspeech 2022 语音品质打分挑战 (VoiceMOS) 中，火山语音团队在主畛域赛道斩获第四名。

针对两种畛域赛道，火山语音团队提出了一种多任务学习办法，利用较多的主畛域数据来帮助子畛域局部模块训练，同时将主动语音辨认 (Automatic Speech Recognition, ASR) 的常识迁徙到 MOS 打分工作。在 wav2vec2.0 上构建 ASR 零碎，而后将零碎 wav2vec2.0 局部作为 MOS 打分模型的编码器，通过两种不同畛域的解码器来对不同畛域的数据进行 MOS 评分。

多任务的 MOS 打分构造

针对不同语音转换 (VC) 零碎的合成音频打分工作，上述计划在主畛域测试集上，SRCC 指标和该较量中最好的计划相差 0.3%；在子畛域测试集上，SRCC 指标与该较量中最好的计划相差 0.2%。MOS 主动打分的指标是利用机器对合成音频主动打分来替换掉标注人员的人工评分，节约大量人力物力，达到省时省钱的成果，这对于推动语音合成 (TTS) 和语音转换 (VC) 的技术倒退具备重要意义。

对于火山语音团队

火山语音，字节跳动 AI Lab Speech & Audio 智能语音与音频团队。始终以来面向字节跳动外部各业务线以及火山引擎 ToB 行业与翻新场景，提供寰球当先的语音 AI 技术能力以及卓越的全栈语音产品解决方案。自 2017 年成立以来，团队专一研发行业当先的 AI 智能语音技术，一直摸索 AI 与业务场景的高效联合，以实现更大的用户价值。