关于语音合成:语音合成TTS技术在有道词典笔中的应用实践

自 2017 年 10 月推出有道翻译蛋开始，网易有道已先后推出了二十余款智能学习硬件产品，包含有道翻译王、有道口袋打印机、有道超级词典、有道词典笔、有道听力宝等。

其中，有道词典笔创始了智能词典笔品类，间断两年获天猫、京东销量第一，并广受用户好评。

在近期有道词典笔的全新软件降级中（关联浏览：全新软件降级！真的很有料），有 两个重要的优化，别离是：

发音靠近真人，辞别机械式

发音准确度晋升，正确朗诵多音词

首先，咱们进一步降级了发音零碎，使中英发音尽可能靠近真人。

为了给用户带来更好的体验，有道 AI 团队选取了多种真人发音素材，从来自公司外部、实在用户和 native speakers 等人群中选取足够大的样本发放考察问卷，从 发音准确度、音色青睐度 等方面进行打分，并和业余的发音进行比拟，最终选取了目前版本中的音色。

一个彩蛋

在咱们选取的发音中，不乏一些 明星语音，小伙伴们能够猜猜她是谁？

Who is she？（01）

Who is she？（02）

（答案在文末揭晓）

在语言学习场景中，机械式的发音不仅让人感觉枯燥乏味，而且会影响书面语学习的成果。最天然、最现实的交互 莫过于通过人的声音进行交换。如何让智能学习硬件的发音靠近真人，是一个重要的课题。

中文：

机械式发音 – 中文

有道有限靠近真人发音 – 中文

英文：

机械式发音 – 英文

有道有限靠近真人发音 – 英文

同时，通过有道 AI 团队对语言模型的一直训练，有道词典笔的发音准确度再一次失去冲破，在扫描句子的过程中，有道词典笔能够疾速预判语义，轻松读对一些英语学习者和 AI 都非常容易读错的单词，比方「多音词」。

以蕴含“read 过来式”的句子为例，咱们来听听有道词典笔的发音和传统机械式发音：

She picked up the letter and read it.

她拿起信读了起来。

在本句中，动词 read 是过来式，应读作 /red/。

传统计划 – 误读多音词

有道 – 精准朗诵多音词

这些能力的背地，是 有道 TTS 语音合成技术 的加持。本文将会具体介绍有道 TTS 技术的相干思考和实际。

有道 TTS 语音合成技术建模流程包含 文本剖析模块、声学模型模块和声码器模块。

文本剖析前端的次要作用是将语句转换为语言学特色，次要 是音素序列 和韵律特色, 其中音素序列决定 TTS 是否正确读对了文本；韵律特色决定 TTS 的进展地位、天然度等，这也是有道 TTS 技术可能实现靠近真人发音和正确朗诵多音词的关键所在。

传统的文本剖析模块会独自建模每个工作，并且串行解决效率较低，这种做法在嵌入式场景中难以实现性能和品质的均衡，多个工作拆散也会进步零碎的保护老本。

相比于传统计划，有道 AI 团队基于 BERT 预训练模型进行了多任务建模，将多个工作进行对立建模，大大提高了效率。

这些优化可能反对 TTS 前端的文本正则化、多音字判断、韵律预测等工作，使有道零碎可能在设施端合成 低发音谬误、韵律天然和感情丰富 的高质量语音。

有道词典笔场景 TTS 前端也面临一些挑战：

满足靠近 100% 发音准确率要求；在中文、英文里，大量的多音字、多音词是影响发音准确率的关键所在，而且对于有道词典笔教育场景，古诗词、文言文正确读法也须要全量笼罩.

韵律特色建模，满足 TTS 合成进展天然、语义清晰需要。

词典笔设施资源无限，在满足上述两点品质的同时，还须要达到性能需求。

基于这些问题，咱们次要做了以下几个方面的工作，别离是 资源收集、模型试验、系统集成：

资源收集 ：在资源收集阶段，借助有道独有教研资源，搜集整理多音字表，
联合词性、词义等细化多音字模型标签，使得建模更高效；在中文古诗词、文言文发音上，通过 ssml 技术将词典笔海量权威发音词典资源利用到 TTS 发音中；

模型试验 ：在模型试验阶段，前端蕴含有多音字、韵律预测、分词、词性预测等这些工作，
通过构建 bert 多任务模型，联结预测多音字、韵律、分词、词性工作，多个工作之互相促进不仅了晋升多音字模型和韵律模型的准确率，同时也节俭了参数量；最初通过蒸馏技术，小参数量多任务模型在保证质量的同时，也达到嵌入式性能要求；

系统集成: 在系统集成阶段，工程化团队通过自研 bert pipeline 技术，更进一步优化了内存和推理工夫；

通过这些方面的工作，最终推出了 基于预训练模型的多任务架构 TTS 中英混前端，保障了 TTS 合成的发音正确性和韵律进展。

声学模型的次要作用是将语言学特色转换为对应的声学特色。常见的神经网络声学模型大抵能够分成两大类：
一是自回归声学模型：比方 Tacotron、Tacotron2，长处是高天然度，毛病是性能较差；基于 attention 的自回归声学模型难以建模长语音，更容易呈现丢字、反复的景象。

二是非自回归声学模型：比方 Fastspeech、Fastspeech2，长处是并行生成声学特色，性能好，对长句建模足够鲁棒；毛病是韵律建模略差于自回归声学模型。

综合品质和性能，有道 AI 团队最终抉择了 基于 VAE 的非自回归声学模型。起因在于它有以下劣势：

在鲁棒性方面：好于 Tacotron2；

在性能方面：和 Fastspeech 一样快，快于 Tacotron2；

在品质方面：靠近 Tacotron2，相比 Fastspeech 更易于训练。

同时，咱们针对 一部分算子的计算耗时占总时长比例较大的 问题进行了工程上的优化，进一步改善了零碎整体的实时率。
另外，还对模型进行了量化，升高了模型的内存。

声码器的作用是将声学模型输入的声学特色转换成语音时域信号。它间接影响着合成语音的音质，因而对于用户体验来说至关重要。
在有道智能硬件产品理论落地开发中，声码器技术的研发面临着几大难点问题：

一是音质问题。声码器模型的建模能力有余，会间接导致合成语音产生底噪或者电音。但如果仅仅只是单纯地加大模型的参数，则会影响零碎的推理速度。

二是性能问题。声码器的计算量在语音合成的整个框架中占比拟大。要在嵌入式场景中合成高质量的语音，须要一个足够大、建模能力足够强的声码器模型。

但因为设施芯片的算力弱、内存小，大的声码器会导致体验延时显著回升。从用户的角度登程，延时过长，用户等待时间过久，天然不会有好的体验成果。

为了解决以上难题，通过大量试验和综合比对，最终有道 AI 团队抉择了基于 GAN 计划的声码器。

任何学术上的计划要实现成工业界的产品，都须要进行大量的试验和打磨。

首先是针对不同场景应用不同的模型配置，有道 AI 团队对 GAN 声码器中的生成器模块进行了参数的粗疏调整，让它可能胜利利用在嵌入式场景下，不同于传统参数声码器的机械感与含糊感，基于 GAN 的神经网络声码器能够合成高天然度、高清晰度的音频，缩短了离线 TTS 和在线 TTS 品质上的差距。

此外，咱们还在模型的量化、压缩方面做了大量的工作，大大晋升了语音合成的速度，明显降低了零碎的资源占用。

在智能硬件产品人机交互中，语音合成技术扮演着十分重要的角色，但在落地中面临着很多挑战，其外围是硬件计算资源与合成语音品质之间的矛盾。

如何更快地、更稳固地在无限资源下提供高质量的语音合成技术是有道 AI 团队的指标和关注的重点。

目前，有道 TTS 语音合成技术已利用在许多外部和内部的在线场景和嵌入式场景，并体现出了绝对传统计划更加稳固、更加鲁棒的合成成果。

— END —

彩蛋答案

关于语音合成:语音合成TTS技术在有道词典笔中的应用实践

1. 背景介绍

利用成果：

2. 有道 TTS 语音合成技术

2.1 基于开源 BERT 多任务的对立 TTS 文本剖析前端

2.2 非自回归的 VAE 声学模型

2.3 基于 GAN 的声码器

3. 总结