关于语音合成:语音合成TTS技术在有道词典笔中的应用实践

1. 背景介绍自 2017 年 10 月推出有道翻译蛋开始,网易有道已先后推出了二十余款智能学习硬件产品,包含有道翻译王、有道口袋打印机、有道超级词典、有道词典笔、有道听力宝等。 其中,有道词典笔创始了智能词典笔品类,间断两年获天猫、京东销量第一,并广受用户好评。 在近期有道词典笔的全新软件降级中(关联浏览:全新软件降级!真的很有料),有两个重要的优化,别离是: 发音靠近真人,辞别机械式 发音准确度晋升,正确朗诵多音词 利用成果:首先,咱们进一步降级了发音零碎,使中英发音尽可能靠近真人。 为了给用户带来更好的体验,有道 AI 团队选取了多种真人发音素材,从来自公司外部、实在用户和 native speakers 等人群中选取足够大的样本发放考察问卷,从发音准确度、音色青睐度等方面进行打分,并和业余的发音进行比拟,最终选取了目前版本中的音色。 一个彩蛋 在咱们选取的发音中,不乏一些明星语音,小伙伴们能够猜猜她是谁? Who is she?(01) Who is she?(02) (答案在文末揭晓) 在语言学习场景中,机械式的发音不仅让人感觉枯燥乏味,而且会影响书面语学习的成果。最天然、最现实的交互莫过于通过人的声音进行交换。如何让智能学习硬件的发音靠近真人,是一个重要的课题。 中文: 机械式发音 - 中文 有道有限靠近真人发音 - 中文 英文: 机械式发音 - 英文 有道有限靠近真人发音 - 英文 同时,通过有道 AI 团队对语言模型的一直训练,有道词典笔的发音准确度再一次失去冲破,在扫描句子的过程中,有道词典笔能够疾速预判语义,轻松读对一些英语学习者和 AI 都非常容易读错的单词,比方「多音词」。 以蕴含“read过来式”的句子为例,咱们来听听有道词典笔的发音和传统机械式发音: She picked up the letter and read it. 她拿起信读了起来。 在本句中,动词 read 是过来式,应读作/red/。 传统计划 - 误读多音词 有道 - 精准朗诵多音词 这些能力的背地,是有道 TTS 语音合成技术的加持。本文将会具体介绍有道 TTS 技术的相干思考和实际。 ...

December 20, 2021 · 1 min · jiezi

关于语音合成:为奥运喝彩百度智能云联合央视体育客户端打造奥运播报新体验

东京奥运落幕,本届中国代表团取得了38金32银18铜的好问题,金牌数追平了加入境外奥运会的最佳战绩!此次奥运会期间,基于百度大脑当先的语音技术,百度智能云助力央视体育客户端,携手为用户带来真人般的语音播报,打造奥运赛事新体验。 作为奥运会赛事新闻的重要平台,央视体育客户端除了图文展现奖牌信息外,本届奥运会期间新增的智能语音播报模式更是备受用户好评。这背地离不开百度智能云的技术支持,央视体育客户端携手百度智能云,集成高度拟人、晦涩天然的语音合成服务,打造出奥运赛事的智能语音播报新模式,在夺冠之后进行图文智能音频推送,为用户带来及时的奥运赛事状况,感触奥运的独特魅力。  有了百度智能云语音合成服务,无论你身处何方,都能疾速、精确的获取最新赛事动静,不会错过每一个夺冠时刻。 语音合成服务,带来真人般的播报体验 奥运赛事信息传递要及时,更要智能化。为给用户带来优质、多元的奥运体验,用好 AI 技术很要害。 央视体育客户端集成了百度智能云语音合成服务,该能力采纳了百度大脑自主研发的并行 WaveRNN 合成技术,合成后的语音高度拟人,情感和韵律表现力大幅晋升,当夺冠后及时播报,让用户享受到真人播报般的体验。 当先的技术劣势:高度拟人、晦涩天然 WaveRNN 合成技术,以发音片段为根本合成单元,多个发音片段并行合成,每个片段外部以自回归的形式串行合成。同时,为了保障发音片段之间 WaveRNN 隐状态的连续性,应用隐状态预测网络为每个发音片段提供初始隐状态,无效解决了并行合成带来的 WaveRNN 隐状态中断问题,保障了并行合成的高质量。 另一方面,采纳 CPU 和 GPU 异构计算,优化合成效率,软硬件协同减速,克服了原始 WaveRNN 实时率低的行业难题。这种基于发音片段的隐状态间断 WaveRNN 并行实时语音合成技术,极大推动了语音合成技术从传统的参数和拼接零碎向 Neural TTS 零碎的改革,使百度有能力在业内率先实现了基于 RNN 神经声码器的大规模工业化部署。 此外,提供磁性男声、甘甜女声、可恶童声等格调多样的音库,中文、中英文混读也齐全没问题。同时,百度智能云为了帮忙客户定制出优质的合成声音,还反对定制语音解决方案,贴近真人发音成果,具备高还原度、高清晰度、高稳定性等劣势,百度智能云能疾速满足客户的业务需要,为客户量身打造声音。 多场景利用,优质体验就在你身边 除了奥运赛事播报,百度智能云语音合成技术的利用场景还有很多,而且就在你的身边。 浏览听书:应用语音合成技术的浏览类 APP,可能为用户提供多种音库的朗诵性能,开释用户的双手和双眼,提供更极致的浏览体验,比方大家罕用的掌阅、七猫小说等产品,都利用了百度智能云的语音合成技术。 资讯播报:提供专为新闻资讯播报场景打造的特色音库,让手机、音箱等设施化身业余主播,随时随地为用户播报陈腐资讯,为用户带来了多元的新闻体验。 订单播报:出门打车,餐厅叫号、排队软件等场景中,咱们都能听到订单播报。百度智能云与嘀嗒出行等客户单干,独特打造订单播报利用,让用户便捷取得告诉信息。 智能硬件:通过将语音合成技术集成到儿童故事机、智能机器人、平板设施等智能硬件设施,使用户与设施的交互更天然、更亲切,比方,百度智能云曾经将该技术利用于 Aimouse、儒博科技等智能硬件中,为用户带来更强的互动性。  加码各种体育赛事,出现竞技较量精彩,面向未来,百度智能云将充分发挥 AI 技术劣势,持续打造智能化创新性服务,满足客户多场景需要,让宽广用户有如亲临赛场,真正感触到 AI 技术带来的体育赛事新体验。 点击链接:  https://cloud.baidu.com/produ... ,理解在线语音合成具体性能。 百度AI开发者社区https://ai.baidu.com/forum ,为全国各地开发者提供一个交换、分享、答疑解惑的平台,让开发者在研发路上不再“孤军奋战”,通过一直地交换与探讨找出更好的技术解决方案。如果你想尝试各种人工智能技术、开辟利用场景,赶快退出百度AI社区,你对 AI 的所有畅想,在这里都能够实现! 扫描下方二维码,增加小助手微信「京东卡、小度定制周边、神秘礼盒、行李箱」等更多福利你来拿~

August 10, 2021 · 1 min · jiezi