智能语音技术的深度解析

jiezi

6 年前

欢迎大家前往腾讯云 + 社区，获取更多腾讯海量技术实践干货哦~
本文由腾讯云 AI 中心发表于云 + 社区专栏

广义上来讲智能语音技术有各种各样的定义，以上是常见的一些热门的场景。语音识别，刚才罗老师也分享了部分内容。语音合成是文字变成语音，这部分我们后面会详细展开。再往后看，声纹识别，在智能车里面有很多的功能需要人的发音媒介来控制命令的时候声纹就很重要。开一个车门，车上有一个小孩，突然哭闹，下一个不合适的指令，你区别不出来这个人，对语音控制来说不合适的。或者有一些不当的操作，可以通过声纹来做，通过声音来做对人的识别和认证的过程。声纹识别其实在未来的应用场景比较热门，实际应用当中遇到大的挑战点是什么？很多其他的生物识别靠人脸或指纹这类比较稳定的特征，可是声纹不稳定，人高兴的时候，第一天晚上唱了卡拉 OK，第二天声音哑了，怎么能够在变化比较明显的生物特征上做识别是一个很大的挑战。
声学事件监测，在家里有音响或者有监控的系统，监控里面有没有婴儿啼哭的声音，或者有什么不当的声音发生，这就是声学事件监测的应用。现在这些难点不算难，有更多场景接进来的时候这一块有很快的发展。
自然语音处理，本质来看是在语义层面上做了一些工作。

我们继续往下展开，语音识别刚才罗老师提了很多了，我们就不多讲了，这些技术和环节串起来就是语音识别的框架和结构。
语音识别面临的挑战，在实际应用当中我们遇到的一些难点，我们需要怎么解决呢？也像之前提到的，语音识别的准确率达到多少？你们这个场景能够达到 90% 左右，就会被人家说，别的厂商反馈 95% 到 97%，你们怎么只有 90%。其实有一个前提，你提供的语音材料质量怎么样？如果声音很清晰，没有杂音可以达到 97%。

语音识别遇到的挑战，首先就是口语化的问题，很多时候你的发言并不像你的演讲这么理智这么逻辑，有很多口语化的表达。比如说在会议的场景，有很多人同时说话，会抢着说话。本身你听录音的时候都感觉很嘈杂，这个时候指望语音识别有特别高的准确率比较难。离话筒比较远，麦克风技术等等，在这里面需要做一些提高。
还有就是方言的问题，本身带口音的，我们日常做语音识别训练的语料本身不太标准，本身对带口音的普通话的识别，我们在训练语料的时候就灌输进去，口音不是特别严重的情况下，轻度的口音没有什么问题。口音严重的，除非你是当地人，否则你都听不清，这就对语音识别有很大的挑战。所以我们投入应用的时候要考虑场景和录音材料，这样才能达到好的效果。要在线下和线上给客户一个好的体验，我们尽量提高语音识别的能力，在其他这方面的素材层面也一样的，是要有一定的配合度效果才能比较好。

因为语音识别讲的比较多，后面我们转到其他的主题，下一个阶段我讲一下语音合成。语音合成更大程度上是一门艺术。语音识别对它转写的好坏有客观衡量标准，你说一句话，转成文字的结果，跟正常说的话做比对准确率是多少？但是语音合成的难点就是难有客观统一标准。语音合成最后的目的是达到什么？希望机器的发音跟人正常的发音接近，对语音合成这项技术的判定的好坏是比较艺术的，你这个声音好听好不好听，像不像真人，是比较偏主观的感受。
语音合成，如果只有识别没有合成，你只能听不能说，这样的话交互体验不是完整的，语音合成的技术当下越来越热，也有很多的场景需要语音合成，后面会具体展开多讲这一块。

语音识别合成这项技术很明确的，那它有什么难点呢？你看到人在说话的时候，人的声音是否准确，说话是否流畅，人的发言在不同场景下是阴阳顿挫的，很多时候你会发现这是一个机器人在说话，对于语音合成这项技术就不成功，因为语音合成最后的目标就是以假乱真，听到机器人说话，不认真听听不出来，这也是在做技术突破的点。
技术难点的主观性，有时候很难有一个客观指标，有人说这个语音合成不好，我说哪儿不好？他说我听着不舒服，在不同场合下人的要求，你的声音是否满足，你的声音是否适合做语音助手，我会有一些例子给大家听，展现我们现在做的技术的突破。
还有一部分提到很多客户的需求，希望有语音的定制化，为什么？对大型公司来说，如果我做一个智能冰箱或者智能硬件，这个声音的要求高，这个声音对于他们来说，跟品牌的 logo 一样，希望我的用户听到的声音，是我这个品牌的音响，或者我这个品牌的应用。我不希望跟别人共享。也有这种类似的需求，也是很常见的，这一块对语音合成的技术也有挑战。有的厂商比较有钱，可以请到一些明星来录音棚录音，录音的质量决定了合成的效果，之前做合成要求来录音棚录 8 个小时才能有比较好的效果，现在这个门槛不断在降低。
今年腾讯内部，由马化腾在微信里面给大家发红包，有一段语音，这段语音就是用语音合成做出来的，我们搜集马化腾在大会上比较有质的发音，以这些优质的发音做组合训练，依然可以达到很好的合成效果。

简单讲一下语音合成技术的引进。最早是波形拼接，从每个人的发音，你的发音是什么样子，然后把这个波形拼接，然后是 HMM+GMM 的合成，然后再到神经网络的参数合成，然后 WaveNet 合成。WaveNet 合成的效果非常接近真人录音的效果，MOS 是一个对语音合成的指标，产生的声码器能够做到 4.2 已经很好了，真人的录音效果普遍在 4.5，如果做的好在 4.5 以上，WaveNet 合成我看到比较好的效果是在 4.52，非常接近真人的录音效果。谷歌在今年 AI 大会上发布了人和机器人对话的效果，那个效果就是 WaveNet 合成的效果。这些是 WaveNet 合成的声音，比以前一听就是很明显的机器人的声音，现在的合成技术效果相比以前有一个质的提升。

简单讲一下 WaveNet，因为我是做产品的，可能讲的不够深，后续可以继续探讨。WaveNet 是端到端的合成技术，是谷歌提出来的，最早 WaveNet 的合成速度比较慢，对资源消耗比较大，2017 年底的时候谷歌又出了一个 WaveNet 的技术，比之前加速 1000 倍。
前面主要是讲了技术方面的储备，后面我们切换到更多的场景层面。

讲到数字化这个主题，为什么说语音在数字化的时代很重要？数字化时代，很多时候对用户的服务和追求是更好的人机交互体验，有更多的人机交互渠道，比如说你的客户是机器人，你只能给别人打字聊天，跟客服做反馈，现在越来越多的希望基于人的交流，如果自己特别大量的去做，这对人工成本消耗比较高，这是一个场景。需要售后服务的方式，人机交互的模式有一个更好的效果。

手机端的应用，发布的这些例子都可以看到。首先是语音输入法，按住这个键，然后是语音提醒，5 分钟以后我要打一个电话，帮我记录一下，或者提醒我喝口水，用简单的输入做语音的提醒功能，相信很多人用到。微信里面说话，比如说我收到大一段语音以后，我在开会，长按语音键上面有一个按纽，上面有一个转文字，就会把你刚才收到的语音材料转成文字的形式，在不方便听语音的情况下一样实时接受信息的效果。
这里有一段语音，这也是我们之前的一个项目做的一个东西，这是嵌入在银行 APP 里面的一个应用。我们当时因为是内部在做测试，测试人知道下一步的效果。感觉就不太连贯，这个应用里面看到的，除了刚才讲到的很多信息对话的场景以外，很多功能性的产品上面把语音技术嵌进去。语音技术识别的成熟度，很多业务场景，需要办理业务的场景一样可以用语音交互的方式来做接入。

刚才讲的是手机端的情况，跳出手机端我们讲硬件。智能硬件也火了很久，语音识别合成，语义理解就是很重要的功能。智能穿戴、手表等等一些场景，更常见的是智能的音箱，还有车载的语音技术。尤其在车载环境下语音是很重要的，在车上的时候驾驶员没有时间按手机的，如果持续按手机比较危险，这个时候语音交互是很好的切入点，来实现控制，比如说简单的开空调，比如说帮我放一张碟，比用手按不仅方便而且增加了安全性。

这是智能硬件的几个方案，在酒店应用的一个场景。我们在北京一家酒店做了一些样板间，把语音交互的平台，放在客房，通过跟他的交互，类似帮我拉一下窗帘，帮我放一下音乐，帮我关灯，很多人比较懒，在酒店里面不想关灯，都可以帮你实现。包括天气、交通、新闻等等，在酒店客房可以实现语音助手的效果，也方便了很多酒店的住客。

前面讲了手机端的应用，然后是智能硬件的应用，还有一个很大的应用场景，是客服机器人，其实在线下遇到的这些问题，这些问题大家都有了解，一个是你需要 24 小时的反馈，如果你需要同时在线，客户问你的问题 80% 都是重复的，没有困难到需要人查的地步。比如说运营商查询话费等等。如果 80% 的问题重复，我们设法用机器人来解决，讲到全渠道的观念，最早机器人客服用一些公众号、服务号，还有一些网页的客服等等。电话坐席还是用人工来覆盖，因为电话坐席前面放一层语音识别，还有就是语音合成，如果这两个做不好，客户体验就很差，不知道有没有这样的电话，你发现是机器人，语音识别很差，我一听是机器人，就很没有耐心。然后是语义，有的合成效果不错，没有以为是机器人，当我说了两句话给我反馈一样的时候，我知道是机器人，了语音识别失败，或者语义没有解析。电话客服是一个很综合，又比较有挑战的产品。需要我们继续摸索，如果这个效果做的好，很大程度上能够解决需要克服的，也解决很多客户等待的问题，未来这些都需要进一步优化。

前面讲了一些场景化的问题，后面落实到我们腾讯云，包括线下场景的一些解决方案，我们在做的一些方向。这部分先回顾一下，之前罗老师也讲到腾讯云语音类能力，包括语音识别，语音合成等等，在这些技术上面打包一些解决方案，这些解决方案能够解决什么实际的问题？

首先是直播安全的解决方案。在互联网领域内容的安全审定，一直是监管部门很重视的话题。对相应的直播平台，它的内容不可控的。如果主播在直播间里面有不当的行为，一样会受到很多的举报，会给这些平台带来很多麻烦。最早的这些内容鉴别，基于图像这个层面来做，有的时候解决不了问题。可能图像里面没有出现什么越界的问题，但是说的话是不对的，或者整个直播过程中间发出来的声音不正常，就图上来看没有什么，下面的这些字有点小，但是被鉴别出来了。在直播过程当中，说的话是违规的，直播平台会受到下线或者告警，需要结合图片，包括语音，甚至音频声音识别的能力来做内容审核。

客服质检，也是线下很多电话客服的场景。话务员跟客户的对话质量不可控，成熟平台还好，现在一些互联网金融公司，他们的业务发展比较快，又遇到催款等等，工作人员话术不规范，甚至是骂人的场景。这样的情况就会受到很多的投诉，某某平台的客服特别不文明。能不能基于这些客服的录音做质检，靠人去检，比如说 20 个坐席，一天靠人来质检检查不了几通电话，语音识别这么好，我整个电话录音的情况记录下来，然后转成文字，在文字层面基于关键词或者特定业务逻辑做评分，来评价我的客服是否符合我的管理规范，这也是基于语音识别这个基础做的方案。

智慧法庭解决方案，它也是比较有趣的。书记员需要做记录，某某人说了什么，一样的在庭审的场景下，速记员的个人习惯不同，或者这里漏了一点什么，那里多了什么，庭审的记录可读性不强。我们在这个场景下，把语音识别技术放进去以后：法官前面有一个麦克风，被告和原告都有麦克风，通过麦克风把这句话是谁说的记录下来，语音转成文字，变成文字以后，结合这两个层面形成记录：公诉人说了什么，法官说了什么，还有被告人说了什么。基于这个记录后续再做档案的检索。
语音识别技术，在之前谈到的几个场景中，就描述了语音识别技术怎么帮助线下的很多传统行业或者是政府机关。
小微是谁？我们打包了一个人机交互的操作平台，在海外比较成熟的是亚马逊，一样的基于这个平台，你通过简单的对话能，比如说帮我查一下天气，对于整个小微平台后台的技术，基于语音识别，语音合成，以及对话的处理，多种能力综合起来达到一种人机交互的效果。
除了有这些语音的能力以外，这种平台是否好用？这也是我们腾讯自己本身的优势，腾讯音乐等等自有的能力打包，我们把这些能力放到小微平台当中去，小微的用户可以很方便的使用。
语音交互的平台一定程度上对应一些硬件，包括机器人等等。基于这些硬件合作伙伴，最后形成整个人机交互的终端生态圈。哈曼卡顿音乐也是很高端的音响，跟腾小微合作，低中音效果都是非常好的，你的音响只是一个人机交互，如果想听音乐，对这方面有比较好的要求都可以达到。
Q&A：
Q：现在有部分的小语种或语料不够，导致识别率不高，识别率怎么统计的？
A：语音识别的结果跟正常文本的结果一个字一个字的比对，业内也有提到句错率。
Q：我想问一个问题，小微，类似其他的产品都已经出来了。比如说微软的，还有亚马逊的，谷歌也有相应的生态圈，也有相应的开发工具，应用场景以及特点，SKD 或者是开发平台的使用方便有没有做过比较，比较结果能不能跟大家做一个分享？
A：比较结果，说实话各家的进展都比较快，很难说有一个精确的，国外真的成熟度比较高的是亚马逊和谷歌的产品。因为生态比较完整，有大量的开发和底层应用平台，国内还是属于起步阶段。腾讯小微，这方面的优势，包括对开发者的友好程度，包括底层硬件的能力，我们本身腾讯的原生的能力比较强的。我们有 QQ 音乐等有非常好的内容，我们帮助开发者在这方面提升，硬件平台的开发也很高，很难说有一个准确的数字，因为高内市场比较早，还都是齐头并进的状态。

相关阅读【每日课程推荐】机器学习实战！快速入门在线广告业务及 CTR 相应知识