关于深度学习:智能语音技术从哪儿来往何处去

近几年，语音辨认技术逐步走向成熟，越来越多的互联网公司及硬件厂商在布局智能语音的商业幅员。万物互联的浪潮势不可挡，智能语音技术在汽车、智能家居、教育等各个领域全面开花。

智能语音从何倒退至今？以后面临怎么的时机与挑战？将来又将倒退成什么样的状态？本次咱们访谈了 OPPO 资深语音架构师 Elon，他将为咱们介绍智能语音技术的残缺倒退门路。

早在计算机创造之前，1920 年便有了“Radio Rex”玩具狗这种晚期的语音辨认雏形，能够视为人类对智能语音技术的首次摸索；而真正意义上基于计算机的智能语音技术倒退最早可追溯至 20 世纪 50 年代，从 1952 年第一个语音识别系统 Audrey 诞生到当初已走过了近 70 个年头，晚期次要是贝尔实验室、伦敦学院等学术机构在做该方向的布局；到 20 世纪 90 年代前后，呈现了寰球首个非特定谈话人的大词汇量间断语音识别系统 Sphinx，以及起初一度被学术届广泛应用的剑桥 HTK 等开源工具；过后中国高科技倒退打算 863 打算也启动，语音辨认作为智能计算机系统钻研的重要方向之一，被专门列为研究课题；20 世纪末至 21 世纪初，是语音辨认疾速倒退、从学术界逐渐走向产业化的阶段，大略在 2009 年左右，深度学习在语音技术畛域发力，辨认成果获得了很大冲破；2011 年苹果手机虚构助理 Siri 诞生，之后的 10 年工夫里，语音相干技术和团队开始从学术界走到工业界，不论是互联网公司还是传统硬件厂商，都开始布局智能语音技术，并逐渐落地了 Alexa、Google Assistant、天猫精灵、小度小度、小爱同学等一系列家喻户晓的智能语音交互产品。
纵观整个智能语音交互技术的倒退历程，从一开始只反对非常简单的指令辨认，到前面反对较为简单的话术了解，并在多场景、多设施上实现了大规模落地，逐渐缩短了用户与服务之间的中转门路；小布助手的前身 Breeno 也正是在这个大背景下于 2018 年 12 月诞生的。

首先，语音是人类人造的信息传播形式，机器通过辨认语音、了解其中的表白，更加快捷的满足用户需要，实质上就是在让人与智能设施之间的信息交换更加高效，尤其是对于驾车、家居等场景，语音技术能大幅晋升人机交互体验。
此外，技术倒退与行业倒退高度相干。国内厂商之所以做智能音箱，更多受到了亚马逊做 Alexa 的影响，Alexa 让国外用户感知到家居场景语音交互的便利性；国内的话，小爱同学及天猫精灵是先把产品做进去，让一部分用户用起来，进而扭转了这个行业，让更多入局者退出这个赛道，让更多用户感觉到智能音箱的便当。随着智能音箱的入户，以及更多家居设施反对了 AIOT，用户能够通过智能音箱这个中枢去管制家里更多智能设施，就会越来越喜爱用智能交互产品，有点像马太效应，让用户因为一个产品感知到了便利性，并催生他们购买更多产品的时候，一个生态闭环就建设起来了，就会有越来越多用户违心用语音交互去管制设施，去获取服务。
最初，随着智能助手使用率的一直晋升，线上数据规模不断扩大，咱们能够用更多实在数据去做更好模型的优化迭代，从而让成果变得更好。从算法技术的演进来看，过来 10-20 年基本上都是基于有标注数据做模型训练，比方要辨认一句话，须要先把很多句话的每一个字，每一句话都标注成文字，退出模型训练，通过有监督学习实现模型优化。当初，行业开始尝试无监督学习，Facebook 曾经有科研成果证实，基于无标注的海量数据无监督学习也能很好地实现语音辨认模型训练。

国内的话有不少厂商在做，比如说小米、阿里和百度等，然而每家厂商做这个事件的出发点是不一样的。
百度做智能语音其实是心愿通过小度将搜寻的产品状态从纯网页文本框搜寻变成联合语音交互的更天然的搜寻输出状态，通过小度音箱这个产品，收集一些用户信息，建设用户画像，而后给用户举荐一些原先只能通过网页搜寻举荐的内容。
阿里做天猫精灵则是心愿占据家居场景的流量入口，实现 AIoT 生态建设的同时，把用户牵引至阿里生态里的虾米音乐、优酷、天猫、及饿了么等内容服务上。
小米做智能音箱的出发点和这两家有显著不同，因为小米的出发点是通过“米家 + 小爱同学“构建小米万物互联的 AIoT 生态，笼罩智能生存的方方面面。
OPPO 做小布助手的出发点，则是心愿在手机硬件 + 软件产品根底上，通过小布助手的各种能力建设，让用户一直感知产品的“智慧、懂你”，同时打造公司的科技品牌，随着公司多设施生态的不断完善，最终实现万物互融战略目标。

我认为时机挺大的。首先，用户教育老本升高。以后，越来越多的用户是从 Z 世代进入的，这一代的人跟智能接触的更多，他们不像咱们父母那代或者咱们这一代是从一个无智能时代进入到智能时代，这些用户自身对语音交互或者 AI 类的交互有着人造的相熟感。此外，Z 世代的人是间接就进入了数字世界，他对数字世界是十分相熟的，就像当初很小的一个小朋友都会拿着手机去触碰操作，很早就相熟了硬件产品里的一些虚构事物。
另一方面，用户与智能产品的情感分割愈发严密。现实生活中，曾经有一些小朋友会因为手机中的游戏人物死去而悲伤很久，然而却很少因为身边某个人比拟惆怅的事件，或者身边某个实在的人的逝去而惆怅很久。这其实反映了一个问题，就是数字世界的很多货色曾经将人的感官株连了起来。那这个时候，我感觉智能助手在这方面有很大的时机，人们跟硬件产品中的虚拟世界越来越交融，也就是所谓的代入感加强，随着生存压力、社交压力的减少，其实他们也更心愿与虚构人物交换，而不违心去跟身边人进行更多的交换。在这种情境下，智能助手可能会变成越来越多用户想要去沟通和接触的一个虚构对象，而语音技术是其中最为要害的情感和信息纽带。

首先，用户对隐衷泄露的放心加剧。用户在应用智能交互产品的同时，他也会逐步意识到隐衷问题。过来几年咱们会在各大平台看到用户质疑设施是不是在监听，比如说我跟你聊了个雨伞，后果早晨淘宝或者天猫就给我举荐雨伞。所以很多用户想利用语音更便捷的获取服务，然而同时他又胆怯设施被继续监听。我感觉这是整个行业都在面临的一个挑战，包含欧盟出台 GDPR 其实也都是为了爱护整个智能生态的隐衷数据安全。
此外，用户对语音助手的冀望与技术实现能力之间有落差。语音助手的背地是服务，用户对于语音助手的冀望是一个真正的人，只是它是数字化的，所以用户对它的冀望永远是很高的。用户通常认为所谓智能就是无所不能，然而技术是有瓶颈的，这就意味着技术只能实现一些能力范畴内的事件。然而用户对于智能产品会有比拟刻薄的要求，他须要智能产品要会查天气，又要会聊天，情商智商都高。然而回到事实中。情商和智商都高的人是很少的。《黑客与画家》外面提到一个观点：每个产品最初长成的样子跟打造这个产品的那些人是类似的，因为它决定了这个产品的灵魂应该是什么样子。对于智能助手来说，它是靠工程师、产品经理和研发团队去做成的，比如说有 100 人的团队，那这 100 人的智商情商就决定了这个智能助手大抵会是什么样子。

首先从用户感知层面，最晚期是满足用户基于文字的交互，逐步过渡到语音交互，当初及将来更多的过渡到多模态交互。
在利用场景上，AIoT 在智能家居上的利用越来越宽泛，用户能够通过语音管制整个家里的设施。还有就是智能驾驶，其实在 16 年的时候，阿里就跟斑马互联网汽车，包含上汽三家单干了一款智能汽车，在这款车上曾经搭载语音助手。像特斯拉，小鹏和蔚来这样一些新能源汽车，语音助手曾经成为这些汽车的标配，基本逻辑是在于在车载环境下，用户更加专一于驾驶平安。驾驶平安就意味着你在开车的时候不能去查看手机，专一地进行驾驶操作，那当你想在驾驶过程中听音乐或者打电话的时候，只能通过语音交互实现，让驾驶变得更加平安，同时让整个驾驶体验变得更好。当初每个车厂都在布局做这块，甚至成立了自研团队去打造本人的技术。
此外，智能助手须要做到的是让用户与机器之间的交互门路变得更短。以前可能通过好几步，比方 UI 触控去获取服务。但当初，通过一句话就能够实现天气查问、打电话这些很简略的操作。然而目前的交互门路还不算短，因为当初的执行逻辑还是语音辨认先转成文字，而后文字去做用意了解，最初再到对话治理，之后咱们还要持续缩短这个门路，让机器能间接可能了解人说的话，不须要两头文字的转化。
智能语音的终极状态，咱们冀望是能够脱离具体的产品状态，能够是齐全数字化的。所以我感觉 OPPO 公司策略里提到的万物互融还是挺有想象力的。到最初，其实你不关怀那个货色到底是一个手机，还是一个音箱，还是其余的智能设施，就站在用户的角度，他只关怀一件事就是当我须要什么服务的时候，我闭口谈话就行了，不须要通过其余第三方的输出媒介去实现一些比较复杂的操作。

我感觉还是回到用户自身，不论是往生态化倒退还是某个场景去倒退都是在帮忙用户去解决在某个场景外面很外围的一些需要问题。比方 AIoT 在家居场景的倒退，会发现越来越多的设施，比如说传统的灯，空调都开始反对语音管制。背地的逻辑是心愿解决用户在家外面管制这些设施不不便的问题，而后让整个家变得更加智能。语音助手实质上还是服务触达的媒介，是用户获取服务时最天然的一种表达方式，它的倒退方向始终是为了解决用户的外围需要问题。

更多精彩内容，欢送关注 [OPPO 数智技术] 公众号

关于深度学习:智能语音技术从哪儿来往何处去

Q1：是否简略介绍一下语音技术的倒退历程呢？

Q2：语音技术在近几年蓬勃发展的起因是什么呢？

Q3：不同厂商做智能语音的出发点是什么呢？

Q4：以后语音技术面临的怎么的时机？

Q5：以后语音技术面临着什么样的窘境呢？

Q6：将来智能语音的利用场景和状态会倒退成什么样？

Q7：如何对待当初语音助手纷纷进行生态化赋能？