共计 3100 个字符,预计需要花费 8 分钟才能阅读完成。
前有今人,后有小王,大家好,我是你们爱思考的小王学长,明天我来带大家漫游一下当下倒退炽热的语音辨认技术,通俗易懂、干货满满、肯定要学到最初呦!
一看到语音辨认,不晓得大家有没有想到智能语音交互助手,苹果的“Siri”、华为的“小 E”、OPPO 的“小欧”、小米的“小爱同学”,总有一款你接触过,还有目前倒退炽热的智能音箱“小度小度”、天猫精灵、微信的“语音转文字性能”、“智能家电”、车联网人机交互零碎,这些都是依附语音辨认技术来实现的。
利用场景
平时咱们用的电脑大都是微软的 windows 系列,其中的语音助手小娜更是被大家所熟知。那么到底什么是语音辨认技术呢?
一、什么是语音辨认技术?
语音辨认是将人说出的话转换为文本的技术,也被称为 主动语音辨认(Automatic Speech Recognition, ASR),简略来说就是与机器进行交换,让机器明确你说的话是什么意思。用更为狭义的概念就是把人类收回语音到计算机了解人类所说内容为止的所有技术手段统称为语音辨认。
用专业术语来说,就是让机器通过辨认和了解过程把语音信号转变为相应的文本或命令的高技术。
在这里可能会有人问语音辨认和自然语言解决(NLP)有什么区别呢,语音辨认是自然语言解决的一项比拟根底的分支领域。很多状况下,你得先让机器晓得你在说什么,能力进一步让机器去了解和做出特定的反馈。其余分支领域有机器翻译、搜寻、摘要、问答等等。用一句话说就是语音辨认技术是自然语言解决的一部分、一个分支。
好了,咱们接着漫游语音辨认技术,咱们晓得了语音辨认的简略概念,接下来简略理解下语音辨认的历史。
二、语音辨认的历史
语音辨认自计算机诞生 (20 世纪 50 年代) 以来,就始终是一个人类梦寐以求的技术。在以前的科幻电影中,人类就是用语音向计算机传播指令的。在 1968 年上映的美国电影《2001 太空漫游》中,宇宙飞船上搭载的计算机 HAL9000 就是通过语音与乘务员交换的。而从 1966 年播放至今的美国电视剧《星际迷航》中,主人公只有用语音询问计算机就能够失去筹备摸索的星球的数据。自计算机被创造之后,人类就深信通过语音来驱动计算机的时代终会到来。
语音辨认的钻研正式开始于 20 世纪 60 年代,这期间人们曾尝试提取语音的频谱图 0 与音素 2 之间的关联规定。1970 年在大阪举办的世界博览会上就展出过基于声谱图工作的打字机原型。
进入 20 世纪 70 年代 ,人们钻研出了动静布局(Dyamic Pogramming,DP) 匹配办法。该办法可能将输人语音与样本语音的各自特色,按时间轴进行伸缩、匹配。基于这个技术,人们胜利地将蕴含大量单词的短句的辨认速度进步了一大截儿。
20 世纪 90 年代 当前,基于统计办法的语音辨认成为支流,市面上呈现了面向普通用户的计算机听写软件,能够将输人的语音转换成文本输入。
三、语音辨认的原理
从 20 世纪 80 年代开始,当初语音辨认采纳模式识别的根本框架,分为数据筹备、信号处理、特征提取、模型训练、测试利用这 5 个步骤,为了不便大家了解,特意画了流程图,如图所示:
语音辨认解决流程
此图是为了不便大家了解语音辨认的大抵辨认解决流程:
第一步 声音信号采集
首先,咱们须要进行语音信号采集,也就是俗话说的录音,由咱们手机里或者电脑等电子设备里所带的麦克风、语音采集模块把声音存储下来。
第二步 声音信号处理
大家应该晓得声音实际上是一种波。常见的 mp3、wmv 等格局都是压缩格局,必须转成非压缩的纯波形文件来解决,比方 Windows PCM 文件,也就是俗称的 wav 文件。wav 文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是波形的一个示例:
声音波形图
信号处理分为降噪解决和预处理两局部,咱们采集到的声音数据里蕴含大部分噪声和无用的声音频段,先利用谱减法等降噪解决办法去噪,留得有用的声音信号,简略去噪比照图如下所示:
去噪前
去噪后
而后利用预减轻等 预处理伎俩 使得想辨认出的语音信号特色变得更加显著。在预处理局部还有分帧加窗和端点检测,目标是移除信号当中的直流偏置重量和一些低频噪声大家先明确是为了不便下一步更精确的提取特征参数就好,下一篇我会专门给大家解说相干专业术语的含意。
第三步 特征提取
特征提取就是应用计算机提取声音信号中属于特征性的信息的办法及过程。举个例子,我说:“我喜爱你”,在语音辨认过程中,会把文字变成编码的模式,并以音节、音素等离开,把 wo 这个字辨认进去,在音频波纹中提取 w 和 o 就是相当于特征提取。
间断语音辨认框架图
第四步 分类辨认
分类辨认 就是利用语音识别系统依据对输出语音的限度加以分类。
从谈话者与识别系统的相关性思考能够将识别系统分为 3 类:
(1) 特定人语音识别系统:仅思考对于专人的话音进行辨认;
(2) 非特定人语音零碎:辨认的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;
(3) 多人的识别系统:通常能辨认一组人的语音,或者成为特定组语音识别系统,该零碎仅要求对要辨认的那组人的语音进行训练。
语音辨认技术次要分为三大类
第一类是 模型匹配法 ,包含矢量量化(VQ)、动静工夫规整(DTW) 等;
第二类是 概率统计办法 ,包含高斯混合模型(GMM)、隐马尔科夫模型(HMM) 等;
第三类是 分别器分类办法 ,如反对向量机(SVM)、人工神经网络(ANN) 和深度神经网络(DNN)等以及多种组合办法。
在分类识别方法这块,有传统算法模型 HMM 等,也有当今倒退炽热的深度学习、机器学习算法 SVM 等等,大家对算法感兴趣的能够本人去搜寻一下,也能够跟我留言,我会以通俗易懂的形式带大家学习相干常识的哦!
语音编码解码
最初,总结一下,语音辨认其实就是一个先编码后解码的过程,信号处理和特征提取就是编码的过程。换句话说,就是一种基于语音特征参数的模式识别,即通过学习,零碎可能把输出的语音按肯定模式进行分类,进而根据断定准则找出最佳匹配后果。
四、语音辨认次要在线开发平台
1、科大讯飞语音
2、百度语音
3、Microsoft Speech API
4、Google Speech API
5、IBM viaVoice
6、Nuance NVP
7、声网 agora API
五、语音辨认的学习干货
书籍
《图解语音辨认》,荒木雅弘 (作者) 陈舒扬 , 杨文刚 (译者)
这本书对于小白特地敌对,很根底,以图解的模式让大家轻松入门。
《解析深度学习: 语音辨认实际》,俞栋、邓力著。
这本书算是中文写的比拟好的教程了,内容十分新,而且深度学习的篇幅很大,喜爱算法的同学举荐这本。
《Spoken Language Processing-A Guide to Theory, Algorithm and System Development》,黄学东等著。
这本书基本上是 ASR 传统办法的大全了,无论实践还是工程实际都有相当大的篇幅。
教程
学有余力的同学能够学习以下教程:
http://tts.speech.cs.cmu.edu/courses/11492/schedule.html
Speech Processing。CMU 的这个教程次要蕴含 ASR(Automatic Speech Recognition)、TTS(Text To Speech)和 SDS(Spoken Dialog Systems)等三方面的内容。
http://www.cs.cmu.edu/~awb/
苏格兰计算机科学家,语音解决专家,他的主页上有好多 Speech、NLP 方面的教程。
http://www.inf.ed.ac.uk/teaching/courses/asr/index.html
Automatic Speech Recognition。这个课程至多从 2012 年就开始了,每年都有更新。