关于人工智能:详解ASR语音标注场景下的VAD语音端点检测丨曼孚科技

97次阅读

共计 1523 个字符,预计需要花费 4 分钟才能阅读完成。

20 世纪 50 年代,人类开启了对机器语音辨认的摸索历程。

60 年后的 2016 年,在深度神经网络技术的帮忙下,机器语音辨认的准确率第一次达到了与人类相近的水准,智能语音产品进入大规模商业化利用阶段。

目前,语音辨认技术已深刻日常生活的方方面面,语音助手、智能音箱、智能客服等都是较为典型的利用场景。将来随着 IoT 设施的逐步遍及,人机语音交互场景将向更多方向延长,在辨认精度、场景优化等层面,对语音辨认技术提出了更高要求。

一. 语音辨认技术

语音辨认技术又被称为“机器的听觉零碎”,即通过特定形式将语音信号转换成相应的文本或命令,以供机器辨认与学习,最终产出可实用语音算法模型的过程。

目前,常见的语音识别方法次要为模式匹配法。这种办法下,语音辨认过程可分为两局部:

第一部分为训练阶段,将收集到的语音数据或特定用户的场景化语音数据,经标注解决,提取出特色矢量作为模板存入特定数据模型库中;

第二局部为辨认阶段,将输出语音的特色矢量顺次与数据模型库中模板进行特色比对,并将类似度最高者作为辨认后果输入。

这套语音识别方法对数据库的“量级”要求较高,起因在于语音识别系统的准确度受诸多因素影响,包含但不限于不同谈话人、谈话形式、环境乐音、传输信道等。

进步零碎鲁棒性,尽可能裁减数据模型库中特色矢量品种,使零碎能够在不同应用环境、条件下均能够稳固运行且无效辨认,是晋升语音辨认模型适配性的要害。

这就须要在数据库搭建环节,尤其是语音标注解决环节提供更为精准且笼罩场景更为多样的训练数据集。

二.VAD 语音端点检测

一段语音数据通过解决后,会呈现出如下的波形曲线:

在这段语音数据中,不同的稳定幅度代表着不同的情感特色。当稳定幅度较大时,讲话者可能正处于情绪冲动的状态中,音量会减少,音调也会产生扭转; 当稳定幅度较小时,讲话者则可能处于情绪温和的状态中,音量会变小,语速也会变慢; 而当无稳定时,讲话者则处于缄默的状态。

因而,振幅的构造、发音的持续时间、谈话速度等语音信号都是语音处理过程中须要着重关注的特色点。

在进行语音辨认的过程中,零碎的解决对象是无效语音信号,即有稳定的局部,无稳定的缄默局部因不具备语音信号所具备的特色点而须要被舍弃。

所以,在语音标注解决的过程中,往往须要从一段语音数据中找到语音局部的终点和终止点,从中抽取语音情感辨认所需的信号特色,这样的“切分”过程就被称为语音端点检测,也即 VAD。

VAD 的英文全称为 Voice Activity Detection,中文名称为语音流动检测、语音端点检测或语音边界检测、静音克制等。

VAD 解决的目标是从声音信号流里辨认和打消长时间的静音期,将无效的语音信号和无用的语音信号或者乐音信号进行拆散,以使后续的语音转写、语音情感剖析等工作更加高效,是语音数据标注过程中常见的解决形式。

三. 标注场景下的 VAD

在语音标注,尤其是 ASR 语音转录标注场景下,VAD 切片通常是须要率先实现的工作内容。

咱们以曼孚科技 SEED 数据服务平台为例,具体展现在语音转录的标注场景下,如何实现 VAD 切片的解决。

SEED 数据服务平台在语音标注模块下,提供手动与 AI 主动两种 VAD 切片解决形式。

手动模式下,标注员须要自行判断语音的起始点,并依据具体需要,决定是否预留相应的静默音局部,具体操作如下:

AI 模式下,可一键主动解决整条数据,同时实现 VAD 主动切片与主动文本转录。目前,SEED 数据服务平台在语音标注场景下提供的 AI 辅助为“全局辅助”,即 AI 会主动解决一整条数据,实现全副切片内容以及转录内容。

此外,AI 辅助也会自行判断语音信号,并在切片前后预留肯定的静默音局部,以供后续调整:

通过 VAD 切割解决后的语音数据,即可在此基础上实现下一步的语音转录解决。

正文完
 0