关于音视频:马志强语音识别技术研究进展和应用落地分享丨RTC-Dev-Meetup

本文内容源自「RTC Dev Meetup 丨语音解决在实时互动畛域的技术实际和利用】的演讲分享，分享讲师为寰语科技语音辨认钻研主管马志强。

近几年来，语音辨认技术曾经逐渐走进了咱们的生存和工作中，特地是以 AI 语音助手为代表的语音交互性能也曾经失去落地，利用到各类生产级产品当中，比方，智能手机、智能汽车、智能家电以及智能家居等。用户只须要唤醒语音助手，提供相应的指令，就能够使其帮忙咱们实现打电话、查天气以及导航等常见的性能。依据相干咨询机构的调研报告所说，中国智能语音垂直行业的倒退规模，到 2025 年将要达到千亿的级别。从倒退空间能够看出，语音交互以及语音辨认逐步成为万物互联时代人机交互的要害入口。

语音辨认的市场空间在稳步的进步中，在国家建设“一带一路”的社会背景下，其所倡导的“五通”也须要语言互通来提供撑持。目前，“一带一路”曾经涵盖了 100 多个国家和地区，波及到几十种官方语言。在此背景下，国家对于多语种技术的能力需要日益强烈，而多语种语音辨认技术也是其中最重要、最根底的技术能力之一。咱们从 2020 年开始，就曾经布局并建设了多语种技术能力，比方明天将要介绍的多语种辨认、多语种翻译以及多语种合成等通用的技术能力。

近两年来，受到疫情的影响，人们的工作和生存形式也产生了较大的变动，比方，当初比拟风行的在线教育、在线直播、线上会议等模式逐步被大家所承受，对应的 AI 字幕技术目前也曾经胜利利用赋能到了这些场景中。比方，AI 字幕能够通过语音辨认技术和语音翻译技术，将辨认后果和翻译后果以字幕的模式实时地展现给用户。这种模式能够帮忙用户更好地了解直播或者视频的内容，不便用户记录会议纪要。整体来看，AI 字幕技术提供了一种语音转写和语音翻译的系统性解决方案，极大地晋升了用户体验和沟通效率。

语音助手和 AI 字幕是两个典型的语音辨认利用场景，以后，深度学习技术正在一直地倒退和提高，在很多场景中语音辨认的成果其实曾经达到了可用的程度，然而在刚刚提到的两个典型场景中，目前依然面临着较大的技术挑战。比方，针对语音助手场景存在着高噪场景的辨认问题，特地是在远场环境中，语音非常容易受到混响和噪声的烦扰影响，导致大量的多人谈话以及人声重叠等难点问题，造成远场语音辨认成果的急剧下降。

第二个问题是海量实体辨认的问题。比方在语音助手场景中，可能须要应用其进行一些导航指令，这就要求 ASR 模型具备辨认全国至多千万量级实体的能力，能够设想，其中必定会存在大量同音不同字的实体，这样模型辨认也非常容易互相串扰。同时，这种量级规模的实体散布其实是十分不平衡的，特地是对于尾部的实体而言，它是十分稠密的，此时 ASR 模型建模将会十分艰难。

第三个问题是多语种语音辨认的问题，线上进行过 ASR 或者相干工作的同学可能比较清楚，对于一些适用范围较广的语种，比方汉语、英语等，训练数据相对来说比拟丰盛；然而对于小语种来说，比方泰米尔语或者是乌尔都语，训练数据是极其稀缺的，可能只有几百小时、几十小时的量级，在这种状况下，这些语种训练进去的 ASR 模型，其辨认成果个别十分差。

同样，AI 字幕业务场景也面临着一些技术挑战。第一个挑战就是简单的转写辨认场景。比方，在音视频字幕转写的场景中，音视频通常会蕴含各种噪声和背景音，这些都会影响语音转写的成果。另外。在线上直播或者娱乐直播场景中也会随同着一些特效音和音乐，这对语音转写都带来了微小的挑战。

针对于 AI 字幕场景的第二个挑战就是其自身的高实时性要求，在个别状况下用户要求字幕和正在观看的音视频尽可能地放弃同步，通常提早管制在 1～2 秒，此时的用户体验和用户观感个别都是十分好的。然而这其实晋升了对 ASR 模型，特地是 AI 转写模型的要求。

针对 AI 字幕的第三个挑战就是 AI 字幕的上屏成果体验，次要蕴含两个局部：首先，转写后果以字幕的模式传递给用户，通常要附加标点，比方句号或者逗号，用户依据标点能够进行分句，此时用户对于字幕的了解度绝对较好；但如果没有标点，则对用户来说字幕内容看起来是十分艰难的。其次是字幕的擦除率，以图 1 为例，此时有三个句子，别离是三次上屏的后果。比方，“明天”其实在三次上屏的过程中变动了两次，先由“今”变成了“惊”，而后由“惊”又变回了“今”，在这个过程中，字幕其实跳转了两次，跳转的过程是十分频繁的，对于用户来说，观感以及了解度可能不是特地敌对，这也是 AI 字幕技术须要解决的一个问题。

■图 1

第一局部次要介绍了语音辨认技术现状，接下来重点介绍语音辨认技术的研究进展。首先，介绍针对于语音辨认工作的三大关键技术，这三个关键技术也能够认为是刚刚提到的两个典型场景 —— 语音助手和 AI 字幕的根底和共性技术。

(1) 语音辨认数据资源的工程建设

进行过 ASR 工作或者深度学习相干工作的同学可能比拟理解，训练数据对模型来说是十分要害的。个别状况下，咱们从现网（生产环境）可能获取到海量的无监督数据，比方文本数据、语音数据或者视频数据。对于这些无监督数据，目前有两种次要的解决流程：第一种解决流程是借助于现有的 ASR 模型，间接给语音或视频打标签，生成一些弱监督的标注数据。第二种解决流程是借助于机器辅助的形式，首先进行预标注，预标注实现之后，一些语言学专家会基于预标注后果进行人工的纠正和测验，通过这种形式能够失去一个有监督的准确标注的平行数据。依靠于曾经建设好的数据资源标注平台，目前是可能反对和提供大规模 ASR 训练数据建设能力的。

(2) 无监督 / 弱监督训练数据加强框架

咱们基于数据层面提出了一种基于语音合成和自训练的半监督语音辨认框架。如图 2 所示，对于无监督的语音数据，能够通过 ASR 模型失去大量的伪标签数据；对于无监督的文本数据，能够通过 TTS 模型失去合成数据。而后将伪标签数据、合成数据以及有监督的实在数据混合到一起联结训练 ASR 模型。

■图 2

图 2 的右侧展现了一个回流的过程，这个过程中，咱们能够重复地迭代、更新，以及训练 ASR 模型。通过多轮的迭代，ASR 模型能够把大量的无监督语音和无监督文本全副训练到模型中。随着多轮的训练，ASR 模型的成果其实也在逐渐失去晋升。咱们采纳这种办法进行了试验，通过验证能够发现，在 100 小时的有监督数据中，加上大量无标签的语音和文本数据，最终训练进去的 ASR 模型能够达到数千小时的有监督训练的成果。

(3) 多语种端到端对立建模框架

大家应该都晓得，目前比拟风行的端到端模型其实蕴含编码器和解码器两个局部。对于编码器局部，模型能够间接将多语种的音频间接输出到对立的声学模型编码器，而后学习各个语种之间对立的声学表征。对于解码器局部，个别会抉择与语种相干的文本生成解码网络，各个语种或者各个语系之间的解码网络是互相独立的，这样的益处在于，能够尽可能地保留每个语种文本的个性或者差异性，比方中文、英文和俄语的文本有比拟大的差异性，然而在声学层面，它们的声学特色是能够共享的。

目前次要采纳端到端的模型框架，对于 ASR 端到端来说，它摈弃了一些传统计划，比方翻译词典须要语言学常识的资源，这样能够缩小咱们对语言学专家常识，以及大规模数据标注的依赖。

接下来将具体介绍刚刚提到的两个典型场景。

(1) ASR 声学模型构造

在语音助手场景中蕴含很多远场辨认的状况，对于电视大屏以及音箱来说，须要在远场唤醒指令。在这种场景下，咱们设计了一种特有的声学模型构造，如图 3 所示。图 3 展现的声学模型采纳了带有强化层和过滤层的注意力机制来克制远场的噪声以及别人谈话的烦扰，这个模型构造次要通过 CNN 和 Self-Attention 两种当初比拟支流的网络结构来设计和组成，其中过滤层次要通过卷积网络来升高时域分辨率，从而去除声学特色中的烦扰。强化层通过对输入特色之间进行 Self-Attention 来保留重点的声学信息。

■图 3

在试验中还发现，目前设计的这一套声学模型构造在简单场景中，特地是噪声环境下有比拟好的鲁棒性，具备比拟强的建模能力。

(2) 海量实体系统性解决方案

针对于海量实体，咱们也端到端地提供了一整套的系统性解决方案。以语音助手导航场景为例，在应用语音助手的时候可能须要导航到所在城市的各个中央，然而对于我国来说，这是至多蕴含千万量级的 POI 实体。咱们采纳的办法是，首先依照城市的维度进行细颗粒度的建模，而后为每个城市构建一个独自的语言模型解码网络。

在用户实在应用的时候，语音助手零碎能够依据用户的地位信息以及用户以后的用意信息，动静加载刚刚提到的曾经建模好的城市 Patch 包。通过加载这些 Patch 包一方面能够进步用户所在城市的辨认成果，另一方面，因为每个城市采纳独立建模的形式，可能缩小不同城市之间对立实体的串扰问题，进一步晋升海量实体的辨认后果。

对于这个问题咱们不仅针对中文，对其余多语种上做了一些实体优化计划，如图 4 所示，次要采纳了右边显示的优化形式，能够看到，对于大多数语种而言，实体的辨认准确率基本上可能达到 85% 以上。这样的准确率对于用户来说，基本上曾经达到了比拟可用的程度。

■图 4

(3) 多语种语音辨认端到端对立建模计划

对于后面提到的多语种辨认问题，咱们也在多语种对立建模的根底上，进一步提出了一种基于语系分组的对立建模形式。这个计划思考到了不同语种之间的语言学共性，并基于这些语言学个性对咱们开发的语种进行了聚类。目前咱们把所有的语种分成了四大类，每一个语系对应了语言学上比拟类似的一些语种，每个语系对应到 ASR 模型中也蕴含相应的独立解码网络。

比方拉丁语系可能有一个对应的拉丁语系解码器，而阿拉伯语系也有对应的拉丁语系独立解码器，这样就可能最大水平地利用到各个语种之间语言学的共享信息。从试验后果能够看到，拉丁语系的语种十分多，那么它的训练数据也相应比拟多，咱们对英语、法语、德语、西班牙语等也采纳了这种语系分组的对立建模形式，相比独自建模均匀能够绝对晋升 10% 以上。对于阿拉伯语系来说，其语种比拟少，训练数据相对来说也比拟少，然而其基线晋升幅度更大，大略是 20% 左右。能够看到，这种基于语系分组的多语种端到端对立建模的计划，对于低资源语种的晋升幅度是十分大的。

接下来介绍 AI 字幕技术的整体研究进展，AI 字幕对于数据、场景以及实时性有比拟高的要求，所以对于 AI 字幕技术首先在数据层面进行了钻研，具体如下。

(1) 弱监督数据生成技术

对于大量无监督的字幕视频数据，首先能够从视频数据中提取到对应的音视频以及视频自带的字幕信息，利用对应的语音辨认技术和 OCR 辨认技术，别离失去同一段音频的两个不同维度的辨认后果：一个能够认为是语音的辨认后果，一个能够认为是 OCR，也就是视频自带字幕的辨认后果。接下来将这两个辨认后果通过字音改正和字形改正两种形式，别离进行互相的对齐和交融，最终失去文本标签，该文本标签靠近于人工标注的后果。

通过这种形式能够利用到现网的无监督的字幕视频数据，在短时间内取得大量的 AI 字幕的训练数据。如果是采纳人工标注的形式，工夫老本十分大，人力老本也是十分低廉的。所以目前对于 AI 字幕畛域，弱监督数据生成技术是十分要害的环节。通过这种技术，能够生成大量的可用于 AI 字幕训练的弱监督数据。

(2) 低时延端到端转写辨认技术

AI 字幕场景的利用范畴相比于语音助手更加简单，比方在线娱乐直播、会议场景，以及影视剧实时转写场景都蕴含了十分多的噪声、音乐，以及人声等。所以在语音流程中，咱们在 VAD 模块额定减少了声音事件检测性能，该性能首先对 ASR 模型输出的音频进行声音事件检测，检测音频中蕴含常见的噪声、音乐、掌声等多个声音事件。而后将这些声音事件以标签和字幕的模式，同时通过屏幕出现给用户，进而大幅度缩小噪声、音乐以及掌声等通用转写模型辨认成果的误触发问题。

AI 字幕场景是非常复杂的，因而咱们在数据层面补充了数据加强策略。首先在数据层面对训练数据做了加噪解决，增加了混响以及背景音乐，甚至包含采样率变换以及语速变换。通过这种形式尽可能地进步 AI 字幕模型训练数据的丰盛水平，让模型或者数据可能适应于实在的用户场景。另外，针对 AI 字幕高实时性的要求，咱们也提出了动静时延的声学模型构造，采纳了多任务学习，也就是 multitask 学习形式。通过这种形式，训练的模型能够动静地适配各种时延要求。这种多任务学习的形式，也可能晋升 ASR 模型的成果，比方在实在利用中只须要将模型设置为 200 毫秒，那么其硬时延或者整体时延就是 200 毫秒左右。通过这种形式能够适配各种不同场景的实时性需要。

(3) 转写辨认后处理优化技术

用户的主观体验是十分重要的，在实现字幕辨认之后，怎么使上屏更加晦涩敌对是十分要害的，这就使用到了转写辨认后处理优化技术。

首先，AI 字幕转写文本次要采纳了一种流式标点模型，对语音辨认的后果实时打标点。当检测到标点时，间接提取标点前的辨认后果作为一句话或者一段话，如果没有检测到标点，则提取标点预测的最大概率地位作为残缺的语义片段，通过标点预测以及提取语义片段的形式，对字幕文本进行分句和分段，这样便于用户了解，也可能晋升字幕内容的可了解度。而后能够把辨认后果传送给后端的翻译模型，翻译模型依据辨认后果再进行翻译工作。

接下来思考上屏字幕的擦除率，咱们依据理论的利用场景提出了一种束缚解码算法。如图 5 所示，第一次辨认后果是“明天”，该后果通过字幕传递给用户后，把“明天”两个字固定住，持续辨认“天气”这两个字，这样“明天”这两个字在前面的辨认过程中就不会变动，也就是红色的局部会始终在屏幕上不再变动。采纳这种束缚解码的形式，可能缩小历史辨认后果的变动次数。前面的辨认后果也能够依据之前曾经解码好的后果持续解码，也就是咱们所说的束缚解码，这样能够升高整个字幕文本的擦除率，也可能进步语音转写的成果。最终用户不论是观感还是对 AI 字幕的了解度都会更加敌对，从而进步主观体验。

■图 5

接下来分享语音辨认技术的整体落地状况，次要波及咱们在语音辨认技术方面的产品和常见利用的具体案例。

目前在多语种方向咱们曾经具备了 70 个语种的语音辨认能力。其余方面，比方语音合成、机器翻译，咱们也具备了几十种到上百种的能力。另外，咱们去年加入了 open ASR 多语种语音辨认比赛，在 15 个语种的受限赛道和 7 个语种的非受限赛道全副获得了第一的问题。这也展示了咱们目前所具备的多语种相干的能力。这些能力曾经凋谢到了咱们的 AI 开放平台上，通过 AI 开放平台上提供的调用接口和服务给开发者应用。

在语音助手场景的利用方面，咱们也和国内的手机厂商等进行了深刻的单干。目前咱们具备了 12 个语种的语音助手能力，蕴含国内以及国外的产品。在语音助手的特定辨认场景方面，咱们的语音辨认准确率基本上都能达到 90% 以上，反对了搜寻、音乐、百科、天气、导航等靠近 30 多个垂类的语音助手技能。波及到产品，咱们目前次要蕴含手机、大屏、音箱、手表以及一些智能家居的具体产品。

近几年，咱们的语音助手能力曾经失去了宽泛的利用和落地，目前国内还提供除了普通话以外的方言能力。在智能汽车畛域，语音助手性能也是体现车机智能化以及差异化的特色性能。咱们目前可能提供一整套的“云 + 端”系统性解决方案，也蕴含端侧的语音助手辨认能力。同样，咱们也和国内的一些厂商进行了单干，目前“云 + 端”的系统性解决方案也曾经落地到了国内的一些上市车型中。

在 AI 字幕方面，咱们目前曾经反对了至多四个语种，别离是中文、英文、日语和韩语，这些语种的实时转写能力也利用到了一些手机产品中，正在播放的音视频能够通过 AI 字幕性能实时地转写进去，同时附带翻译。整体来看，AI 字幕在这两年也获得了长足的提高，比方在影视剧音视频、线直播、在线教育甚至在线会议等场景中都失去了宽泛的利用。

1、AI 字幕场景中的声学模型建模单元是什么以及如何解决流式辨认的准确率和低提早的矛盾？

首先咱们目前所用的 AI 字幕场景中的建模声学建模单元次要蕴含一到两种。第一种是端到端的建模计划，ASR 模型就是基于端到端的。在这种状况下，对于中文来说，其建模单元个别就是汉字，对英文来说就是英文单词。对于如何解决流式辨认的准确率和低提早的矛盾问题，准确率和提早之间能够认为是一个一直 balance 的过程，如果想要取得较高的准确率，那么提早就不能太高；如果提早低，那么准确率就会比拟差。

基于这个问题，咱们提出了一种动静时延的声学模型训练形式，能够通过 mask 机制实现动静时延，比方能够设置 200 毫秒或者 600 毫秒的时延。也能够采纳 multitask 训练形式，在模型中同时反对不同的时延的声学模型，这样就能够从两方面独特晋升 ASR 的准确率和提早成果。比方有些场景对时延要求十分高，那么就用 200 毫秒的提早；有些场景对时延要求不高，那么就能够用 600 毫秒甚至更大的提早实现准确率的晋升。

2、智能音箱为什么会忽然应答？它们是不是在实时监听四周的声音？

智能音箱是一个端到端的解决方案，它不仅波及到语音辨认技术，还波及到前端唤醒，也就是语音唤醒技术。咱们在用智能音箱的时候，可能会呈现忽然说你好的状况，这可能是前端的唤醒模块，也就是语音唤醒呈现了误触发，会把人声或者乐音辨认成唤醒词，比方，Siri 等将某些词误触发成了唤醒词，那么语音助手就会进行应答，所以整体上次要起因还是存在误唤醒的状况。

3、这里介绍的编解码和通常意义上的编解码，例如 opus 有什么区别？

opus 是一种声音编码格局，它是对音频自身进行了编码解决。咱们提到的模型的编解码是一种深度学习的网络结构。端到端模型由一个 encoder 和一个 decoder 组成，encoder 就是咱们常说的编码器，它是对输出的音频做了特征提取以及声学建模相干的工作。解码器也就是通常说的 decoder，它是对编码器所编码的向量的特色示意，而后解码成对应的文字和或者其余的辨认后果。咱们明天介绍的编解码，相当于一个端到端的构造。在这个端到端的构造中，输出是咱们常见的音频，输入是对应的辨认后果，也就是文字。这是它们的实质上的区别。

对于声网云市场

声网云市场 通过集成技术合作伙伴的能力，为开发者提供一站式开发体验，一站式解决实时互动模块的选型、比价、集成、账号买通和购买，帮忙开发者疾速增加各类 RTE 性能，疾速将利用推向市场，节约 95% 集成 RTE 性能工夫。

讯飞语音实时转写（中 / 英）插件 目前曾经上架声网云市场，反对中文和英文实时转写，返回带准确工夫戳的文字流，可用于生成字幕，实用于各类直播、语音社交、视频会议等场景。大家能够点击此链接立刻体验。

关于音视频:马志强语音识别技术研究进展和应用落地分享丨RTC-Dev-Meetup

01 语音辨认技术现状

1、语音成为万物互联时代人机交互要害入口，语音辨认市场空间稳步进步

2、“一带一路”建设须要语言互通，多语种辨认需要日益强烈

3、实时音视频业务 AI 字幕无效晋升用户体验和沟通效率

4、语音助手业务场景面临的技术挑战

02 语音辨认技术研究进展

1、关键技术

2、语音助手技术停顿

3、AI 字幕技术停顿

03 语音辨认技术利用落地

问答环节