关于音视频:依图在实时音视频中语音处理的挑战丨RTC-Dev-Meetup

前言

「语音解决」是实时互动畛域中十分重要的一个场景，在声网发动的「RTC Dev Meetup 丨语音解决在实时互动畛域的技术实际和利用 」流动中，来自百度、寰宇科技和依图的技术专家，围绕该话题进行了相干分享。

本文基于依图 AI SaaS 技术负责人周元剑在流动中分享内容整顿。关注公众号「 声网开发者 」，回复关键词「DM0428」即可下载流动相干 PPT 材料。

依图是一家做 AI 基础设施和 AI 解决方案的提供商，领有的 AI 技术能力绝对比拟宽泛，包含图片、视频、语音、自然语言解决等，除具备 AI 算法能力外，也能提供 AI 算力。

大家理解依图的背景后，我来说下依图在直播场景下遇到的与音频内容审核相干的挑战。

■图 1

图 1 展现了直播场景下内容审核的业务流程。

根本过程是：主播先上麦直播，而后流就会被推送到平台，平台将审核申请发给供应商，审核的供应商（比方依图）通过地址获取流，并对其进行解码，实时剖析找出违规的内容，再通过回调模式把数据返回给客户。客户收到数据后，个别须要进行二次的人工复核，如果确认是违规内容，那么就会进行后盾解决，比方进行直播或者删除账号等。

将零碎外部的算法模块开展，如图 2 所示能够分为这三类，一类是根底的语音辨认（ASR）；第二类是文本分类，次要用于依据辨认出的文本判断其中蕴含哪些违规内容。第三类是非语言辨认，如果违规内容不是通过文字来表白的，就能够通过这部分进行辨认。

■图 2

首先介绍在 ASR 中遇到过的挑战。

总体来说，次要遇到的挑战有两点：第一点是强背景音的烦扰，在互联网的语音场景下，通常伴有背景音乐或者游戏音效，环境个别比拟嘈杂，甚至还会存在多人谈话的状况，相比一般场景，这些特点叠加起来的语音辨认难度会大大增加。

第二点是特定专有词的辨认。某些违规词汇在生活中不经常出现，所以在语音辨认的时候，如果没有进行专门的优化，会偏向于把音节辨认成更常见的词，从而导致违规词的漏报。

2.1.1 强背景音性能优化

那么，如何应答这样的问题呢？针对强背景烦扰问题，咱们通过各种尝试，总结下来最无效的办法是从数据方面进行解决。

数据方面次要有两个优化： 第一个是依据业务场景来创立一个比拟精密的环境音模拟器，通过模拟器进行数据加强 ，这种办法在其余畛域曾经失去过验证，比方特斯拉的主动驾驶模型在训练过程中也是采纳相似的技术来晋升性能。

依图从发声模仿、房间模仿、收声模仿、信道模仿等多个维度构建了一个模拟器。在每个维度下能够进行参数调整，比方谈话人的数量、语速语调或者背景音、声源的地位方向、失声成果、混响等。总体来说，大略有上百种参数能够进行调整。通过模拟器能够改善原来绝对比较简单的训练数据的丰盛度，使训练数据更贴近特定的场景，从而获得不错的性能晋升成果。

另一个晋升伎俩就是通过难例开掘来进行训练 。在失常模型的训练过程中有正例数据也有负例数据，在蕴含大量数据的状况下，总是会存在一些正例数据与负例数据类似的状况，这样的数据通常称为难例，就是比拟难的数据。在线难例开掘就是在模型的训练过程中，重复把难例数据增加到训练中。相似错题本，通过错题本记录不太会的题目能够晋升问题。

这种形式利用到难例训练，能够让模型学到更多不容易辨别的细节，进而取得不错的性能晋升。通过以上技术，在有强背景音的数据分布下，模型也能获得不错的体现。

2.1.2 特定专有词辨认

后面提到另外的一个挑战是专有词的辨认。这里举一个例子，如图 3 所示，这里是对一段音频中文字的翻译，能够看到，如果之前没有听过“磕泡泡”这个词的话，则大概率无奈辨认进去这段话的含意。有可能是会把“磕泡”听成“可怕”。

■图 3

针对这个问题，咱们通过尝试，发现有两个办法改良比拟无效：第一个办法是在模型训练的时候，对专有词的 loss 强度进行权重的晋升，也就是说，专有词如果做错，将给予更高的惩办。比方下面的这个例子，失常状况下，说错一个字就扣 1 分，如果“磕泡泡”说错，就设置为扣 2 分。通过这种模式，模型就会更加致力地防止专有词辨认谬误。

第二个办法是在解码的时候调整搜寻词库的候选词范畴。如图 4 所示，语音辨认算法工作的时候，首先是通过语音频谱的信号辨认每个音素，而后把音素转换转成可能的文本。

■图 4

针对专有词的优化，在把一连串的音素翻译成文本的时候，能够抉择更多的候选词。比方在之前的例子当中，如果“磕泡”这两个字不在候选词的列表当中。那么无论如何都不可能正确辨认出“磕泡炮”这个词。

这样的想法相对来说比拟直观，然而实现之后会引入一个新的问题，那就是计算量会大幅度减少，基本上计算量的减少是呈平方级的复杂度。如果是在非实时的业务场景下，计算量的减少影响可能不是特地大。然而如果是在直播场景下，计算量的减少就有可能导致提早变长。

这在直播对提早比拟敏感的状况下影响较大，所以要解决速度速度问题，一般来说比拟好的直播是依照秒级进行审核，最差的要求也是分钟级。依图的减速计划是动静决定候选词的搜寻范畴，回到业务场景来看。内容审核并不是要求所有语句都必须辨认得十分精确，最要害的问题是精确辨认违规词，那么能够利用这一点来进行优化。

具体来说，当发现后面一个音素中可能存在违规词的时候，就对后续候选词的解码搜寻范畴进行裁减。这样既不会漏掉低频的违规词，同时也是能够防止对最终业务后果没有影响的计算，从而整体上大大减少计算量，保障业务的实时性。

2.2 非语言辨认

在直播场景中，非语言辨认的需要次要集中在重要人物的声纹识别、敏感音频检测、语种分类和后果交融等。

2.2.1 敏感音频检测

首先介绍敏感音频检测，敏感音频检测就是辨认一段音频是否蕴含 ASMR 等违规语音。在敏感音检测方面遇到的技术难点次要有两个：第一个是敏感内容很短且长度不定，在直播当中，发布者为了躲避审查，可能会将敏感音混淆在失常的谈话中，这就导致敏感音时长个别比拟短，从而具备隐蔽性。第二个是数据的违规浓度低，违规浓度低意味着是必须要有较低的误报能力缩小人工审核的老本。在低误报的状况下，同时还要放弃高召回，这对算法的鲁棒性有较高的要求。

针对敏感音频检测敏感内容比拟短的问题，如图 5 所示，次要是从算法网络层面进行优化。

■图 5

通常算法在进行检测的时候，会把一条数据作为一个整体来解决。当违规内容比拟短的时候，则其余失常内容的声音信号就会将异样违规的信号掩盖住，recall 就会升高。

防止这种状况的办法，个别是把整条数据切分成更小的片段，这确实能够防止失常声音的烦扰，但同时也失去了音频本来具备的上下文信息，从而导致误报。依图通过屡次尝试和调研，应用了 Attention 机制来解决这样的问题。

Attention 在这几年的倒退当中，不仅是在机器翻译，在文本、图像、语音等各个方面都获得了不错的成果。简略来说，就是给定一条序列数据，先算出这个序列当中哪些地位的数据是比拟重要的，而后针对这些比拟重要的地位的数据投入更多的关注度。

对应到场景来说，在接管到一条音频数据的时候，通过 Attention 机制既能够保留残缺的信息，同时又可能判断出哪些地方更有可能是敏感音，从而调配更多的辨认关注度，在整体上晋升算法性能。

另一个挑战是针对低浓度下要求低误报高召回的挑战。咱们采取的计划是用迁徙学习预训练的办法来进行性能晋升，如图 6 所示。迁徙学习在各个领域也失去了大量的利用。咱们是在其余曾经训练得比拟好的模型的根底上，对本人想要的模型进行额定的训练，最初失去一个比拟好的模型，相当于咱们是站在伟人的肩膀上做了后续的工作。

■图 6

此前，依图在国内外的声纹较量中获得过不错的问题，因为敏感音频其实与声纹相干，而声纹自身也是同样类型的一个算法工作，所以咱们很天然地思考把这个劣势迁徙到敏感音频检测这个工作上。

如图 7 所示，依图声纹模型的特点是能够学习信道、环境等的不变性，从而对多种信道环境具备算法的阻断性。咱们抉择用本人的声纹模型作为敏感音检测模型的初始化模型，这样敏感音检测模型就继承了声纹模型的个性，使其在多种信道环境下的算法性能具备很好的鲁棒性。

■图 7

2.2.2 语种分类

语种分类的工作是判断输出音频中蕴含的语言品种。一般来说，在直播场景当中，主播说非中文语言的内容对平台来说是比拟危险的事件。比方抖音上专门进行英语教学的主播是不敢始终应用英文进行教学，如果始终应用，比方继续一到两分钟，则很快就会收到平台收回的违规揭示。

如果有了语种分类的性能，对平台来说这种危险就会大幅度降低。平台就能够疾速地找出有危险的直播间。如果平台的审核团队能够听懂主播的语言就可能粗疏地察看是否有违规的内容；如果审核团队听不懂。那么最简略的办法就是关掉直播间，平台就能防止这种危险。

在语种分类中次要遇到三个挑战：

第一个是信噪比低的数据容易呈现误报或漏报。起因可能是环境乐音、混响回声、远场收音失真、信道失真等，如果再加上背景音乐或者直播特效的烦扰，更是减少了语种分类的难度。

第二个挑战是语种数量较多导致难以训练。世界上可能涵盖了数千种语种，导致数据的收集或标注的难度都十分高，咱们很难获取到大量的高质量能力的训练数据。

第三个挑战是传统算法思路个别具备局限性。如果一个人会说多种语言，则仅通过声纹信息可能无奈判断；而在进行唱歌等场景下的分类时，模型容易过拟合到背景音乐上，导致泛化性较差；当语言的片段比拟短的时候，可能难以抽取到比拟精确的发音特色。

这些问题与之前介绍的挑战比拟相似，这里不开展剖析，如图 8 所示，通过数据加强，以及算法网络改良，预训练等多种手段就能够解决。目前依图线上的客户也始终在应用语种分类性能，从实战场景中观测，整体的准召还是不错的。

■图 8

对于声网云市场

声网云市场是声网推出的实时互动一站式解决方案，通过集成技术合作伙伴的能力，为开发者提供一站式开发体验，解决实时互动模块的选型、比价、集成、账号买通和购买，帮忙开发者疾速增加各类 RTE 性能，疾速将利用推向市场，节约 95% 集成 RTE 性能工夫。

依图实时语音转写（中文）目前曾经上架声网云市场。依图实时语音转写提供流式语音辨认能力，反对中文普通话，并且兼容多种口音。一边接管音频数据，一边提供转写后果，让您可能实时获取和利用文字信息。

关于音视频:依图在实时音视频中语音处理的挑战丨RTC-Dev-Meetup

01 直播内容审核的业务流程

02 直播音频审核算法模块

2.1 语音辨认（ASR）技术难点