关于算法:基于深度学习的实时噪声抑制深度学习落地移动端的范例

在实时通信技术迅猛发展的明天，人们对通话时的降噪要求也一直进步。深度学习也被利用于实时的噪声克制。在 LiveVideoStackCon 2021 上海站中，声网 Agora 音频算法负责人冯建元分享深度学习落地挪动端的范例，遇到的问题和将来的瞻望。

文 / 冯建元

整顿 / LiveVideoStack

尊敬的各位来宾大家好，我是来自声网的冯建元。明天给大家介绍一下咱们在如何基于深度学习做实时噪声克制，这也是一个深度学习落地挪动端的范例。

咱们就依照这样一个程序来进行介绍。首先噪声其实是有一些不同的品种，它们是如何进行分类的，如何抉择算法并怎么通过算法去解决这些噪声的问题；另外，会介绍如何通过深度学习的形式去设计一些这样的网络，如何通过 AI 的模型去进行算法的设计；另外，咱们都晓得深度学习网络的算力，模型不可避免的都会比拟大。咱们在落地一些 RTC 的场景时，不可避免会遇到一些问题，有哪些问题是须要咱们解决的，如何解决模型大小的问题、算力的问题；最初会介绍目前降噪能达到什么样的成果和一些利用的场景，以及如何能将噪声克制等做得更好。

先理解下咱们平时的噪声都有哪些品种。

其实噪声不可避免的会跟着你所处的环境，所面临的物体都会收回各种各样的声音。其实每一个声音都有本人的意义，但如果你在进行实时沟通时，只有人声是有意义的，那其余声音你可能会把它认为是乐音。其实很多噪声是一个稳态的噪声，或者说安稳的噪声。比如说我这种录制的时候可能会有一些底噪，你当初可能听不到。比如说空调运行时会有一些呼呼的风声。像这些噪声都是一些安稳的噪声，它不会随着工夫变动而去变动。这种能够通过我晓得这个噪声之前是什么样的，我把它 estimate 进去，就通过这样的形式，在之后如果这个噪声始终呈现就能够通过很简略的减法的形式把它去掉。像这种安稳的噪声其实很常见，但其实不是都那么安稳，都能那么不便的去去除。另外，还有很多噪声是不安稳的，你不能预测这个房间里会不会有人忽然手机铃声响起来了；忽然有人在旁边放了一段音乐或者在地铁、在马路上车子呼啸而过的声音。这种声音都是随机呈现的，是不可能通过预测的形式去解决的。其实这块也是咱们会用深度学习的起因，像传统的算法对于非稳态的噪声会难以打消和克制。

在应用场景上来说，就算你是很宁静的会议室或者在家，可能也不可避免的会被设施引入的一些底噪或一些突发的噪声都会产生一些影响。这一块也是在实时通信中不可避免的一道前解决的工序。

抛开咱们平时会碰到的这些噪声在感官上的了解。看到它在数字方面，在信号层面是一个怎么样的体现。噪声，声音都是通过空气的流传介质的流传最初到你耳朵里，通过你耳毛的感应，最初造成心里的感知。在这些过程中，比方咱们采纳一些麦克风的信号，在一些采集的时候它是一个 wave 的信号。它是一些高低震荡的一些波形。那如果是洁净的人声，他谈话的时候会看到一些波形，他不谈话的时候根本就是 0，那如果加上一些噪声它就会变成左边一样，会有波形上的一些混叠，噪声的触动会和人声的触动混叠在一起，会有一些模糊不清。即便不在谈话也会有一些波形。这是间接从 wave 信号的层面，如果说把它通过傅里叶变换，变到频域上来看，在不同的频率上，人声的发音个别在 20 赫兹到 2k 赫兹之间，人还会有基频、振峰、谐波的产生。你能够看到人在频谱上是这样一些形态，然而你加上噪声会发现频谱变得模糊不清，频谱不该呈现能量的中央有很多能量。

做噪声克制其实就是做一个 inverse，一个反向的过程。把这些时域的信号通过一些滤波的形式变成一个污浊的信号。也能够通过频域的形式把这些嘈杂的噪点去掉，造成一些比拟污浊的语料。

降噪这种算法很早之前就有了，在贝尔实验室创造电话的时候就发现噪声会有很大的通信的影响。不同的信噪比会导致因为香农定理影响你的带宽，你是一个污浊的信号甚至能够用比拟小的带宽进行一个传输。在 2000 年之前咱们能够把这些算法统称为，知之为知之。

第一块，它们次要针对比拟稳态的噪声就是 Stationary Noise，为什么叫知之为知之呢，就是你不再谈话没有人声的时候就只有噪声，另外你去通过静音段噪声的捕获去构建出噪声的一些散布。因为它是稳态的噪声，它随着工夫的变动也没有那么激烈，当前就算是有人声了，你也能够通过你 estimate 好的模型去进行一些谱减或者是维纳滤波的形式解决。像这种 Stationary Noise 是因为一开始咱们的元器件有很多底噪，所以他们第一个会干掉这种 Stationary Noise 的噪声。其实办法来说就是一些谱减法、维纳滤波，起初可能有高级一点波差、小波合成，这些办法都万变不离其宗，它会通过静音段 estimate 它的这样的 noise，在当前的过程中就能够通过一些谱减的办法来解决。

缓缓大家会发现除了 Stationary Noise 其实平时通话中想要只保有人声，其余的噪声也要解决，这块到了 2000 年之后咱们会说，因为其实人的声音的散布和风的声音的散布是不一样的，有些风声通过麦克风的，比方我这样吹的，低频局部可能会高一些，高频局部可能衰减的更快。其实都是通过聚类的形式能够把人声和噪声合成开来，次要的思维都是把声音的信号投射到更高维的空间进行聚类，聚类的形式就会有些自适应的办法缓缓能够去应用，也相似于深度学习的前身，会把声音分成不同的品种，在高维空间进行降噪时把合乎人声的特点保留下来，其余局部舍去就能够做到。这块办法来说比方 Subspace 空间合成，在图像畛域大获胜利，在音频畛域去风噪也比拟好的非负矩阵合成。再比如说不止一种噪声，要合成出好多种噪声，像字典学习这种形式也是能够做的。

像常见的一种噪声咱们把它叫 Non-Stationary Noise with Simple Patterns，是不稳固的噪声，像呼呼的风声，但它可能有固定的模式。比方呼呼的风声有时呈现有时没有呈现，但它是遵循风的低频比拟密集等等这种特色。其中是能够通过一个一个去学习，比方风声、雷电的声音、底噪的声音等等，能够通过学习的形式去实现。当初咱们发现，物以类聚的话，噪声的品种是无穷无尽的，每一种机械每一种摩擦每一种风吹过的声音导致的涡流可能都是不一样的。在这种状况下很多噪声混叠咱们无奈去穷尽，这时候咱们就想到通过大量数据去训练一个模型，这样采集到的噪声也好人声的混加也好，能过通过一直的去学习，咱们叫它游刃有余 2020。通过训练的形式，通过大量的数据样本，能让模型学到足够的常识，对噪声更加鲁棒，不必一个一个去做合成。

依照这样的思路，曾经有很多深度学习的模型能够做到这样噪声的克制，同时保障它对不同的噪声都有克制成果。

很多噪声不是繁多存在的，尤其是一些复合的噪声。比方你在一个咖啡馆里可能会听到那些觥筹交错的声音混杂着各种人在聊天谈话的声音。咱们把背景的人声叫 Babble noise，Babble 就是呢喃的声音，这种背景的噪声你也是想去掉的。多个声音混淆在一起你就会发现它的频谱就像洪水过路个别所有货色都混淆在外面，会很难去去除。如果你用传统的算法，它把显著的人声会保留，比拟高频的混叠会更加重大，其实很难去辨别开，它把在 4k 以上的高频对立当成噪声去除掉了。这是传统降噪办法的一些缺点。

像深度学习的办法，判断一个降噪办法的好坏次要是两点：

第一点，对原声人声的保留水平是怎么样的，是不是对语谱的伤害尽量的小。

第二点，把噪声去得尽量的洁净。

满足这两点，左边是深度学习的办法，语谱在高频也能够失去保留，同时噪声也没有混淆在其间。

当初针对深度学习办法怎么去设计。

和其余深度学习一样也会包含这几个步骤。

第一步，喂给模型什么样的输出，输出能够去进行抉择，咱们的声波信号能够通过 wave 的模式通过频谱的模式或者是更加高维的 MFCC 的模式甚至心理听阈 BARK 域的模式去给到它。不同的输出决定了你的模型采纳的构造也不一样。在模型构造上，可能会抉择相似图像的，如果是频谱可能相似 CNN 的办法去做。声音是有肯定工夫连续性的，你也能够通过 waveform 间接去做。这块抉择不同的模型构造，然而咱们发现在挪动端的时候，也会受到算力和存储空间的限度，可能会对模型进行一些组合，不是用繁多的模型去做。在模型的抉择这块会有所考量，另外一块也会比拟重要就是抉择一个适合的数据去训练模型。

训练模型的过程比较简单，就是把人声信号和噪声信号混在一起喂到程序里，这样模型会给你一个污浊的人声信号。这时就会抉择我这个数据是不是为了 cover 所有不同的语言，上一个会议上也提到不同的语言组成的因素也是不一样的，比方中文会比日文多五六个音素，如果是英文还有五六个音素和中文是不一样的，为了 cover 住这些的语言可能会抉择多语言的数据。另外一块性别也是不一样的，如果语料训练不够平衡，对男声和女声的降噪能力可能有所偏差。另外噪声上的类型可能会有一些抉择上的思考，因为不可能把所有噪声都穷尽，所以会抉择一些 typical noise。这边大略列举进去，不同 Feature 的抉择，模型的设计，以及数据的筹备回来看看要留神哪些方向。

咱们先看一下咱们会抉择什么样的数据给到模型。

第一个思考的是把最原始的 wave 信号做一个端到端的解决生存一个 wave 信号。这个想法一开始的时候是被否定的，因为 wave 信号和它的采样率无关，可能 16K 的采样率 1 帧 10 毫秒会有 160 个点，数据量十分宏大如果间接喂的话可能导致模型解决须要很大一个模型能力 handle。咱们在之前就在想能不能转化成频域，在频域上做能缩小数据的输出。在 17、18 年之前都是在频域下来做这个事件，然而在 2018 年像 Tasnet 模型曾经能通过时域端到端的去生成降噪的一个成果。

频域可能会更早一些，之前在频域上做噪点的去除，通过掩码的模式去解决噪声的问题。比方把噪声的能量去除掉只保留人声的能量。

19 年有一篇 paper 做了一个比拟，无论从时域还是频域都能够失去一个比拟好的降噪成果，而且模型计算复杂度不是相当的。这个输出信号不会很大水平上决定你模型的算力或者成果，就是能够的。

在这个根底上，时域频域都是能够的话，咱们想要进一步缩小模型的算力可能须要选用一些高维度像 MFCC 这种模式去做，这块也是一开始设计模型考量的中央。依据算力限度，原本 200 多个频点到 MFCC 只有 40 个 bin，这样就能够缩小输出。因为声音存在一些遮蔽效应你可能把它分成一些足够细小的子带就能做到噪声克制的作用，所以也是卓有成效能缩小模型算力的办法。

刚刚是讲到信号的输出，在做模型构造抉择的时候也会有很多对模型构造算力的考量，能够把模型算力的复杂度和模型参数量画一个 XY 轴去表正。像一些 CNN 办法，因为是卷积的存在，外面很多算子是能够复用的，卷积核能够在整个频谱上复用。这种状况下，在同样参数构造中它的算力复杂度会最高，因为它是复用的它的参数量就很小。如果一些手机 APP 对参数量有限度，比方手机 APP 不能大于 200M 可能模型给你的空间就 1 - 2 兆，这种状况下尽量抉择 CNN 模型。

参数量并不是一个很大的限度而运算力可能会受到一些挑战，比方一个算力较差的芯片，只有 1GHz。这时卷积神经网络的形式并不是适宜的，这时可能是用一些 linear 这种层来表征，所以 linear 也是矩阵乘。矩阵乘在一些 DSP 芯片和传统 CPU 方面体现的算力都不是很高，毛病是每个算子是不可复用的。这种状况下参数量比拟大，但计算力上可能会更加的小。但只用 linear 这种形式就像 DNN 一样只有 linear 层，就是它参数很大算力也很大。

后面提到人的谈话工夫是有连续性的，能够用 RNN 这种有短时或长时记忆的这种形式，把参数通过实时的自适应去记忆出以后噪声的状态，这样能够进一步缩小它的算力。

综合下来说，当你抉择模型时尽量少去应用 linear layers，这种会带来很大参数量的晋升和算力的晋升。你能够去交融这些不同的构造，比方先用 CNN 再用 RNN 这种 CRN 的模式，那它第一步通过压缩你输出的维度，再通过长短时记忆的形式，把模型算力进一步的缩小。

依据不同场景，如果做离线的解决，可能应用双向的人工神经网络去做成果可能是最好的。在 RTC 场景中不能去减少提早。像 LSTM 这种单向型的网络可能更加适合。如果想进一步缩小算力，三个门的 LSTM 还是太大那就用两个门构造的 GRU 等等，在一些细节上晋升算法的能力。

怎么抉择模型构造和应用场景和算力无关。另外一块就是怎么抉择喂到模型的数据。数据外面一块是语谱的伤害，要筹备更充沛洁净的语料，外面包含不同的语言、性别，以及语料自身可能含有底噪，尽量抉择录音棚消音室录的比拟污浊的语料。这样你的 reference 决定了你的指标可能是比拟污浊的，成果会更好一些。

还有一块是能不能 cover 住噪声，噪声是无穷无尽的，能够依据你的场景，比方会议场景抉择一些比拟典型的办公室里的人声、手机提示音等等，这些作为训练语料。其实很多噪声是简略噪声的一些组合，当简略噪声数量足够多的时，模型的鲁棒性也会晋升，哪怕是一些没有见过的噪声也能 cover。噪声有时不能收集的话能够本人做一些，人工合成一些，比方日光灯管、辉光效应造成的杂音、50 赫兹的交流电时时刻刻都在开释 50 赫兹、100 赫兹的谐波的噪声。这种噪声能够通过人造的办法去退出训练集外面晋升模型的鲁棒性。

假如咱们曾经有一个比拟好的模型了，在落地时会遇到哪些艰难呢？

在实时互动的场景中，首先它有别于离线的操作，对实时性的要求更高，它要求逐帧计算，非因果不可用，将来的信息是无奈去取得的，这样的场景下一些双向的神经网络不可用。

另外要去适配不同的手机、不同的挪动终端，这外面受到各种芯片算力的影响，如果想应用更加宽泛模型算力会有限度同时模型参数大小也不能过大，尤其是调用芯片是模型参数量很大算力不是很高，然而因为参数的读取 IO 的操作也会影响到模型最终体现。

场景的丰富性方才也有提到，一些比拟胜利的，不同语音比方中英文、日文的 cover 水平以及噪声的类型。在实时互动场景中不可能让每一个人都在同一个场景说同样的话，场景的丰富性也要思考其中。

在这样一些条件下，如何去落地深度学习呢？咱们能够从两个方面去解决这些问题。

首先，算法方面能够通过算法解围的形式。刚刚有提到一点，像全卷积的、全 linear 的，对它的参数对它的算力都有不同，能够通过不同模型的组合，针对不同算力能够组合出不同算力的构造。成果来说可能会有一些偏颇差别，什么样的机型能实用什么样的算法，能够通过这样的模型构造来解决，整体来说是一个组合式的算法，通过模型组合使它的算力能尽量满足它的芯片和存储空间的要求。

第二，整个算法的场景是不一样的，所以会抉择不一样的模型去解决，在一开始如果可能抉择出场景，比方会议场景，不可能会有音乐、动物的叫声，这些噪声指标就不必特地关注，这些货色能够作为模型裁剪的方向。

算法自身可能模型就是这么大，进去还是一个 5 - 6 兆的参数，你可能感觉它还是不够。或者说它的算力在挪动端不进行优化，它在内存的调用，芯片存储 cache 的方面可能都会有问题。会影响到它在推理过程中，理论应用过程中的后果，明明在训练时跑的是 ok 的，但在落地不同芯片时跑的是不一样的。

在工程上也会进行解围，次要针对模型推理以及一些解决的形式会有所不一样。首先在模型方面会做一些算子的优化，在训练搭建模型的时候都是一层层加上去的，但很多算子能够进行一些交融，包含算子交融、凸优化。一些参数做模型的剪枝、量化，这些都是能够进一步缩小模型的算力以及参数量的大小。

第一步就是对模型进行一些裁剪量化，这一块曾经能做到让你的模型是最优的最合乎场景的。另外在不同的挪动终端它的芯片也是不一样的，有些手机可能只有 CPU 有些好点的手机会有 GPU NPU 甚至会有的 DSP 芯片甚至能凋谢它的算力。

这块咱们能更好的去适应芯片，会有一些不同的推理框架，各家都会有一些比拟开源的框架能够去应用，比方苹果的 Core ML、谷歌的 TensorFlow Lite，它会把芯片调度编译层的优化做在外面。在这步上来说，做和不做差别是十分微小的，因为整个算法怎么运算是一回事，怎么做内存调用、矩阵的计算、浮点计算还是另一回事。做工程化的优化，这种成果可能是百倍的晋升。优化能够用开源的框架去做，也能够本人做一些编译的优化，如果你对芯片的算力比拟相熟，比方不同的 cache 的怎么调用，它的大小是什么，你能够本人去做。可能你做进去的后果比这种开源的框架更有针对性，成果会更好。

在咱们把模型和推理引擎整合起来之后，就是咱们最初的产品，咱们简直能在所有的终端做好适配，在所有芯片上残缺工程化的一个产品，这样能实时应用。

咱们当初听一听降噪成果是什么样的。

【因为平台无奈上传音频，所以感兴趣的开发者能够通过拜访该链接来试听】

听完这些 demo 后，看看咱们能做什么让成果变得更好，场景变得更多一些呢？

咱们还有很多难以解决的问题。包含一些音乐信息的保留，如果你是在一个音乐场景去开降噪，你会发现伴奏都没有了只剩下人声，这些场景可能会通过更精细化的形式，比方音源拆散的形式，能不能把乐器的声音也保留，但有些音乐听下来像噪声是比拟难以解决的一个畛域。另一块像人声、像 Babble noise，背景的这种噪声有时和人声比拟难以区别，尤其像鸡尾酒效应，大家都在谈话，通过 AI 断定哪个人谈话是真正无效的是比拟难。噪声克制，比如说咱们做的都是单通道的，采纳一些麦克风阵列可能会做一些指向性的降噪，但这些也是一个比拟难的中央，什么声音值得保留，人声和背景声如何分辨这块也是比拟难的方向，这也是将来咱们会去摸索的一个比拟明确的方向。

我的分享就到这里，谢谢大家。

The cover from creativeboom.com

关于算法:基于深度学习的实时噪声抑制深度学习落地移动端的范例

01. 噪声的分类与降噪算法的抉择

02. 基于深度学习的算法设计

03.RTC 挪动端窘境

04. 如何落地挪动端

05. 降噪 demo 试听

06.Can we do it better？

Just My Socks（注册教程内含优惠码）

关于算法:基于深度学习的实时噪声抑制深度学习落地移动端的范例

01. 噪声的分类与降噪算法的抉择

02. 基于深度学习的算法设计

03.RTC 挪动端窘境

04. 如何落地挪动端

05. 降噪 demo 试听

06.Can we do it better？

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）