关于算法:音频-3A-处理实践让你的应用更动听

五月底，咱们在周末刷屏中轮流感触了一次罗大佑和孙燕姿的“联结”演唱会，个体追忆青春，一整个 DNA 动了。关注【融云寰球互联网通信云】理解更多

疫情影响下，在人头涌动的体育馆相会变得遥遥无期，用线上的形式和大家见面，促成了多场引起大家强烈共鸣的线上演唱会。

事实上，咱们在把很多线下的场景搬到线上，演唱会只是其中之一。语聊房、KTV、教学……在 RTC 实时音视频技术的反对下，线上玩法更加丰盛，也给技术实现带来新的挑战。

尤其是在有音乐参加的场景玩法中，对音质出现的高要求就须要引入 3A 算法，并依据不同场景做针对性方案设计。

3A 音频解决技术，是声学回声打消（AEC）、背景噪声克制（ANS）、自动增益管制（AGC）三种音频算法的合称。

在音频数据的处理过程中，在音频数据采集实现之后须要进行预处理，3A 是预处理的要害。

（音频解决流程图）

回声打消（AEC）是指在二线传输的两个方向上同工夫、同频谱地占用线路，在线路两个方向传输的信号齐全混在一起，本端发信号的回波就成为了本端信号的干扰信号，利用自适滤波器可对消回波以达到较好的接管信号品质，即为回声打消。

回声打消的原理就是利用接管到的音频与本地采集的音频做比照，增加反向的人造回声，将远端的声音打消。

在容易产生回声的通信场合，自适应回声打消算法 是一项不可短少的技术，其次要应用领域有视频会议零碎、免提电话、可视电话终端、挪动通信或声控零碎及会议麦克风等。

尤其在视频会议零碎和免提语音通话中，回声的存在重大影响会议品质，特地是在企业近程会议中，因为传输延时加大，回声的影响更加顽劣显著。

背景噪声克制（ANS）指的是将声音中的背景噪声辨认并进行打消的解决。

背景噪声分 均衡噪声 和刹时噪声，安稳噪声频谱稳固，刹时噪声频谱能量方差小，利用噪声的特点，对音频数据增加反向波形解决即可打消。

目前，对于安稳的噪声曾经有很多种简略办法可能胜利克制，然而生存中常见的一些瞬态噪声却仍然不足好方法。

瞬态噪声的独特特点就是突发性极强，在时域上呈振荡瘦弱的模式，持续时间在十几毫秒至上百毫秒不等；在频域上散布很宽，瞬态噪声的频谱基本上是和失常语音的频谱混叠在一起，很难进行克制。

自动增益管制（AGC）次要用于调整音量幅值，进步语音通信零碎在带噪声环境中的性能。

人们失常交谈的音量在 40-60dB 之间，低于 25dB 的声音听起来很吃力，而超过 100dB 的声音会让人感到不适，AGC 的作用就是将音量调整到人承受的范畴。

音频响度及麦克风拾音管制是保障音视频沟通品质的重要技术手段，一般来说，音频规范、传输条件、人为失误等因素都可能导致音频信号之间呈现声音渐变或者响度不统一的状况，这时候就须要对音频信号放大或放大以失去天然清晰的语音通信。

每个场景对于音质的要求和解决形式都是不一样的。为了提供更优质的服务，融云在不同场景下施行针对性的 3A 策略适配，力争给客户带来最好的音质体验。

通话场景以 清晰人声 为优先要求，无论用户身处嘈杂的户外还是在公开车库的弱网状况，对于清晰稳固的人声接管，都是通话场景的最外围诉求。

在通话场景中，融云如何针对性设置 3A 解决呢？

首先是 ANS 克制背景噪声，将用户所在环境中的背景噪声最大水平地克制掉。

均衡噪声是背景噪声的次要因素，该局部克制起来并不艰难。难点在刹时噪声，刹时噪声个别是忽然呈现在通话过程中的，比方飞机呼啸而过，学校的下课铃，汽车的鸣笛等等，这就须要通过 AI 算法智能降噪。

AI 降噪 能够通过模型训练的形式，辨认出须要过滤掉的刹时噪声，随着语料库的逐步扩充，AI 降噪的成果也会越来越好。

其次是 AEC 回声打消，回声打消是否开启也取决于用户是否应用了外接设备。比方，用户若应用耳机来进行通话，是不会产生回声的，天然也就不须要开启回声打消。

若间接应用手机麦克风和扬声器进行通话，就须要开启回声打消性能了。回声打消性能会对本地的人声产生肯定的抑制作用，所以对于不同的音量范畴和声音清晰度要求，回声打消的强度也会不同。

例如，在通话过程中，应用扬声器外放，并且把音量开启到最大，回声克制就能够开到最大，尽可能地将回声全副打消掉。相应地，本地人声也会受到最大水平的克制，须要在保障对方能够听分明的前提下进行克制水平的调整。

最初是 AGC 自动增益，它和回声打消克制人声有肯定先后逻辑，人声克制后，通过自动增益来放大声音，让声音达到对端听分明的水平。有一些手机的扬声器自身音量增益很小，也能够针对不同的机型做声音的增益，让本端的播放音量更清晰。

语聊房场景中，人声仍然很重要。然而语聊房的一个重要特点是，须要在房间内 播放音乐来衬托氛围，达到业务场景中的娱乐作用。

主播唱歌展现才艺，也是晋升用户活跃度和营收的重要抓手。

那如何保障主播唱的歌传到观众端仍然柔美难听呢？这就与 3A 有很大关系。

首先是 ANS 克制背景噪声，这里的需要和通话过程中是一样的，要将背景中的乐音全副去掉。

其次是 AEC 回声打消，绝大部分主播会应用外接耳机设施来进行直播，不须要思考回声状况。

在主播应用手机麦克风和扬声器的状况下，回声打消水平不能太大，否则会影响麦克风采集到的主播说话声。这就须要达到的一个奥妙的均衡，既要让音乐高音质地公布，又要保障麦克风采集到的主播人声不会因为回声打消而被克制太多。

最初是 AGC 自动增益，须要对麦克风采集到的主播声音和音乐的声音依据原始采集设置的音量别离进行增益管制，不能让音乐声过大而遮盖住人声，也不能让音乐声太小而达不到衬托氛围的成果。

音乐教学场景对于人声的要求仍然是清晰稳固，对于音乐的要求比语聊房更高。因为不同的乐器须要采集的腔调范畴会大很多，为了在远端还原出乐器的原始声音，就须要 3A 做非凡的解决了。

首先是 ANS 克制背景噪声，在音乐教学场景中，背景噪声克制的水平绝对低一些，以保障乐器采集的声音不会在波峰地位被减弱，导致音高呈现损失的状况。

与通话场景、语聊房场景不同的是，在音乐教学场景，降噪的颗粒度并不是第一位的。音乐教学老师个别在绝对宁静的室内环境，隔音程度比拟高，所以首要目标是保障音乐不失真。

其次是 AEC 回声打消，在音乐教学场景中，老师们个别有绝对标准的设施，对于回声打消的要求绝对较低，能够通过外接麦克风进行采音，通过耳机进行播放，这样就不会呈现回声。

最初是 AGC 自动增益，音乐教学场景中老师的弹奏和谈话基本上不会同时呈现，阐明和演示穿插进行。此时，对于自动增益的要求是让麦克风采集到的人声和乐器声清晰地传达到远端。

在游戏开黑场景中，最重要的就是语音交换，简直没有背景音乐需要，3A 解决的重点在于 双讲成果是否优良，回声打消是否达标。

首先是 ANS 克制背景噪声，手游的场景产生在随时随地，即便是在拥挤的地铁或者飞驰的班车中或是小区左近的菜市场，都能够成为手游爱好者开黑的场合。

所以手游的背景乐音也就异样简单，对于背景噪声的克制需要尤为突出，与通话时的背景噪声克制规范简直统一。

其次是 AEC 回声打消，对手游场景来说，佩戴耳机和不佩戴耳机的玩家数量相差无几，都是须要器重的场景。

在佩戴耳机的状况下，回声打消基本上不须要解决。然而在外放状况下，若身处嘈杂环境，回声打消须要开到更大，并须要保障双讲的清晰和稳固，对技术提出更高挑战。融云曾经投入了大量资源，开发调整了该场景下的回声打消算法，保障开黑玩家的通信成果。

最初是 AGC 自动增益，在开黑场景下，因为背景更为嘈杂，对原始采集声音的克制水平更大，也就须要增益更大一些，以保障其余队友能听分明本端声音，让对战时的对策切磋更加顺畅。

音频 3A 能用到的场景十分丰盛，本文仅对支流场景进行介绍。

时下风行的狼人杀、剧本杀、视频相亲等场景中如果想达到好的音视频成果，也离不开 3A 解决。

置信随着利用的不断深入，3A 技术也会有更大提高，达到将所有指标乐音全副革除的水平。融云也将继续精进技术，致力于让每一个用户在实时音视频场景取得身临其境的感触。

3A 算法

AEC 回声打消算法原理及详解

ANS 背景噪声克制办法和作用

AGC 自动增益算法实现与影响

3A 解决在不同场景的利用

音视频通话人声为先动静调整

语聊房音乐与人声奥妙均衡

音乐教学乐器还原音乐保真

游戏开黑语音为先顺畅切磋

3A 算法

AEC 回声打消算法原理及详解

ANS 背景噪声克制办法和作用

AGC 自动增益算法实现与影响

3A 解决在不同场景的利用

音视频通话 人声为先 动静调整

语聊房音乐与人声 奥妙均衡

音乐教学乐器还原 音乐保真

游戏开黑语音为先 顺畅切磋

音视频通话人声为先动静调整

语聊房音乐与人声奥妙均衡

音乐教学乐器还原音乐保真

游戏开黑语音为先顺畅切磋