关于音视频:ZEGO-即构音乐场景降噪技术解析

随着线上泛娱乐的衰亡，语聊房、在线 KTV 以及直播等场景在人们的日常生活中占据越来越重要的位置，用户对于音质的要求也越来越高，因而超过传统语音降噪算法的 AI 降噪算法应运而生，所以目前各大 RTC 厂商广泛应用 AI 技术进行降噪解决，应用 AI 降噪技术打消除人声外的所有声音。

但对于一些非凡场景，如在线 KTV、线上直播等声卡场景，或者弹唱、伴奏、乐器等应用场景中，咱们能够显著的感触到，个别降噪解决或 AI 降噪解决的过程中会将音乐 / 伴奏误辨认为乐音，并进行降噪解决 ，给用户带来很不好的线上体验。因而，在此类应用场景中用户越来越不满足于背景降噪，而是提出更高要求，那就是 深度降噪的同时保留音乐的音质。为了满足用户消噪与音乐音质高保真的需要，ZEGO 即构科技自研了一套自适应降噪计划，能在音乐与非音乐场景中智能切换，既保证了无音乐场景下的语音的品质，又保留了音乐的高保真音质。

首先简略理解一下即构音乐场景降噪的计划流程：

从图中能够看到，通过前解决后的音频数据会被送入 AI 音乐检测模块，接着依据检测后果将场景分为音乐和非音乐场景。若检测出音乐场景则会应用传统降噪对音频数据进行解决，以缩小对音乐的伤害，非音乐场景则持续应用 AI 降噪进行更深度的噪声打消。最初数据会通过自动增益模块实现最终的语音加强。

由上文形容中能够看到，实现音乐场景降噪性能最重要的一环就是 AI 音乐检测算法。为了 满足音乐场景的实时切换与极高检测率 的需要，咱们 自研了基于 AI 的音乐检测算法 ZegoAIMusicDetecion。算法流程如下：

咱们对数据进行帧长为 20ms，帧移为 10ms 的 STFT 解决后，应用 Bark 频带尺度将数据分为 8 个子带，再别离求取一阶差分，二阶差分和谱平坦度最终失去 25 维特色。将计算失去的特色送入到咱们设计的轻量型网络模型 CRNN，模型构造如下：

这里应用多层 Conv1d 卷积层能进一步的对特色进行提取。训练时，咱们收集了大量的开源音乐、语音与噪声数据进行训练，同时应用不同信噪比进行数据混合加强，确保模型有足够的泛化性。在训练优化器上，咱们抉择了 AdamW 以更好地对模型进行正则化解决，学习率为 0.001，批大小是 64，损失函数咱们应用了穿插熵函数，公式如下：

有了 AI 音乐检测算法的帮忙，咱们最终能够实现针对音乐场景的降噪计划，计划最终的成果如下：

从下面的频谱图以及理论的听感来看，都能够直观的感触到即构音乐场景降噪计划对音乐音质的爱护。在提供良好效果的同时，ZegoAIMusicDetecion 秉承着极轻量级模型的设计理念 ，整体计算量大概为 1.2M FLOPS，RTF 指标在各个平台和终端上均管制在 0.2% 以内。在此基础上，咱们采纳 多帧平滑的后处理技术使音乐检测误检率低于 1%，音乐检测率达到 95% 以上。

音乐场景在泛娱乐社交和互动中非常常见，须要重视用户和听众的应用感觉，做好音乐场景降噪解决。综上所述，ZEGO 即构科技为了 同时兼顾降噪与音乐音质体验，自研了基于 AI 的音乐检测算法（点这里），设计出一套音乐场景降噪计划，充分体现即构对于用户良好体验的高度重视。

将来，咱们会联合具体行业和场景，引入更多的可行性计划，晋升产品的场景适应能力，给用户提供更好的音频体验！理解更多 ZEGO 即构 IM 即时通讯服务。

关于音视频:ZEGO-即构音乐场景降噪技术解析

音乐场景降噪计划简介

对于 AI 音乐检测算法

算法成果与性能开销

技术瞻望