关于音视频:ZEGO-即构音乐场景降噪技术解析

56次阅读

共计 1371 个字符,预计需要花费 4 分钟才能阅读完成。

随着线上泛娱乐的衰亡,语聊房、在线 KTV 以及直播等场景在人们的日常生活中占据越来越重要的位置,用户对于音质的要求也越来越高,因而超过传统语音降噪算法的 AI 降噪算法应运而生,所以目前各大 RTC 厂商广泛应用 AI 技术进行降噪解决,应用 AI 降噪技术打消除人声外的所有声音。

但对于一些非凡场景,如在线 KTV、线上直播等声卡场景,或者弹唱、伴奏、乐器等应用场景中,咱们能够显著的感触到,个别降噪解决或 AI 降噪解决的过程中会将音乐 / 伴奏误辨认为乐音,并进行降噪解决 ,给用户带来很不好的线上体验。因而,在此类应用场景中用户越来越不满足于背景降噪,而是提出更高要求,那就是 深度降噪的同时保留音乐的音质。为了满足用户消噪与音乐音质高保真的需要,ZEGO 即构科技自研了一套自适应降噪计划,能在音乐与非音乐场景中智能切换,既保证了无音乐场景下的语音的品质,又保留了音乐的高保真音质。

音乐场景降噪计划简介

首先简略理解一下即构音乐场景降噪的计划流程:

从图中能够看到,通过前解决后的音频数据会被送入 AI 音乐检测模块,接着依据检测后果将场景分为音乐和非音乐场景。若检测出音乐场景则会应用传统降噪对音频数据进行解决,以缩小对音乐的伤害,非音乐场景则持续应用 AI 降噪进行更深度的噪声打消。最初数据会通过自动增益模块实现最终的语音加强。

对于 AI 音乐检测算法

由上文形容中能够看到,实现音乐场景降噪性能最重要的一环就是 AI 音乐检测算法。为了 满足音乐场景的实时切换与极高检测率 的需要,咱们 自研了基于 AI 的音乐检测算法 ZegoAIMusicDetecion。算法流程如下:

咱们对数据进行帧长为 20ms,帧移为 10ms 的 STFT 解决后,应用 Bark 频带尺度将数据分为 8 个子带,再别离求取一阶差分,二阶差分和谱平坦度最终失去 25 维特色。将计算失去的特色送入到咱们设计的轻量型网络模型 CRNN,模型构造如下:

这里应用多层 Conv1d 卷积层能进一步的对特色进行提取。训练时,咱们收集了大量的开源音乐、语音与噪声数据进行训练,同时应用不同信噪比进行数据混合加强,确保模型有足够的泛化性。在训练优化器上,咱们抉择了 AdamW 以更好地对模型进行正则化解决,学习率为 0.001,批大小是 64,损失函数咱们应用了穿插熵函数,公式如下:

算法成果与性能开销

有了 AI 音乐检测算法的帮忙,咱们最终能够实现针对音乐场景的降噪计划,计划最终的成果如下:

从下面的频谱图以及理论的听感来看,都能够直观的感触到即构音乐场景降噪计划对音乐音质的爱护。在提供良好效果的同时,ZegoAIMusicDetecion 秉承着极轻量级模型的设计理念 ,整体计算量大概为 1.2M FLOPS,RTF 指标在各个平台和终端上均管制在 0.2% 以内。在此基础上,咱们采纳 多帧平滑的后处理技术使音乐检测误检率低于 1%,音乐检测率达到 95% 以上。

技术瞻望

音乐场景在泛娱乐社交和互动中非常常见,须要重视用户和听众的应用感觉,做好音乐场景降噪解决。综上所述,ZEGO 即构科技为了 同时兼顾降噪与音乐音质体验,自研了基于 AI 的音乐检测算法(点这里),设计出一套音乐场景降噪计划,充分体现即构对于用户良好体验的高度重视。

将来,咱们会联合具体行业和场景,引入更多的可行性计划,晋升产品的场景适应能力,给用户提供更好的音频体验!理解更多 ZEGO 即构 IM 即时通讯服务。

正文完
 0