共计 3009 个字符,预计需要花费 8 分钟才能阅读完成。
随着信息技术的倒退,人们对实时通信的需要一直减少,并逐步成为工作生存中不可或缺的一部分。每年海量的音视频通话分钟数对互联网基础设施提出了微小的挑战。只管目前寰球的互联网用户绝大多数均处于良好的网络情况,但仍有不少地区处于极差的网络条件下,除此之外,即便在网络良好区域,也仍会存在弱网景象。那么如何在无限的带宽下提供高质量的音频体验就成为了一个十分重要的钻研方向。
在过来的几十年间,语音或音频的编码技术都波及大量特定畛域的常识,例如语音生成模型。近些年,随着深度学习类算法的疾速倒退,逐步涌现出了多种基于神经网络的音频解决算法。阿里云视频云技术团队在综合剖析了理论业务场景存在的共性问题的根底上,开始摸索借助数据驱动的形式进步音频的编码效率,并提出了智能音频编解码器 AliIAC (Ali Intelligent Audio Codec),能够在无限的带宽条件下提供更高质量的音频通话体验。
什么是音频编解码器?
即便没有据说过音频编解码器这个概念,在日常生活中,也肯定有应用到这项技术,从收看电视节目到应用挪动手机打电话,从刷短视频到观看直播,都会波及到音频编解码技术。
音频编码的指标是将输出音频信号压缩成比特流,其所占存储空间远小于输出的原始音频信号,而后在解码端通过接管到的比特流复原出原始音频信号,同时心愿重建的信号在主观听感上与原始信号尽可能相近,编码过程如下公式所示:
$$
\boldsymbol{h} \leftarrow \mathcal{F}_{\mathrm{enc}}(\boldsymbol{x})
$$
其中,\({x} \in \mathbb{R}^{T}\) 代表时域语音信号,长度为 \(T\),\(h\) 会进一步被转换为比特流 \(\tilde{\boldsymbol{h}} \in \mathbb{R}^{N} \),\(N \) 远小于 \(T\),解码过程如下公式所示:
$$
\boldsymbol{x} \approx \hat{\boldsymbol{x}} \leftarrow \mathcal{F}_{\mathrm{dec}}(\tilde{\boldsymbol{h}})
$$
传统的音频编解码器能够分为两大类:波形编解码器和参数编解码器(waveform codecs and parametric codecs)
波形编解码器
波形编解码器的重点是在解码器端产生输出音频样本的重建。
在大多数状况下,波形编解码器较依赖于变换编码技术,能够将输出的时域波形映射到时频域。而后,通过量化技术对变换系数进行量化,最初通过熵编码模块将其转化成可用于传输的比特流。在解码器端,通过相应的反变换来重建时域波形。
个别状况下,波形编解码器看待编码的音频的类型(如:语音、音乐等)做很少或不做任何假如,所以能够解决的音频范畴很宽泛。在中高比特率时这种办法能够产生十分高质量的音频,但在低比特率下往往会引入一些由编码引起的 artifacts,导致听感变差。
参数编解码器
参数编解码器的核心思想是通过看待编码的音频(如:语音)进行特定假如,并通过参数模型的模式将先验常识交融进编码的过程中。
编码器首先会预计模型的参数,而后通过量化模型进行进一步压缩,解码器则应用量化后的参数来驱动合成模式进行时域波形的重建。与波形编解码器不同的是,参数编解码器的指标不是在一一样本的根底上取得高类似度的波形重建,而是生成在感知上与原始音频相近的音频。
传统音频编解码器面临的挑战
得益于 WebRTC 生态的蓬勃发展,opus 音频编解码器在业界被宽泛应用,它着重于解决宽泛的交互式音频利用场景,包含 VOIP (Voice over Internet Protocol)、视频会议、游戏内聊天,甚至近程现场音乐表演。
它由两种不同的编解码器形成,一个是用于语音的 SILK,另一个是用于音乐的 CELT。只管 opus 及其他传统音频编解码器(如:EVS、AMR-WB、speex、MELP 等)都领有着优异的成果,但在无限带宽条件下、信噪比低条件下和混响混音重大条件下均体现出了不同水平的局限性,无奈应答以后复杂多变的利用场景,带来晦涩清晰的音频通话体验。
AliIAC 智能音频编解码器
思考到传统音频编解码在高码率下的优异体现及业内的支流位置,阿里云视频云音频技术团队提出了两款智能音频编解码器,E2E 版本和 Ex 版本。
其中,E2E 版本,可间接替换 opus 等传统编解码器模块,反对在 6kbps ~ 18kbps 下工作,对 16khz 音频进行编解码;Ex 版本则可在沿用传统编解码器的根底上,通过后处理的形式对 6kbps~8kbps 解码后的 16khz 音频进行修复加强,晋升可懂度和音质。
算法原理
1、E2E 版本:是基于端到端的 encoder-decoder 模型,同时思考了理论利用场景中会遇到的语音频谱伤害、存在混响及残留噪声等问题,联合 GAN 网络的训练策略,进一步晋升解码后的音频品质;为了不便部署与应用,采纳残差量化模块,反对繁多模型可变比特率,范畴在 6kbps ~ 18kbps。
2、Ex 版本:是针对被传统编解码器如:Opus,在 6kbps ~ 8kbps 条件下解码后的音频,进行频率域修复 / 加强的深度模型。对 0 4kHz 频域进行幅度谱的损失弥补,在 48kHz 频域进行频谱的预测弥补,修复 / 加强后的音频在主观听感上(可懂度和音质)有显著晋升。
算法性能
算法成果
场景一:实在场景有损频谱 + 混响状况
原始音频音频
opus 6kbps 成果音频
opus+Ex 加强成果音频
E2E 6kbps 成果音频
E2E 18kbps 成果音频
不同办法的频谱图比照:
从主观听感和频谱图均可看出,opus 6k Ex、E2E 6k、E2E 18k 版本较 opus 6k 版本在成果上均有显著晋升,其中 opus 6k Ex 和 E2E 6k 在前半段频谱显著有伤害的状况下解码后有些许杂音残留,E2E 18k 版本则根本靠近原始音频。
场景二:实在场景带噪状况
原始音频音频
opus 6kbps 成果音频
opus+Ex 加强成果音频
E2E 6kbps 成果音频
E2E 18kbps 成果音频
不同办法的频谱图比照:
从主观听感和频谱图均可看出,opus 6k Ex、E2E 6k、E2E 18k 版本较 opus 6k 版本在成果上均有显著晋升,且音色音调均与原始音频靠近。
AliIAC 智能音频编解码器将持续演进
AliIAC 作为阿里云视频云音频解决方案的一部分,旨在充分利用数据驱动的思维来进步音频的编码效率,使得能够在更低带宽代价的前提下取得更好的音频通话体验。
目前,AliIAC 还处于算力、码率与成果的均衡阶段,须要进一步去解决实时性与音频生成成果稳定性等问题,但在带宽受限条件下,AliIAC 相较传统音频编解码器曾经体现出了优异的成果。其中,在大多数理论场景中,E2E 18kbps 的成果与 opus 24kbps 的成果持平,E2E 6kbps 的成果与 opus 12kbps 的成果持平,均匀能够节俭 25% ~ 50% 的带宽耗费;而 Ex 版本则能够在不额定耗费带宽资源的前提下,主观 MOS 分均匀晋升 0.2 ~0.4。在将来,阿里云视频云音频技术团队将持续摸索基于深度学习 + 信号处理的音频技术,发明极致的音频体验。
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。