关于android:HMS-Core音频编辑服务音源分离与空间音频渲染助力快速进入3D音频的世界

从单声道、立体声、环绕声倒退到三维声，音频回放技术的迭代演进是为了还原真实世界的声音。其中，三维声技术应用信号处理的办法对达到两耳的声音信号进行模仿，将声场还原为三维空间，更靠近真实世界。凭借这个技术，各厂商在游戏、影视、音乐等场景中为用户发明更实在天然且沉迷的听觉体验，也实现了更好的用户订阅增长。

传统 3D 音频的制作需获取原始的分轨素材（如录制的人声、钢琴声等），并应用业余的数字音频工作站（DAW）和 3D 混音插件手工制作，因而制作周期长、生产效率低、老本高、门槛高。此外，开发者因为没有歌曲的原始分轨，因而通过传统办法进行 3D 音频制作的难度很大。HMS Core 音频编辑服务（Audio Editor Kit）提供了音源拆散（获取分轨）、空间音频渲染能力，开发者仅需输出立体声，就能疾速生成 3D 音频内容，晋升用户音频体验和晋升产品竞争力！

HMS Core 音频编辑服务 3D 音频生成示意图

因为咱们以后接触到的音频大都是立体声，所有音频对象（如音乐中的人声、钢琴、吉他等）都曾经混合在左右两个声道当中，无奈轻易地离开，更不要提将其渲染搁置在不同的空间地位，因而将立体声中的特定元素拆散是 3D 化的一个核心技术。

华为算法团队通过对大量的音乐进行深度学习建模，并联合传统信号处理能力最终实现音源拆散：首先利用短时傅里叶变换（STFT）将一维的音频信号变换到二维的时频谱；而后将失去的二维的时频谱与原始的一维时域信号一起作为双流输出，通过多层的残差编码及大量数据的训练，取得指标乐器的隐空间表白；最初进一步通过一系列的变换矩阵最终还原成原始的对象立体声信号。
上述处理过程中应用的变换矩阵和网络结构是华为的独特技术，是针对不同的乐器音色特点专门设计的，可能确保每一个乐器都能尽可能的拆散残缺且洁净，为 3D 化提供足够优质的分轨素材。其波及的外围能力包含：

1、音频信号特征提取：包含通过编码器从时域信号间接提取特色，以及通过短时傅里叶变换从时域信号提取时频谱特色；

2、深度学习模型构建：退出残差模块与注意力机制，加强对不同乐器谐波建模能力与时序关联能力；

3、多通道维纳滤波：联合传统信号处理的能力，通过深度学习建模预测对象与非对象功率谱关系，构建与解决滤波系数。

音频拆散技术示意图

目前，HMS Core 已对外开放了 12 种音源拆散的能力（人声、伴奏、鼓、小提琴、贝斯、钢琴、木吉他、电吉他、弦乐、主唱、带伴唱伴奏和管弦乐），帮忙开发者疾速地提取出本人想要的乐器进行 3D 化编辑。

仅通过两只耳朵收听内部声音，人类为什么可分辨声源的地位呢？这是因为从声源传递到两只耳朵的声音实际上存在轻微的差别，包含达到工夫、接管到的能量、以及相位差等信息。而这些信息差综合体当初一系列传递函数，称为头相干传递函数（HRTF）。通过将 HRTF 叠加到单点声源，咱们就能够虚构出真实世界中声音的方位直达声的局部。为解决因头型、肩宽等人体体征的差别带来的 HRTF 因人而异的难题，咱们通过大量数据的剖析，设计了一套较普适的 HRTF，能够让每个人都能享受到 3D 音频。另外为了营造空间中声音的反射、散射、干预等物理现象，咱们还通过叠加一系列的房间相应函数（RIR）来构建实在的空间，造成所谓的混响。因而，通过一系列的 HRTF 和 RIR 对声源进行滤波，咱们就能够将之前拆散的素材进行 3D 化，造成 3D 音乐。

空间音频渲染技术示意图

目前，HMS Core 音频编辑服务提供的音源拆散、空间音频渲染服务这套组合拳曾经利用在华为音乐的高级音效当中，用户能够进入华为音乐音效页面，在高级音效栏目中抉择声空音效或声乐纯享，感触 3D 音频的魅力。

华为音乐声空音效与声乐纯享性能

以上技术来自华为 2012 实验室，通过 HMS Core 音频编辑服务面向开发者凋谢，在音乐音频畛域为用户带来差异化的 3D 音频体验。其余更多对于 HMS Core 音频编辑服务的信息，请拜访华为开发者联盟 -HMS Core 音频编辑服务官网

理解更多详情 >>

拜访华为开发者联盟官网
获取开发领导文档
华为挪动服务开源仓库地址：GitHub、Gitee

关注咱们，第一工夫理解 HMS Core 最新技术资讯~

音源拆散技术

空间音频渲染技术