关于音频:2021-技术展望丨实时互动场景下音频的技术变迁与机遇

线上会议、在线教育、电商直播等多个场景的衰亡，也使得实时互动技术从幕后走到台前，失去了更多人的关注。编解码、网络传输、计算机视觉等 RTE 相干的一系列技术也正焕发出更强的生命力。2021 年，在深度学习、5G 等技术的加持下，RTE 会进一步催生哪些可能？

声网 Agora 开发者社区联结 InfoQ 独特策动，邀请了声网 Agora 开发者社区中的多位技术专家，从视频传输、计算机视觉、编解码规范倒退、WebRTC、机器学习、音频技术等角度，独特撰写「2021 实时互动技术瞻望系列」，一窥技术新趋势。 本文源于对声网 Agora 音频体验与工程总监陈若非的采访。本系列内容由声网 Agora 开发者社区与 InfoQ 联结策动，并由 InfoQ 审校， 首发于 InfoQ。

音频技术中有很多细节会影响到实时互动的体验。随着技术和利用场景的变动，音频也正在与更多的学科、技术联合。在实时互动场景下，哪些因素会影响音频的体验？相比于视频技术，音频技术是否倒退较慢？面向 RTC 场景，音频技术又须要作出哪些扭转？…… 为了解答这些问题，咱们采访了声网 Agora 音频体验与工程总监陈若非，请他来聊一聊在实时互动场景下音频技术的变迁与时机。

Q：绝对于钻研网络架构、大前端等方面的工程师来讲，钻研音频的工程师比拟少。具体来讲，音频工程师都会钻研哪些相干技术？

陈若非： 声音是信息和情感传递的载体，所以音频相干的钻研根本会围绕如何让信息和情感更好的被传递和感知了解开展的。音频畛域绝对业余细分，然而咱们细挖一下就会发现音频相干的钻研方向其实很多，波及到的交叉学科也很广。从交互对象来说咱们能够分为两类：人机交互的音频和人人交互的音频。从交互的实时性来分，又能够分成实时的交互和非实时的交互。人机交互次要钻研如何让机器更好的了解声音和生成声音，通过 ASR、MIR、TTS 等技术来实现人类心愿机器实现的工作。人人交互的局部更多和人的感知零碎关联，其优化指标会围绕如何让人更好的感知音频来开展。实时的人人音频交互又在此基础上提出了更多的约束条件，优化须要用更低的延时、更小的计算量和因果零碎下开展。我所在的声网就次要聚焦于实时互动音频畛域的钻研，所以咱们会从采集播放、编解码、前后解决、传输的全链路去钻研如何在尽可能低的延时和计算量下提供更好的音频互动体验。

Q：聊技术变迁之前，首先梳理一下概念，在实时互动的场景下，哪些因素会影响音频的体验？

陈若非： 实时互动音频是端到端，嘴到耳的体验，所以全链路上所有的组成部分都有可能影响音频体验。咱们能够从采、播、滤、压、传五个方面去合成技术对音频体验的影响。首先说采集，不同麦克风的声学属性差别就对音频体验有决定性的影响，从拾音的间隔，方向性到精度。被拾取的声音信号通过模数转换，信号采样也会造成声音的损失，采样率越高声音的细节就会保留的更好。所以一个高质量的麦克风会从源头上提供更好的音频源。相似的，一个高质量的播放设施能够更好的保留更多声音细节。而后前后解决是音频链路上十分重要的一环，大家常听到的 3A 技术都属于这个领域，前后解决对原始采集的信号或者行将要播放的信号做二次解决，来滤除其中的干扰信号，比方回声、乐音、杂音、啸叫等，同时对指标的音频做音量和听感上的加强。另外在一些音效玩法里，咱们也会通过对信号的解决实现变声、美声等特定声音成果。再说下编解码和传输，这两者是强耦合的。原理上编码的采样率和码率越高，声音的保真度就更好，听端的体验也更好。但事实中网络的带宽是有限度的，还会经常出现丢包抖动等不利状况。好的编解码算法能够通过对声学模型和信息冗余的深刻了解，在绝对低的码率下实现高品质的声音保留，从而保障在各种弱网状况下的稳固体现。同时咱们也须要通过开发信源信道的弱网反抗技术，在保障低延时的根底上，缩小丢包抖动带来的听感影响。

Q：行业中有种认识，认为音频技术绝对于视频技术，仿佛倒退会稍慢一些？你怎么对待目前音频技术的倒退？

陈若非： 技术的提高都是需要推动的。电话时代的音频技术已经经验炽热的倒退，一些经典实践如线性预测、自适应滤波，很好的解决了一些根底可用的问题，很多技术到明天还在被沿用。近几十年 VoIP 的技术也失去了长足的倒退，咱们明天看到 VoIP 的分钟数能在通信畛域占据越来越大的份额，背地也离不开音频钻研人员长期的扎实工作和继续提高。音频须要较高的技术门槛，全链路的木桶效应显著，设施耦合重碎片化重大，改良主观不易被感知，这些因素都决定了音频想要出成绩须要坐的住冷板凳，须要长期主义的保持。

近些年 AI 技术的衰亡给音频注入了新的生机，也给很多长时间不好解决的问题提供了新的思路。人机语音交互成为了一个音频畛域新的热点，相干的技术也蓬勃发展，目前在辨认、合成等畛域都获得了长足的提高。而在最近的几年，也看到了不少 AI 技术和 RTC 畛域联合的实际成绩，让人看到了进一步晋升音频体验的微小空间。从外部环境来看，在看腻了千人一面的直播后，越来越多的人开始喜爱心理包袱更小，设想空间更大的音频社交，近期的行业里也开始呈现新的浪潮。置信在这种内外因的联合下，会有更多的人开始钻研实时互动音频的体验，也十分期待这个行业会给大家带来不一样的新体验。

Q：从理论来看，目前音频在实时畛域还存在哪些技术挑战？

陈若非： 实时互动音频畛域还有很多技术挑战须要咱们的攻克。我这里提两个大点。第一，碎片化。传统的手机厂商是一台台调试算法和逐个通过声学测试出厂的。如果咱们要在不同设施、环境、网络条件下提供一致性的高质量音频体验，咱们就须要寻找新的冲破。在接下来万物互联的时代，这种需要会更加强烈，而这方面技术的冲破会带来微小的价值。第二，主观性。音频体验是一个十分主观的存在，每个人的感知差别和爱好也迥异。咱们须要找到更好的办法来匹配这种个性化的爱好和提供更好的量化评估体系。

Q：基于你对业界、学界的察看，你认为音频技术面向 RTC 场景，接下来须要作出哪些扭转？（如算法、技术的联合等）

陈若非： 我认为实时互动音频的将来应该有上面三个局部。第一，AI 和信号处理的深度交融。经典的信号处理和声学模型曾经能帮咱们解决很多问题，当然也不少解决不好的问题。在 AI 的无效交融下，能够无效的补充传统算法的有余，在正当的代价下更好的解决咱们的问题，而非简略视 AI 为灵丹妙药包治百病。第二，合乎时代的评估规范。目前很多音频规范是给通信设计的，真正如聚一堂的互动体验须要对应的评估规范，如何更好的评估互动性，沉迷感是咱们须要去摸索的中央。第三，真正的沉迷感和随同感。人们开始不满足于单纯的信息交互，进一步的谋求面对面的互动体验和情感随同，而随着网络和设施条件的进一步成熟，这种将来也成为可能。音频全链路都须要降级，从声场的采集到还原，甚至加强事实，来发明出真正沉迷式随同的体验，这也会将会是一条漫长的摸索之路。咱们在声网始终致力于摸索这些长年存在的行业难题，也欢送各路有想法有谋求的敌人分割我，独特交换摸索，独特敲开将来音频之门。

本系列相干浏览

2021 技术瞻望 | 走向将来的实时生成技术

2021 技术瞻望 | 弱网下的极限实时视频通信

2021 技术瞻望 | 5G 将会倒逼传输协定、算法做出更多改良

2021 技术瞻望 |AV1 在 RTC 利用实际中的现状与瞻望