关于音频:网易云信亮相LiveVideoStackCon2020分享RTC中AI音频算法产品化经验

10 月 31 日 -11 月 1 日，LiveVideoStackCon2020 音视频技术大会在北京隆重举办。本次大会以“多媒体开启新视界”为主题，聚焦在音频、视频、图像等技术的最新摸索与利用实际，笼罩教育、娱乐、医疗、安防、游览、电商、社交、游戏、智能设施等行业畛域，数十位业内出名讲师与来自全国各地的音视频工程师、多媒体工程师、图像算法工程师、运维与物联网工程师等分享了技术创新与最佳实际。

本次大会中，人工智能相干话题非常火爆，AI 曾经渗透到多媒体技术的各个环节，无论内容生产、编解码、音视频前后解决等，AI 都有一席之地，甚至被寄予厚望。网易云信资深音频算法工程师郝一亚博士受邀参会，在“音频技术：迫近人耳极限”专题会场进行了题为《RTC 中 AI 音频算法的产品化》的主题演讲，并在“5G、AI，新技术与新改革”圆桌论坛中分享了 AI 在音视频畛域利用的实践经验。

主题分享中，郝一亚博士首先介绍了 AI 在音频解决中日渐弱小的力量。随着 AI 在计算机视觉等畛域的胜利利用，CNN、RNN 等深度学习网络被迅速利用到了音频畛域，AI 在音频降噪、场景分类、回声管制、盲源拆散等方向着施展着越来越重要的作用。

尽管 AI 在音频畛域的价值日渐显著，但在目前的算法中，特地是 RTC 音频中，还没有被大范畴的利用起来。针对音频解决中 AI 的挑战与局限，郝一亚博士概括为三点。一是计算复杂度。AI 模型通常须要微小的计算量，就目前咱们大部分终端设备的计算能力来说压力很大，对 RTC 中的实时性提出了考验。二是泛化能力。AI 算法是基于无限的数据集训练进去的，泛化能力无限始终是问题所在。而 RTC 中笼罩的业务场景十分多，AI 算法要笼罩所有场景更是难上加难。三是鲁棒性。RTC 丰盛的利用场景中会有很多突发状况，对于 AI 算法鲁棒性的要求也十分高。

因为算力、数据和 AI 模型自身的限度，当初 AI 还达不到替换传统信号处理办法的阶段，但音频 AI 在成果上的劣势曾经被证实。郝一亚博士提出，在 RTC 畛域，要想更好地施展出 AI 的劣势，无效躲避有余，进行“模块化”解决是一个无效的路径。把端到端、长链路的解决拆分，别离找到适合的 AI 模块，让业余的“人”做业余的事。

以音频降噪中的 AI 算法为例，传统降噪算法中蕴含了很多模块，其中“噪声预计”模块很适宜做深度学习训练，特地是针对一些稳态噪声。在这里，不必端到端地去训练整个 AI 模型，而是把这一模块训练成独自的噪声预计模型。通过模块化的解决，实现了轻量级模型、简略的训练指标以及更适宜 DNN 模型，从而最大水平的施展了 AI 的劣势。

郝一亚博士认为，将来越来越多的 AI 技术将融入到 RTC 中，一些新的暴发点可能是更先进的神经网络模型，更高效的 GPU 等，然而，有一项关键点不会变，那就是大量的数据。目前，网易云信已装备了全套工具和环境采集多种起源的数据集用于训练 AI 算法，曾经在音频降噪和视频超分等场景中实际利用。

2015 年 10 月至今，网易云信始终专一于即时通讯和音视频技术畛域的前沿摸索和利用实际，已帮忙 100 万企业开发者胜利发送 10000 亿条音讯，日活冲破 3 亿，在百家争鸣的 PaaS 市场中实现稳中增长。近期，网易云信再度加码技术能力，全面降级的音视频通话 2.0 产品上线，AI 等新兴技术已融入产品开始服务客户。将来，网易云信将保持不断创新，摸索交融通信畛域的新技术、新产品、新利用，与行业共创美妙新时代。