共计 5358 个字符,预计需要花费 14 分钟才能阅读完成。
线上会议、在线教育、电商直播等多个场景的衰亡,也使得实时互动技术从幕后走到台前,失去了更多人的关注。编解码、网络传输、计算机视觉等 RTE 相干的一系列技术也正焕发出更强的生命力。2021 年,在深度学习、5G 等技术的加持下,RTE 会进一步催生哪些可能?
声网 Agora 开发者社区联结 InfoQ 独特策动,邀请了声网 Agora 开发者社区中的多位技术专家,从视频传输、计算机视觉、编解码规范倒退、WebRTC、机器学习、音频技术等角度,独特撰写「2021 实时互动技术瞻望系列」,一窥技术新趋势。 本文作者微帧科技首席科学家兼联结创始人 Zoe Liu。本系列内容由声网 Agora 开发者社区 与 InfoQ 联结策动,并由 InfoQ 审校, 首发于 InfoQ。
2018 年 6 月,AOM 联盟(Alliance for Open Media,凋谢媒体联盟)公布了新一代视频编码标准——AV1(Alliance for Open Media Video 1)。至今 AOM 联盟共有 47 家企业会员,其中包含 14 名理事会成员(Board Members)和 33 名 Promoter 会员。
AV1 的零号版本,起始由同样开源、免版税的 VP9 编解码代码库 libvpx 衍生而来,同时吸纳了 Google VP10、Mozilla Daala 以及 Cisco Thor 三款开源编码我的项目中的研发成绩。截止 2018 年 6 月 AV1 封稿,AV1 相比其前身 VP9,共推出了 100 多个簇新的编码工具,代表了业界最新的编码技术。
本文咱们将会探讨将来 AV1 在实时场景中可能会呈现的技术趋势。同时,因为 AV1 在实时场景中的数据无限,为了能更直观地阐明将产生的变动,咱们会基于 Aurora AV1 在实时场景中的性能数据,以及与已有编码器,包含 H264、VP9 等开源编码器的比照统计来进行分享。通过 Aurora 的实例、数据,次要是为了阐明 AV1 规范在实时场景中已齐全进入实用阶段。咱们在此也期待与业界同行围绕这些钻研数据,与咱们多多交换与探讨。
AV1 在 RTC 场景中的利用实际和生态倒退
RTC 技术升级与利用拓展,近年来风起云涌,尤其 2020 年疫情之下,RTC 畛域呈爆发性增长,涵盖视频会议、在线教育、近程终端、游戏互动、电商互动直播、近程医疗、在线金融等各个领域,其典型视频内容次要为两类:屏幕内容以及摄像头 Talking Head 内容。对于 RTC 超低延时互动场景,视频编码器的打磨与利用,除编码效率、视频画质这些对编码器性能的根本考量外,在编码时延、编码速度、编码复杂度、自适应码控、以及与网络层适配容错等性能上,均有严格的要求。AV1 丰盛的编码工具,比方其独特的屏幕内容编码工具,使得 AV1 对于 RTC 实时互动场景用户体验的晋升,提供了很大的可能。
WebRTC 是目前业界最具影响力的实时互动开源我的项目,提供 Web 端与挪动端 RTC 应用程序的音视频 APIs。往年 2021 年 1 月,W3C 规范组织正式将 WebRTC 1.0 确定为规范举荐。WebRTC 开源代码库中,次要包含 libvpx 中的 VP8、VP9 以及 H264 Openh264 三款开源视频编码器。AV1 从 VP9 衍生而来,与 WebRTC 具备人造耦合协同性,包含对时域可伸缩性(Temporal Scalability)的反对等个性。与此同时,AV1 是第一款将屏幕内容编码(Screen Content Coding, SCC)工具,引入其主体的视频编码标准,即:任一 AV1 规范解码器,均需反对 SCC。这对 AV1 在实时场景中解决计算机生成内容,相比其余规范,占有微小劣势。
AV1 的无效软解,对于 RTC 场景,无论在 PC 平台、还是挪动平台,都是必不可少的必备计划。AV1 软件开源解码器,目前包含 AOM/Google 保护的 libaom,AOM/Intel 保护的 SVT-AV1,Google 推出的尤其面向 Android 设施的 libgav1,以及由 VideoLAN、FFmpeg 开源社区保护、AOM 赞助的 dav1d。咱们的用户评测下来,dav1d 综合体现最佳,往年 2021 年 1 月 dav1d 0.8 推出,又在 AMD、arm architecture 上做了进一步的优化。
AOM/AV1 的开源编解码器 libaom 的实时档,又称为 libaom-RT 档,已被 WebRTC 吸纳进来,并从 Chrome 89 版本起正式采纳。2020 年 Google 实时通话产品 DUO、视频会议产品 Meet 均以 libaom-RT AV1 为基准,率先推出 AV1 在 RTC 场景中的利用。之后 Cisco WebEx 也发表,在其视频会议场景、尤其是屏幕共享场景中开始在 PC 端采纳 AV1 编解码。
微帧团队在 2019 年推出了全自研 Aurora AV1 编码器,并成为寰球首家 RTC 场景 AV1 商务编码器提供商。Aurora AV1 在实际利用中一直打磨降级,目前已实现 PC 端屏幕内容编码、以及摄像头 Talking Head 场景下的稳固运行。Aurora AV1 在挪动端、以及其余 ARM 机型上的利用,也在日趋成熟,本文的性能数据都是基于 Aurora AV1 所失去的。
当然,无论是如许先进的编码标准,均须要一个残缺的、可继续的生态体系来撑持。AOM 会员涵盖了视频从采集制作、传输分享到播放生产的残缺生态系统,对于 RTC 畛域,AOM 成员也囊括了多家 RTC 畛域技术与利用的寰球领衔企业,比方声网(Agora)、思科(Cisco/WebEx)、Poly 等。与此同时,AV1 成员包含浏览器提供商:如谷歌(Chrome)、苹果(Safari)、微软(Edge)以及 Mozilla(Firefox);硬件制造商:如 Intel、AMD、nvidia、arm、SAMSUNG、Xilinx、Broadcom,以及中国的华为等;云服务商:如北美的亚马逊(AWS)、微软(Azure)、谷歌(GCP)、IBM,以及中国的阿里(阿里云)、腾讯(腾讯云)、金山云、华为(华为云)等;同时包含思科等网络与零碎提供商。AV1 具备着人造的生态劣势。
AV1 RTC,目前在浏览器(Safari 除外,不过苹果是 AOM 董事会成员)反对、Android 挪动端 OS 反对外,硬解反对日渐欠缺。Apple 是 AOM 董事会员,目前在 AV2 推动上也体现了踊跃的态度,预计 Apple 生态反对 AV1,为期不远。另外,高通(Qualcomm)虽不是 AOM 会员,但对于 AV1 的反对,业界普遍认为,最迟在 2021 年底、2022 年初,高通会推出反对 AV1 的硬解芯片。
AV1 RTC 屏幕内容编码
AV1 规范中,提供了 IntraBC、调色板模式(Palette mode)等特地实用于屏幕内容编码的特定工具。此外,CfL (Chroma-from-Luma) 这款工具,尽管并非专为屏幕内容打造,但对于屏幕内容编码是一个比拟无效的工具。
注:图中 x264 采纳 ffmpeg 命令行 – ffmpeg -r 30 -s 1920×1080 -c:v libx264 -x264-params bframes=0 -tune zerolatency -preset superfast -threads 1
Aurora AV1 绝对已有编码标准计划,包含 VP9、H264 等,在不同分辨率屏幕内容压缩效率上,均展现了绝对优势。如图所示,比方利用一般 PC 单核资源编码,Aurora 相比开源 x264 superfast 实时档,对于 1080p30 的屏幕内容测试序列集,BD-rate (PSNR) 增益为 81.25%,即:对于评测集,Aurora AV1 只须要 x264 的 (1-81.25%)=18.75%、也就是不到 1/5 的码率,即可获取相近的 PSNR 主观品质。
上图显示了 Aurora AV1 与 x264 superfast 档编码速度的比照。单线程下对于 1080p 屏幕内容视频,x264 速度高达 132+FPS(帧 / 秒),而 Aurora 为 46+FPS,是 x264 编码速度的 1/3 左右。Aurora 的编码速度虽远不如 x264,进一步思考屏幕内容在少数场景下,所要求帧率个别小于一般摄像头内容的帧率,对于屏幕内容 RTC 场景,AV1 已齐全达到实用需要。
AV1 RTC 时域可伸缩性编码
时域可伸缩性(Temporal scalability)以及自适应丢帧,对于 RTC 场景尤其重要。因为网络带宽、RTT 时延、Jitter 抖动、包失落等网络条件的动态变化,编码器需配合网络管制层,作出自适应调整。视频编码器的时域可伸缩性,相比空域可伸缩性,更为重要,因为时域可伸缩性,在编码器反抗网络带宽动静变动、容错鲁棒性、以及编码效率和视频主观体验上,综合性能更优,并适于放弃主观品质安稳下的动静调整。
如图下所示,Aurora AV1 编码器中目前实现了两种时域可伸缩性模式。两种模式中,根本层外的其余视频帧,可自适应抛弃,以适宜动静网络带宽需要。AV1 的时域可伸缩性,继承了 WebRTC 平台中已有的 VP8、VP9 的编码器特色,与 WebRTC 间具备人造符合度。
AV1 RTC 摄像头拍摄内容编码
屏幕内容外,对于视频会议 Talking Head 场景,AV1 经由精密优化后,亦可凸显其规范劣势。
如上面两图所示,在 480p、720p 视频会议场景中,Aurora AV1 比照 x264 medium 档,在 AMD Ryzen 9 3900X 12 核 (12C24T),2 线程编码,Auora superfast 可获取 BD-rate (PSNR) 增益均匀在 20% 以上,与此同时编码速度劣势在 30% 以上。
注:x264 所用命令行为 –nal-hrd none –preset medium –profile main –threads 2 –tune zerolatency –no-psy –aq-mode 0 –no-scenecut
AV1 RTC 挪动平台编码性能
AV1 规范工具的复杂度,使其在手机挪动端的利用落地更加挑战。
与此同时,本文后面也提到,WebRTC/Chrome 已凋谢基于 libaom-RT 档的 AV1 RTC 反对,libaom-RT 开源编码器的性能也在一直晋升中。
如下图,咱们将 Aurora 与 libvpx-VP9、x264、以及 libaom-RT,针对 RTC 挪动端利用场景,在编码效率及编码速度上做一比对:编码平台为 Snapdragon 845 手机,单线程 CBR 设置,选取 40 个 180p 典型实时场景视频,指标码率范畴设定在 50kps ~ 200kbps。
图中每一条曲线,代表一款编码器性能,曲线上每一坐标点,则示意该编码器的某一特定速度档。纵轴示意 BD-rate (PSNR),所有编码器 preset,均以 x264 medium 档为基准(anchor),BD-rate 为负值示意相比 anchor,采纳更低码率可获取同样视频品质。因而,曲线坐标点地位越靠下方,编码器的压缩性能劣势越大;横轴标识编码速度,曲线坐标点越靠右方,对应编码速度越快。
图中显示,Aurora 在编码效率上,远优于 VP9、以及 x264。Aurora 仍在继续优化中,目前 superfast、ultrafast 档的设置,大概率会成为更低速度档的配置,并将提供从 medium、fast、faster、veryfast、superfast 到 ultrafast 实用于 RTC 场景的多个速度档。相比 WebRTC 中的 libaom-RT AV1,Aurora 在编码速度及编码效率综合性能上,显著超出。Aurora 提速同时,会尽力放弃 AV1 充沛的规范劣势。(注:Aurora 及 libaom-RT,均为 2021 年 3 月 5 日的版本)
无论开源代码库 libaom-RT,还是商务编码器 Aurora,AV1 在手机挪动平台上的优化迭代,必将连续其历史轨迹,在将来一段时间内,性能继续晋升,满足越来越多 RTC 场景的需要,在已有编码标准计划根底上,进一步大幅晋升用户体验。
AV1 与 AI 的联合
RTC 场景中,AV1 与 AI 联合,对于编码器各方面的性能优化,应该是有比拟大的晋升辅助作用的,包含前解决、内容分类、ROI 场景优化、以及智能码控设计与实现上,AV1 可利用 AI 技术,展现出进一步的后劲。微帧团队与国内、海内多家大学单干,撰写的题为“Advances In Video Compression System Using Deep Neural Network: A Review And Case Studies” 已被 IEEE 顶级期刊《The Proceedings of the IEEE》接管,文中以 AV1 为基准,对于视频编码与 AI 在前解决、后处理上的联合,以及对将 AI 用于将来编码标准,比方 AV2,有肯定初步的探寻。这篇论文能够从 arXiv.org 上间接下载(链接:https://arxiv.org/abs/2101.06341)
AV1 主观编码性能
如图所示,利用 Aurora AV1 编码,在同样码率、即等同带宽条件下,AV1 编码画质显著优于 x264 的编码后果。
综合以上 AV1 的优质性能,以及其与 RTC 场景利用的人造符合度,咱们预计 AV1 在 WebRTC、浏览器以及 Android 挪动端等生态的推动下,随着 RTC 利用的爆发性增长,将来 2~3 年内会迎来生态的迅猛发展。
本系列相干浏览
2021 技术瞻望 | 走向将来的实时生成技术
2021 技术瞻望 | 弱网下的极限实时视频通信
2021 技术瞻望 | 5G 将会开张传输协定、算法做出更多改良