简介:在 2021 云栖大会《产业视频化翻新与最佳实际》视频云主题论坛中,阿里云智能高级技术专家在《AliRTC 开启视频互动 "零解决" 时代》的主题演讲中,公布了阿里云视频云下一代实时交互解决方案 —RTC “零解决”,同时分享了阿里云视频云在 RTC 产品的摸索和实际,以下为演讲内容整顿。

一、交互演进与挑战

在过来几年,视频交互产品产生了什么变动?

咱们认为 RTC 产品对行业产生了两次十分重要的改革。

第一次改革是 2014 年开始的交互从图文到音视频的降级。

2014 年,互联网创业者与 RTC 产品供应商一起摸索视频互动的商业化, 教育、娱乐成为次要的冲破方向, 基于寰球范畴内的互动授课、秀场视频连麦、多人交友互动,也大多在这工夫点实现了商业与技术的胜利联合。

2017 年是一个标志性的工夫点,RTC 产品曾经帮忙头部互联网客户实现了颠覆性倒退,标记着互动视频技术与在线互动商业模式的成熟。

接下来几年更多的是不同体量、不同场景的规模复制,所以咱们能看到,在 2018 年以及后续的几年,市场上并没有新场景、新互动的翻新,而是基于不同内容、不同客群的业务复制, 视频互动从头部走向更多的细分市场。

第二个重要改革产生在 2020 年,受疫情影响,让云视频会议全面浸透,让这个工夫提前了至多 5 年。

这次市场的变动,咱们不能称之为一次技术反动,实际上对 RTC 产品并没有新的诉求,也没有产生新的互动场景和技术,但这次大规模的浸透,从新定义了供应商的市场格局,第一次让云厂商成为了市场极其重要的一部分,让市场从繁多的会议厂商,决裂为云平台 + 会议终端供应商,让咱们的客户有了更多的抉择。

从 2018 年到当初咱们没有场景上的基本冲破,是不是因为咱们的技术上遇到了瓶颈?

带着这样的问题,阿里云对 RTC 场景技术进行了深刻的技术评测,咱们试图发现整个行业大家的技术水位是什么样的,不同于单项的视频技术,RTC 的评测要更为简单。

例如,对视频编码,咱们能够通过 PSNR,SSIM,VMAF 等来剖析,对于视频分类等视觉算法,咱们能够通过 ROC 曲线来剖析,但对视频 RTC 来说,波及的主观感触十分多,是一件比较复杂的事件,目前业界也没有对立的评测规范。

咱们从这些影响用户感触的指标外面抽出六个维度表征 RTC 的体现品质。

对评测感兴趣的话能够关注咱们的「视频云技术」公众号,外面具体介绍了咱们怎么进行自动化评测的,评测过程中咱们会发明不同的网络环境,检测 RTC 在各方面的体现。

咱们对行业里的 RTC 做了一些评测,发现有两个特点。

第一,RTC 有显著的技术门槛,比如说绿色的框代表一类典型的 RTC 能力,由规模较小的团队自研,投入较小,会有显著的差距。

第二个是几个比拟大的供应商,包含在阿里云在内,里面这一圈,红色的线、蓝色的线,以及黄色的线,他们都处于绝对比拟统一的程度,然而没有一家有特地优良的中央,所以技术同质化特地重大,大家基本上处于同样的程度。

咱们以后视频的实时互动次要集中在线上线下场景,将来可能会有更广大的利用场景,比如说一些交互场景,VR 操控类、虚拟现实类。

这时候咱们会思考一个问题,咱们的技术是不是曾经倒退到了瓶颈期,咱们无奈满足将来更宽泛的需要,这前面的起因是什么?会不会是咱们的技术倒退到某个瓶颈了?因为技术通常是阶跃式的倒退,不能冲破就会陷入在一个档次上。

二、“零解决” 减速交互降级

咱们心愿剖析一下,当初用户的体验到底怎么样?咱们当初的技术存在什么问题?

通过比拟各家 RTC 供应商,咱们发现一个比拟有意思的点,就是大家有千分之二的卡顿率是难以打消的。50%、60% 的丢包都能够做的很好,然而如果网络带宽受限,千分之二的卡顿就难以打消了。

咱们有一些伎俩能够解决相似的问题,比方利用窄带高清技术,咱们能够通过简单计算解决这些问题,也能够通过非标屏幕编码类技术解决,然而实际上咱们很难把这些技术进行十分宽泛的利用。

最基本的起因是咱们会发现端侧能力是有限度的,大家的手机各不相同,有可能有些人的手机特地好,能够做简单算法,有些人手机差,无奈进行简单算法,同时,端的碎片化比较严重,要对所有端适配是比拟艰难的。

在利用上咱们心愿可能提供更乏味的交互,比如说实时生成卡通人物形象,这在端上能够运行,然而只有多数十分弱小的设施能力运行。

一个天然的想法是,咱们是不是能冲破以后的利用架构?

咱们把一个齐全依赖端能力的架构,逐渐转变成依附云和端一起配合进行视频传输解决的架构,基于这个想法咱们提出了云解决 + 端渲染技术,目标是心愿从云上提供弱小的解决能力,端上负责渲染,只须要提供很少的解决能力就能实现比拟好的解决成果,使大家在不同的手机上都能失去一样的体验。

这就是视频云“零解决” 解决方案的根本架构图,在端上只须要进行比较简单的视频采集以及视频传输,而后通过咱们构建的笼罩寰球的 GRTN 网络达到云端,云端应用 GRTP 的云端实时处理引擎对视频进行解决,再把解决好的视频传到端上,端上只须要做简略的出现。这样能够很好的解决方才提到端计算能力不够和碎片化的问题。

然而天下没有收费的午餐,采纳下面的架构,很容易发现几个问题。

第一,咱们的云上是不是能接受这么大规模的解决。

第二,云上能不能承当这么大规模的老本。

第三,云上能不能继续提供这么多类型的解决服务。

咱们本人的信念来自于几个方面。

第一,通过阿里多年的积攒,咱们积攒了业界最大规模的云上视频解决集群,所以咱们在技术上曾经具备承当超大规模解决的能力。

第二,对于老本。

下图是咱们解决的一张业务图的示例图,横坐标是工夫,纵坐标是资源使用量,彩色的线一种业务,红色线是另一种业务,能够看到,每种业务都存在大量的业务闲暇期,业务闲暇期能够让咱们有大量资源供咱们复用,当咱们把多种业务混跑时,就能把资源利用起来,大幅度降低老本。

除了在工夫上的混跑,咱们也能够通过空间上的混跑和异构的混跑,将整体的老本降下来。

第三,因为咱们背靠阿里团体,包含咱们本人也有很多视频算法解决积攒,所以咱们有机会继续一直的提供丰盛的算法和解决能力。

三、“零解决” 实际分享

接下来是阿里云视频云在零解决的实际。

第一个场景是应用 MCU 解放端侧算力。

通常状况下,咱们做 RTC 直播时,观众看到的直播画面是通过 RTMP 协定来实现的,这种状况下因为提早的起因观众是无奈参加到直播互动的。要加强观众的互动性,须要大家都退出 RTC 网络,每个端订阅多个流对端的算力和网络流量都是十分大的累赘。

咱们通过云端的 MCU 把流合并,从新进入到 RTC 会议里,这样观众能够通过 RTC 形式看到直播流,十分不便进行互动,同时也无需耗费过多的端上资源。这种模式咱们称为互动低延时模式,曾经是咱们一个成熟的产品能力。

第二个场景,云转推。

这是一个咱们买通阿里外部服务能力的例子,咱们通过和阿里团体安全部的单干,将 RTC 的流通过内网和安全部的产品买通,缩小了中间环节,实现低成本、低提早的内容审核。

第三个场景,云特效。

置信这个场景大家曾经看过,利用云端的解决,咱们实现了虚构会议室,通过云端的 MCU 将所有人进行抠图 + 贴图,来晋升视频会议时的参会体验,这是阿里外部散会时曾经能够使用到、并看到的技术。

下面展现的实时虚构形象,是依靠 GRTN 实时传输网络,将视频流传输到云端,云端对视频进行抠图,变声,卡通化等简单的 AI 解决,终端只负责展现,从而实现了端侧零解决。

“零解决“作为下一代实时交互解决方案,在云厂商中率先推出,解决了新交互时代因端侧算力受限而无奈实现的虚构交互场景难题,充分利用云端一体的超精密算力,以云特效构建实时虚构场景,是全面关上沉迷交互新世界的一项重要演进。

原文链接
本文为阿里云原创内容,未经容许不得转载。