关于人工智能:十年磨一剑BIGO全球音视频技术解决方案

41次阅读

共计 9172 个字符,预计需要花费 23 分钟才能阅读完成。

BIGO 从 2015 年创建至今始终聚焦在寰球范畴提供音视频服务,短短五年工夫已稳固进入寰球 App 支出排行榜前十。旗下寰球视频直播社区 Bigo live,短视频内容创作平台 Likee,音视频通信 imo 服务于寰球 150 个国家的 4 亿多用户,已造成了涵盖「实时多人语音 / 视频 + 直播 + 点播」全面欠缺的音视频产品矩阵。

BIGO 能在寰球音视频业务畛域高歌猛进,与在音视频技术畛域多年的深厚积攒是密不可分的。回顾过去十年,YY 始终都是国内互联网业界音视频技术的开拓者与领军者。2008 年 YY 语音的巨大成功,2010 年创始音视频直播,2017 年 YY Live 博得挪动音视频直播的千播大战,再到 2018 年孵化的游戏直播“虎牙”在纽交所上市,到 2020 年海内直播 BigoLive 继续进入寰球 App 支出排行榜前十,Likee 成为寰球用户规模第二的短视频平台,都离不开音视频技术弱小的撑持。BIGO 音视频技术从创建初就站在 YY 行业当先的音视频技术的根底之上,针对寰球简单多样的终端散布与网络环境,通过多年三大超大规模外围业务在实在场景下的千锤百炼,进一步积淀出了针对寰球当地环境极致优化的 BIGO 音视频技术整体解决方案。

BIGO 寰球音视频技术整体解决方案的外围能力包含:

a)超大服务规模:单月服务的音视频时长超过 100,000,000,000 分钟,在寰球范畴内首屈一指

b )反对海量用户同时在线:提供千万人同时在线的实时视频互动服务

C )优质服务能力:在寰球简单网络环境下提供 QoE/QoS 行业当先的优质音视频服务

d)高性价比:雷同服务条件下,均匀老本仅为业界通用程度的 50%

接下来将从「音视频编解码」,「音视频传输介绍」和「音视频基础设施」三个角度深刻分析 BIGO 音视频的十年技术积攒。

BIGO 音视频编解码技术

首先音视频编解码技术对于取得清晰、晦涩的互动体验十分要害。编解码算法通过去除音视频内容的时域、空域、感知域等冗余,在低带宽的情景下使视频也能达到较高的清晰度,然而编解码算法在实用时,也面临着一些挑战:1、如何用无限的计算资源,及时处理千万级别视频的编码;2、视频内容千差万别,如何适应不同的内容,以施展编码算法的最大效用。

Bigo 通过自研编码器、自适应编码、自适应降噪等技术,有效应对了上述挑战,晋升了相干产品的音视频根底体验。在此,重点介绍自研编码器与自适应编码技术。

  1. 自研编码器技术

在寰球简单的网络环境下,用户对视频画质晋升的需要日益减少,如何以更低的码率更快的速度提供更高的画质,这对编码器技术提出了挑战,x265 编码器是业界公认的优良 HEVC 开源编码器,绝对于上一代编码器 x264,其在等同编码速度及画质条件下可能节约 40+% 的码率,因而被大量音视频业界公司集成,以大幅改善视频根底体验。作为一种视频根底技术,BIGO 技术认为 x265 的编码性能并未施展 HEVC 规范的压缩极致,因而,咱们自主研发了 Bigo265 编码器。以下是 Bigo265 在不同类型测试序列上的编码体现,与 x265 的 veryslow 档相比,在 5 倍减速的状况下,均匀能够节俭 15% 的码率,达到业界领先水平。

咱们在 Bigo Likee 测试集上比照了 Bigo265 与其它规范编码器的压缩性能,如下表所示,均匀状况下,Bigo265 能够节俭 37% 的码率,同时减速 1.6 倍。

除此之外,咱们在 MSU 编码器大赛的测试条件下对 Bigo265 进行了评估,如下图所示,能够看出 Bigo265 曾经达到了近年 MSU 编码器大赛的 top 级别。

这里的测试集共三类,蕴含了不同的分辨率和内容复杂度,笼罩多种视频场景;其中 Likee 是业务侧的相干视频,JCTVC 是 HM 官网测试集,MSU 是莫斯科大学提供的简单混合的测试集,以上可见,Bigo265 在各类测试视频上的编码成果均具备较大劣势。下图是测试序列的工夫和空间复杂度:

1) Bigo265 技术介绍

Bigo265 在 H265 内核的根底上,基本上反对了 HEVC 规范全副的编码工具。另外它增加了数十种高效的疾速算法,在很小画质损失的条件下极大进步了编码速度。码率管制方面,反对包含 ABR,CBR,VFR, 多 PASS,CRF 等在内的多种码率管制办法。预处理局部也做了大量的优化,能够依据视频内容自适应来进步编码效率。上面简要介绍一下高性价比疾速算法技术及自适应码率控制技术。

高性价比疾速算法技术,为了适应不同业务对于速度及品质的不同要求,Bigo265 提供了八个编码档位,每个档位疾速算法性价比保持一致,如下图速度品质曲线所示,与 x265 相比,Bigo265 速度品质曲线近似是一条直线,且斜率远低于 x265,因而 Bigo265 在面对不同业务需要时,能够提供更加平滑的速度及品质,并且在雷同速度下,如果编码速度要求越快,Bigo265 相比 x265 的劣势就越大。

自适应码率控制技术,Bigo265 能够依据视频场景特色、内容复杂度、帧类型自适应进行码率管制,同时通过 AQ/CUTREE 技术针对块级权重调整 QP,除此之外,还提供了 ROI 接口,能够依据用户的 ROI 区域自适应调节 QP,以达到码率稳固的目标。

2) 与业务侧联合

Bigo265 曾经在 Likee 和 BigoLive 的业务上进行了部署,在节约 20+% 的带宽同时取得了更优质的用户观看体验。目前编码器能够配置多个速度和画质级别,并针对不同的利用场景进行了优化,实用于直播、点播、零提早、云游戏等多种业务下的编码;另外还提供了丰盛的接口,业务部门能够很不便的进行调整和适配,以满足本人的需要。Bigo 的编解码团队除了专一于 Bigo265 编码效率和速度的改良之外,同时也开始进行 AV1、VVC、AVS3 等新一代规范编码器的研发。

  1. 自适应编码技术(BigoCAE)

传统转码服务采纳固定的编码参数进行转码,无奈依据视频内容的复杂度自适应地抉择最佳编码参数,造成简略视频的码率节约和简单视频的品质有余。BigoCAE 致力于自动识别视频内容的复杂度从而抉择正当的编码策略,达到品质和码率的最佳均衡,全局上节约码率,均衡画质。

BigoCAE 在现有业务中,指标 vmaf 分 [-2,+2] 范畴内的编码预测准确度能够达到 93%+。在涵盖多个分辨率、帧率的 3000 个测试集上,品质方差显著变好,缩小了低质 case,平均码率节俭 40%+。

BigoCAE 内容自适应转码策略立足于咱们的自研 Bigo265 编码器,集成了内容分析(迁徙学习,编码特征分析等)、AI 编码参数预测、细粒度的码率管制(帧级码控、ROI 码控)等技术,达到品质安稳,码率节俭的目标。

其中内容分析,采纳了编码特色与迁徙学习特色。其中编码特色采纳原始码流与 pass1 疾速编码的信息,如下图所示:

迁徙学习采纳经典的图像分类网络,应用已训练好的用于 cv 利用的图像分类网络,提取其分类之前的 fc 层作为 AI 编码预测的输出特色。

为了放慢预测速度,满足业务实时需要,AI 编码预测采纳一个简略的浅层神经网络,如下图所示:

码控层面,对 ROI 区域的内容做了自适应调整,如面部区域是大家比拟感兴趣的焦点,对此区域咱们做了编码加强,整体码率不变的状况下,使 ROI 区域比其余区域更清晰一些。

BigoCAE 随着业务的进化而一直进化,咱们会一直引入新的特色、新的网络、新的码控算法改善 BigoCAE 算法的内容自适应成果。

BIGO 音视频传输技术

构建工业级「高可用」,「高通用」,「高质量保障」的音视频传输技术对于音视频产品十分要害,而且不同业务场景,对于传输技术的优化侧重点有很大差异:

另外不同国家、地区网络个性差别很大;跨国家、跨洲的路由和链路品质及免费形式也有很大差异。不同网络类型有各自的行为模式和管道特色,须要适配不同的传输控制策略。

最初,不同地区用户的网络接入类型和形式差异微小,用户对于网络流量费用的偏好也不尽相同。

因而,在制订传输策略过程中,须要对业务场景的侧重点、不同国家、地区网络个性以及用户对于体验品质和网络付费偏好等多维度状况进行综合考量和优化设计。

面对上述音视频传输要害挑战,BIGO 音视频传输技术从设计之初到理论落地,通过继续一直的演进,构建了残缺的传输技术根底体系,蕴含以下 4 个关键技术方向:

这四个关键技术在整个音视频解决方案中,占据了重要的地位,上面咱们一一介绍。

  1. 网络传输拥塞控制技术

如果将互联网设想成为公路零碎,每一条互联网门路就像一条公路。当过多的数据进入网络,就会像公路零碎中因为某些节点的运输能力有余产生梗塞。这种数据梗塞咱们通常称为链路拥塞。

    ![image](/img/bVbLrZE)

拥塞管制钻研曾经历经 30 余年,涌现了泛滥拥塞控制算法,一些有代表性的算法如图所示。

1.1 BTP 拥塞控制系统

在 BigoLive 直播零碎,针对直播的卡顿、清晰度敏感,延时绝对不敏感的特点,BIGO 技术积攒了一套残缺的拥塞管制计划——BTP 拥塞控制系统,在线上达到了均匀零卡顿率超过 94%,720p 占比超 30%,均匀延时低于 2s,在业界位于顶尖程度。

BTP 拥塞控制系统是一个分场景控制系统,它的主算法是 TFRC。TFRC 基于速率发送,过程安稳,更适宜流媒体传输,然而它具备随机丢包下吞吐率低,以及小带宽场景下延时低等不足之处。

随机丢包下吞吐率低:以丢包为拥塞信号的拥塞算法,当遇到无线网络 Wifi/2G/3G/4G 时,会因为无线信道自身可能的信道衰败、信号烦扰个性产生一些随机丢包,这种丢包会使得这一类算法误判拥塞,导致吞吐率变低。为解决随机丢包场景的问题,咱们前置了一个随机丢包过滤器,它可能在混合了各种不同的随机丢包散布下的限速网络下(如 10% 遵从高斯分布的随机丢包 +800kbps 限速),精确过滤出随机丢包,保留拥塞丢包作为拥塞管制信号。

小带宽场景延时高:对于 600kbps 以下的小带宽网络,它的典型特点是路由 buffer 队列长,当检测到丢包拥塞时,buffer 里沉积的数据等待时间能够高达 10s 以上,重大影响直播体验。为此,咱们引入辅助算法 slops,它是一种基于延时的拥塞控制算法,可能精确推断延时类型和网络状态从而施行相应得拥塞管制输入。

在上述多个算法的独特作用下,BTP 拥塞控制系统在实验室仿真环境的验证下:具备超过 40% 的随机丢包抗性,带宽低至 300kbps 仍然可用,网络抖动 1200ms 依然工作失常。


1.2 大数据驱动算法优化零碎

传统的 CC 算法优化流程是“问题驱动”模式,属于被动优化,存在诸多局限:局部问题非关键 / 瓶颈问题、优化后对整体大盘性能改善强劲,日志欠缺导致问题重现耗时、复现难度大。

BIGO 技术研发了大数据驱动的 CC 算法优化零碎。它基于线上用户实在网络数据,通过 trace 特色分类剖析,便于发现关键问题,残缺 / 疾速进行算法迭代评估。如上图所示,构建全面的网络特色数据库和搭建零碎仿真平台是大数据驱动的 CC 算法优化零碎的两个关键步骤:

构建网络特色数据库:不失一般性,咱们通过 {带宽,时延,丢包率,缓存} 来表征一条端到端的网络链路的特色。针对每个要害参数,咱们设计了独立的 trace 采集计划,以进步采集的准确性,同时确保对用户体验影响尽可能小。

构建零碎仿真平台 :以 Pantheon + mahimahi 平台为依靠,咱们扩大丰盛了网络 trace 的输出类型、欠缺 CC 算法性能剖析工具,造成一套残缺的零碎仿真及剖析平台。

线上闭合验证:** 咱们以某国家为切入点,发展对该国用户网络 trace 的数据分析,以及与不同拥塞控制算法的仿真比照,后果如下 2 图,吞吐率和时延的综合收益排名在各个比照 CC 算法中排名靠前。

同时,在线上进行 ab 试验后,取得吞吐率 +0.74%,卡顿率 -0.38% 的技术指标收益,与线下评估统一。基于大数据驱动算法优化零碎,咱们上线了数项优化项,获得了显著的收益。

  1. 弱网反抗技术

用户接入网络状态简单(特地是无线信道自身存在显著的信道衰败、信号烦扰个性)、承载的业务多样,传输过程中会经验网络条件的大幅渐变、好转。从网络传输能力指标上来表征,即可用带宽低、端到端时延大、丢包率高,极大的影响用户的传输性能,现有技术可能无奈保障最低品质的 QoS 要求。

借助于网络 trace 采集零碎,咱们对 BIGO 寰球用户网络特色进行了不同维度的剖析。以某地区用户网络为例,从带宽指标来看,均匀带宽低于 500kbps 的占比约 1%;从丢包率指标来看,总体均匀丢包率 7.2%,连贯丢包率高于 20% 的占比约 10%,随机丢包类型占比约 66%;从时延指标来看,均匀 RTT 高于 380ms 的连贯占比约 30%。因而,弱网反抗技术从办法上次要能够分成抗丢包技术和抗抖动技术。

2.1 抗丢包技术

家喻户晓的两种抗丢包技术是被动重传申请(ARQ)和前向纠错(FEC)。ARQ 和 FEC 别离有各自得优缺点:ARQ 能最大化带宽利用率,但须要引入额定延时,而 FEC 通过减少信息冗余(就义带宽利用率)得形式防止减少额定延时。

针对 ARQ 与 FEC 两种抗丢包办法的特点,咱们采纳了取长补短的策略,尽可能施展各自的劣势,这就是 HARQ(Hybric ARQ)。整体思路是,HARQ 在 RTT 较小的网络中,次要采纳 ARQ,缩小冗余流量;在 RTT 较大的场景中,次要应用 FEC,升高复原延时。

咱们通过在不同场景下 HARQ 和 ARQ+FEC 各自解决的成果比照,能够看到,限速场景 HARQ 复原率晋升显著;另外引入流量指标升高显著,HARQ 对立决策无效升高流量代价。

咱们通过音频传输品质 MOS 的评估形式,测试 HARQ 技术的理论抗丢包成果。依据比照后果,抗丢包模块显著晋升了 MOS,丢包率 40% 以下 MOS 分均能放弃在 4 分以上,音质安稳度较高,无效地晋升用户体验。

FEC 技术前沿摸索:在音视频传输中,Reed-Solomon(RS)作为常见地编码方式将视频的若干帧组合成为一个 FEC 编码块进行编码——在雷同冗余度下较长的 FEC 编码块能够容忍更多的丢包,然而以视频播放延时为代价。BIGO 技术提出新的解决思路(RE-RS),应用滑动窗口扫过视频间断若干帧,窗口每扩张或挪动一帧相应生成一组冗余包,在常见网络丢包散布下 RE-RS 能够及时无效地复原数据。

咱们通过管制随机丢包的丢包率试验来测验 RE-RS 编码方式的成果,如下表所示,在不同的丢包率配置试验中,RE-RS 能取得比 RS 更高的复原率。

2.2 抗抖动技术

为了适应多变的网络和用户场景需要,咱们设计了 BigoJitter,其主体包含语音包缓冲区,网络抖动估算器,播放延时估算器,播放决策器,解码器,变速器,解码数据缓冲区等模块,外围算法在于网络抖动水平估算,播放延时估算以及播放策略制订,BigoJitter 应用历史抖动范畴和自回归算法来估算播放延时,从而能够疾速适应网络的抖动变动。

咱们再次以音频传输品质 MOS 的评估形式,下图所示,BigoJitter 在各种弱网条件下的抗性都体现得很杰出。

  1. 自适应码率播放控制技术

为了应答寰球各区域用户微小的带宽能力差异,Bigo 自研了实时按需转码和自适应码率管制的性能。如图中示例,依据观众端观看码率的汇总状况,在云端按需转码和散发,达到节俭转码计算资源和网络传输资源的指标。

3.1 直播 / 视频点播自适应码率管制

在直播和视频点播场景中,咱们研发落地了基于 MPC 模型预测的自适应码率算法,它通过剖析用户特色和偏好、预测下载带宽信息和缓存长度变动状态,将抉择分辨率 / 码率问题建模成一个求解动静最优化问题,优化的指标就是用户的观看体验指标 QoE(Quality of Experience)。

从框架图中能够看出,如何精确无效预测 QoE 是影响整个自适应码率算法成果得最关键因素。因而,BIGO 技术通过一直致力,自研和落地了基于 User Engagement 的 QoE 预测模型。

3.2 基于 User Engagement 的 QoE 预测模型

咱们提出将播放技术指标同用户参与度相结合的观看体验指标 QoE,从而进一步放大 QoE 模型与用户理论主观体验的差距。

特色选取:** 和传统的 QoE 公式不同,除传输技术指标外,咱们还应用了包含用户地理位置信息、手机软硬件属性、用户 - 视频互动等多方面的原始特色,通过特色工程生成的有显著意义的新特色,以及特色穿插生成的新特色。而后依据相关性和特色重要性,逐轮筛选生成新的特色子集。下图展现了若干次要特色和指标用户参与度的皮尔逊相关系数(PCC,左图),以及在晋升树模型中的特色重要性(以增益掂量,右图)。

参数调整:在选定的特色集上,咱们采纳贝叶斯优化、K 折穿插验证搜寻晋升树模型的最优超参数。贝叶斯优化假如被优化函数为黑盒函数且来自高斯过程,每轮通过优化采集函数 a(x) 确定下一组尝试的超参数 xnext = arg maxx a(x),其中 a(x) 为改善冀望,

a(x) = s(x) (b(x) F(b(x)) + N(b(x)))

其中 N(x), F(x) 为规范高斯分布的密度和累积散布函数,m(x), s(x) 为高斯过程依据现有观测值均值、方差的预计,b(x) = (f(xbest) – m(x)) / s(x) 为以后最优参数。

超参数优化个别会选取较为激进的参数生成简单的树模型,带来额定的部署老本。因此咱们综合思考模型的拟合精度、模型大小和调用工夫,生成帕累托前沿(Pareto frontier)的一系列模型,并依据实际上线须要部署。下图展现了一个帕累托无效的压缩模型的前 3 棵晋升树结构。

模型利用和收益:** 咱们利用 QoE 拟合模型对 Bigo Likee 短视频清晰度选档算法进行优化,在晋升用户观看满意度的同时节俭了 Bigo 服务器的带宽耗费。

  1. 接入路由策略优化技术

Bigo 用户笼罩寰球上百个国家和地区,不同国家和地区的用户的网络条件和网络品质的差异性很大,依靠 Bigo 寰球几十个数据中心和 Bigo 弱小的 AI 技术、大数据分析能力的反对,咱们实现了残缺的 ” 实时智能路由调度 ”:

a) 从海量的历史传输数据中提取多维传输质量指标,联合不同状态产品对 QoS、QoE 的不同需要,将多维传输质量指标映射为品质得分,最终生成一个细化到运营商的基准路由表;

b) 通过统计不同工夫粒度的网络品质的变动,不断更新及动静调整基准路由表;

c) 实时监控传输门路品质,对于突发的网络拥塞和网络故障及时动静切换两头转发节点,升高网络问题对传输品质的影响。

通过“实时智能路由调度“,咱们为媒体数据传输尤其是跨国、洲际数据传输提供了稳固的高质量门路。

BIGO 寰球网络基础设施建设

从 BIGO 技术多年大规模业务积淀的技术教训来看,高质量的音视频技术服务能力离不开基础设施的深度定制,BIGO 抉择全自建了寰球的网络基础设施,提供给业务端到端的 turnkey 技术解决方案能力。

联合音视频业务业务场景来看,组建一个优质的寰球 RTN 网络面临的挑战能够拆成两个局部:(1)如何保障海量用户到各个机房的接入品质;(2)如何保障散布寰球的各个 DC 之间的通信品质。上面别离介绍 BIGO 在这两块的建设状况。

  1. 用户接入网品质优化

不论是主播还是观众端,用户接入都是影响服务质量最重要的环节,也面临最简单多样的网络环境。BIGO 在寰球各大洲和重点国家抉择运营商资源最丰盛的城市来构建 BIGO 的 Internet 接入的节点,通过 BIGO 互联网替换平台(BIGO Internet eXchange,简称 BIX)来治理。次要从以下三个方面来优化。

BIX = Bigo Internet eXchange,IPT = IP Transit Provider,IX = Internet eXchange

Peer = BGP Private Peer

(a)贴近用户,连通世界。 在最靠近用户的城市,自建优质 BGP 进口网络,与大量本地 ISP 对等互联,对接形式包含 IPT、IX、Peer 等。目前与寰球运营商建设 Peer 数量已达到 170+,与 2W 多家 ISP 发展深度技术单干。

(b)DC 到用户,智能路由。 实时剖析机房到用户的网络品质,包含丢包、抖动、RTT、连贯成功率等要害指标,同时依据 Internet 路由变动,实时绘制进口可用门路。通过智能调度控制器,确保到用户网络领有最佳路由。

(c)用户到 DC,动静优选。 实时剖析用户拜访不同机房的品质,联合机房负载、用户品质等指标,动静调整机房调配策略,确保每个地区每个运营商的用户接入综合得分最优机房, 晋升用户体验。

  1. DC 之间的通信品质优化,提供 99.99% 优质传输率


(a)同城互联,高速牢靠。在欧洲,美洲,东南亚,印度等欧洲自建多张城域网,通过波分复用技术深度利用物理光纤资源,为同城数据中心互联提供超大带宽与高牢靠 DC 间通信网络。

(b)寰球物理专线互通,智能调度。在寰球数据中心间,以及各地区到各大洲的数据中心,通过海缆自建一张寰球骨干网,连通寰球各大城域网;并且通过 SDN 控制器实现拥塞管制,流量调度,故障自愈,实现寰球数据中心稳固高速互联。为保证质量,海缆个别都会在物理上冗余,比方同时应用两条不同的海缆。

(c)虚构光纤,公网专线。即便海缆做了物理上的冗余,但在流量突发、海缆保护、业务爆炸式增长、新节点疾速上线等场景,还是有危险导致下层业务不可用。BIGO 自研“公网专线”(BVTS)零碎,解耦网络对物理专线的依赖,并退出抗丢包、TCP 压缩、加密等技术。实现专线极速开明,业务疾速上线,晋升骨干网络可靠性。

(d)除了底层链路的质量保证,在上应用层也减少一层优化:多维分析,构建智能路由。自研寰球 DC 间 IP 到 IP 的(点到点)智能选路零碎,依据实时网络状态、网络门路负载、可用带宽、老本等因素综合主动决策,并且能够依据不同的业务需要来抉择最佳传输门路,比方音视频服务要求是低提早,可承受大量丢包;而信令业务对丢包敏感度高,但能够接管稍高提早。

通过多年的积攒和倒退,目前 BIGO 在亚洲, 欧洲, 美洲等寰球各地建了近百个 IDC,进口容量达到 40T,与 2W 多家 ISP 发展深度的技术单干,笼罩寰球 150 个国家和地区。为寰球 DC 间提供 99.99% 优质传输率。

总结

本文从音视频编解码、音视频传输、基础设施建设的三个次要视角介绍了 BIGO 音视频技术解决方案十年的技术积淀。技术无止境,BIGO 技术还继续在音视频技术进行技术钻研以放弃在行业中的当先性,譬如网络品质智能定位能力,精细化的网络类型切分与场景化算法优化能力,用户主观体验的了解和评估,基于 AI 的编解码算法,HDR10 和 4K 技术优化,新一代编解码规范等等。

站在 2020 年的工夫点上,BIGO 曾经做到了从欧洲到亚洲,从美洲到非洲,把最好的视听服务传递到世界的每一个角落,传递给每一个热爱生活的人。在这个过程中,音视频核心技术能力和 BIGO 业务增长多年来互相成就,通过在实在市场大规模利用的千锤百炼,最终锻造成坚如磐石的 BIGO 音视频技术解决方案。

稿件起源来自于 BIGO 技术自媒体。

正文完
 0