关于直播:网易实践|千万级在线直播弹幕方案

51次阅读

共计 3916 个字符,预计需要花费 10 分钟才能阅读完成。

导读:8 月 22 日,TFBOYS「日光旅行」七周年演唱会落下帷幕,顶级流量的在线直播,海量弹幕、礼物刷爆屏幕,网易云信为这场直播流动提供直播弹幕技术计划。本文将围绕千万级在线场景论述直播弹幕的设计方案。

文|云信 IM 技术团队

8 月 22 日,TFBOYS「日光旅行」七周年演唱会落下帷幕,36 氪评估网易云音乐举办的这场线上演唱会“很可能会成为线上音乐上演正式走上历史舞台的一个标志性事件 ”。在这样一个突破吉尼斯世界纪录的“标志性事件”背地,是 网易云信千万级在线直播间弹幕计划 的技术支持。

弹幕技术计划

弹幕计划以 云信聊天室服务 为根底,提供 登录直播间、发送弹幕、礼物音讯 等能力;以千万级在线播送为指标,设计了 基于 CDN 的弹幕播送服务

直播间收发音讯(弹幕、礼物)的根本业务流程如下:

  • 获取直播间接入地址
  • 登录直播间
  • 收发音讯(弹幕、礼物)

下文将围绕以上三个阶段别离论述如何实现千万级在线直播弹幕能力。

获取直播间接入地址

为了提供稳固高可用的弹幕服务,须要通过 GSLB 服务给用户调配最佳的接入地址。GSLB 服务须要从 用户网络类型、机房网络容量、服务器负载、老本 等维度综合思考。

用户网络类型和机房网络容量:为了用户可能疾速、稳固的登录直播间收发音讯,个别要依据用户所在地理位置以及网络运营商类型综合思考给用户分类接入服务器。机房个别提供 BGP 网络、三线网络两种接入计划,调配服务依据用户 IP 地址剖析用户的地区、运营商类型并调配最佳接入地址。个别优先按运营商类型调配三线地址(例如电信用户调配电信接入地址),如果是小运营商或无奈辨认的 IP 地址则调配 BGP 地址,两种接入形式用户都能够取得稳固的网络环境。

服务器负载:单台服务器可能承载的 TCP 长链接无限,尤其是在高并发进入直播间的状况下,握手协定须要实现链路加密工作,对系统的 CPU 资源耗费比拟大,因而须要实现一套良好的平衡调配策略。

云信实现了一套基于服务器负载平衡的调配策略。长链接接入服务器周期性上报以后服务器负载到负载平衡服务集群,负载信息存储在共享缓存中,接入调配服务依据负载信息动态分配接入地址。

个别状况下用户申请直播间地址,地址调配服务会查问负载平衡服务(或者间接查问负载缓存),而后依据获取到的信息调配以后负载最低的服务器。在千万级别的在线直播流动场景下,开播时大量用户并发进入直播间,调配服务可达 50 万到 100 万 TPS,这么高的 TPS 下如果还用“个别调配”计划,负载平衡(缓存)服务的 TPS 和集群之间的机房网络带宽十分高,单台服务器亦可能因为负载信息滞后导致超负荷调配。为解决机房内带宽和超负载调配的问题,咱们对调配计划实现了以下优化:

  1. 长链接服务器上报负载的周期从 1 秒调整到 5 毫秒,负载平衡服务器能够更实时的同步负载信息
  2. “地址调配”服务不再按申请查问负载信息,而是开启独自的同步线程周期性(同样是 5 毫秒)同步负载数据,从而无效升高负责信息同步的 TPS 和网络开销。
  3. “地址调配”服务不在按最低负载调配,而是将服务接入地址按负载排序,单个接入地址调配肯定次数后按程序调配下一个接入地址(防止低负载服务器霎时被打爆)

在理论计划落地中,须要联合负载、用户网络类型、机房线路容量等因素综合调配。

登录直播间

登录直播间次要有两项工作:握手和身份认证。

握手:SDK 建设 TCP 长链接后,首先向服务器发送握手协定,次要提供 SDK 版本、协定版本、反对的加密算法等信息,服务器依据 SDK 提供的信息抉择适合的协定版本以及加密算法,建设平安的通信链路。

云信反对的非对称算法包含:RSA,SM2 等算法,反对的对称加密算法包含:AES,SM4 等(注:SM2、SM4 为国密算法,即我国自主研发翻新的一套数据加密解决系列算法。

云信作为业内当先的即时通讯 PAAS 平台,十分重视信息安全,因而也率先反对了国密算法。)。非对称加密算法对 CPU 资源耗费十分高,为了进步性能个别能够思考抉择适合的密钥长度,另外针对 Java 平台倡议思考应用 JNI 技术进步非对称加密计算性能。

身份认证:TFBOYS 流动是在线付费直播,因而身份认证蕴含了账号认证和业务认证两局部,即用户必须应用正确的账号密码登录 App,且必须付费购买直播门票才有权限观看直播。为优化零碎性能,弹幕服务将“地址调配和鉴权”服务进行了非凡优化:

鉴权核心提供用户进入直播间弹幕服务的身份鉴权策略配置。在 TFBOYS 流动中采纳了动静 Token 的鉴权机制,即依据用户账号、登录工夫、调配的接入地址以及鉴权核心按工夫区间生成的“随机数以及对应的 Token 算法”动静计算鉴权 Token。

用户关上直播 App,首先实现账号鉴权。在进入 TFBOYS 直播间时通过业务核心实现直播付费身份认证和弹幕服务地址调配(同步获取到弹幕服务的动静鉴权 token),最初依据接入地址登录弹幕服务,弹幕服务根据鉴权核心的策略校验 Token 正确性。

动静 Token 鉴权采纳过程本地计算的形式,能够在不拜访用户服务的状况下实现身份鉴权,在进步登录认证的性能同时无效的升高了业务老本。

收发音讯(弹幕、礼物)

收发音讯是直播间的外围业务,直播间音讯次要分为弹幕和礼物两类。礼物因波及付费等因素个别通过客户方业务服务器发送,弹幕音讯则能够通过聊天室长链接发送。在千万级直播间场景下,因音讯量太高,因而须要从音讯量、音讯体大小、音讯比例等多个方面优化,因而设计了一套基于优先级队列的弹幕服务。

首先,为了节约音讯产生的带宽,在大型直播我的项目开始阶段,就须要对音讯格局进行优化,充沛精简音讯体大小。例如将礼物音讯展现相干的资源文件提前预加载到直播 App 中,礼物音讯转化为业务编号,可极大的缩小音讯大小;

其次,针对上行音讯设计流控机制。为了能全局管制上行音讯体量,设计了 逐级流控计划。上层级依据下层级可能撑持解决能力设计绝对较粗粒度的本地流控机制;在弹幕反垃圾业务阶段,因须要全局管制音讯量,因而采纳分布式全局流控计划;弹幕播送阶段则依据业务播送需要再一次进行音讯流控。

上行音讯通过反垃圾监测后被投递到弹幕服务解决。基于优先级队列的弹幕服务首先按业务划分不同的音讯队列,例如:零碎播送、高优先级礼物、低优先级、弹幕,而后按队列调配音讯比例,最初依据单位工夫(1 秒)内用户须要接管到的音讯量计算各个队列应该投递的音讯数量。在理论投递音讯的过程中,若前一个队列音讯量有余,可将残余的音讯数量叠加到下一个队列,以确保每一个周期都发送足够的音讯给用户。

弹幕可通过长连贯或 CDN 播送给其余用户。为了给用户提供极致的弹幕体验,充分发挥边缘减速的劣势,在千万级在线直播场景下优先选择 CDN 计划,如下图:

基于 CDN 播送弹幕有两种计划:

  • 基于推流的计划:相似于直播视频推流技术,行将音讯伪装成视频流的模式推送到 CDN,直播 App 以订阅数据流的形式同步弹幕信息;
  • 动态文件减速计划:即弹幕服务将不同队列中的音讯组装成一个动态文件,直播 App 周期性的到 CDN 服务器下载弹幕动态文件。

相对来说,动态文件减速计划实现 更简略但实时性不高 (取决于弹幕同步的周期时长);推流的计划音讯 实时性更高,但实现绝对简单,且须要思考到不同终端的兼容性。理论我的项目中可依据场景和终端类型灵便抉择不同的计划。

为了保障服务的可靠性,可思考 交融 CDN 的计划,即同时将音讯推送到多家 CDN 厂商,并联合 CDN 厂商的容量比例以及网络提早状况综合调度(例如基于权重的轮巡调度策略)。

弹幕稳定性设计

单元化部署

ChatLink 和 ChatServer 采纳单元化部署的计划,有以下长处

  1. 单元内依赖的外围服务单元之间互相独立,程度扩大能力好,且单元内服务故障不影响其余单元,能够无效防止整个服务不可用的问题;
  2. 跨机房部署,防止单个机房容量有余,或单机房不可用问题;
  3. 弹幕计划采纳了单元无状态的设计理念,因而不须要思考单元之间同步数据的问题。

单个直播间的“接入服务”和“弹幕服务”因须要全局管制未采纳单元化部署计划,然而在施行阶段采纳了 跨机房部署的计划(包含依赖的存储资源、服务),能够防止单个机房故障导致服务不可用的问题。

单点服务高可用

针对“接入服务”和“弹幕服务”,除了采纳跨机房部署外,在服务设计上外围依赖的存储资源、服务,采纳 主备模式。例如心跳负载依赖的缓存服务,单个缓存实例自身高可用,但思考到极其状况(例如缓存集群内超过一半的服务器宕机导致服务不可用),因而采纳主备缓存集群计划,当主集群不可用后,业务被动切换到备用集群,可保障业务在 5 秒内恢复正常

系统监控与数据大盘

为了实时理解零碎运行状态,在弹幕计划中实现了 秒级数据大盘计划。监控大盘围绕用户和音讯,展现用户地区散布变动、上行音讯量、播送音讯量、机房进口带宽、CDN 带宽、音讯流控比例,端侧 CDN 弹幕同步指标(胜利比例、提早情况)等信息。

为了达成秒级监控的指标,数据收集采纳了 “业务预聚合 + 数据中心合并” 的实时计算计划。即业务服务间接在本地过程内聚合计算指标上报到数据中心,数据中心仅须要按工夫窗口合并监控指标数据即可输入到监控大盘。

故障与应急预案演练

为确保流动顺利完成,弹幕计划进行了屡次故障与应急预案演练措施。具体蕴含两个方面:

  1. 预设故障演练:即针对高可用设计方案的故障演练,按预设有打算的制作故障,次要验证高可用计划是否失效。
  2. 随机故障演练:无打算的随机制作故障,次要用于查看应急预案、异样监控报警、数据大盘等应急监测机制是否失效。

** 结束语
**

凭借超过 20 年的技术累积和 5 年企业交融通信教训,网易云信在线直播弹幕计划在 TFBOYS「日光旅行」七周年演唱会上以 0 故障的佳绩交上了一份称心的答卷,携手网易云音乐独特成就了这场口碑票房双丰收的线上演唱会。

正文完
 0