关于运维:B站容量管理游戏赛事等大型活动资源如何快速提升10倍

3次阅读

共计 5353 个字符,预计需要花费 14 分钟才能阅读完成。

一分钟精髓速览

当成千上万的服务器都处于低利用率时,就意味着巨额的节约,良好的容量治理能够帮忙打消某些“最初时刻”的长期应急式的自觉或者超量洽购。除了老本正当管制方面,容量治理还要预估对客户可能产生影响的业务倒退和危险变动。

B 站在降本增效大背景下,从业务视角对整体容量做了可视化治理,本文详细描述了其容量治理的背景、思路及功效。

作者介绍

哔哩哔哩资深 SRE 专家 张鹤

TakinTalks 社区专家团成员,2020 年退出 B 站,先后负责主站 / 直播 /OGV/ 推广搜相干的 SRE 工作。深度参加多活、流动保障、混沌工程、容量治理相干的建设,并主导容量治理平台、混沌平台的架构设计和落地。曾负责 B 站 S 赛、跨年晚会、拜年祭等相干流动的基础架构保障工作,目前次要负责推广搜业务的稳定性建设、PaaS 治理。

舒适揭示:本文约 4500 字,预计破费 9 分钟浏览。

后盾回复“交换”进入读者交换群;回复“2252”获取课件材料;

背景

对于 B 站来讲,咱们最大的三个流动是 S 赛、拜年纪、B 站跨年晚会。在用户增长的背地,SRE 团队做了十分多的事件来保障业务连续性,比方多活、混沌工程等等。

明天换个角度聊聊——“容量治理”,B 站为什么要做容量治理的平台?咱们的容量管理体系是怎么设计的?平台侧和业务侧咱们是如何去经营、让工作变得“可视化”的?我也将联合容量治理平台在 S12 赛事中的理论利用,来分享“赋能业务”的一些教训。

一、为什么 B 站要做容量治理?

在做容量治理之前,B 站面临了几个很显著的痛点,如下图所示。

除了须要解决未知的容量危险,在提倡“降本增效”的大背景下,进步资源利用率,制订正当的、有数据撑持的估算决策也十分重要。

而此前,B 站在大型流动中的容量决策,比方 S9、S10 等,并没有积淀下来可供 S12 参考的相干数据,零碎自身容量是否足够、是否须要扩容、应该扩容多少等等,少有容量数据撑持。另外,全年的估算制订也迫切需要参考容量数据。

二、B 站容量体系是如何设计的?

2.1 不同角色的诉求

基于上述的痛点,咱们打算做整个容量体系的设计,其中不同的角色关注的流量指标其实不太一样。比方:

研发部门:关注是否有足够资源,能扩容、能公布即可。级别比拟高的研发 Leader 可能更关注整个部门的资源使用率、部门的老本是否正当等;

平台:更关注平台的售卖率、资源 Buffer、资源使用率,以及其余降本增效的工作;

SRE:外围关注稳定性,还须要晋升总体资源的使用率,实现降本增效的大指标;

老本部门:更关注账单、老本、估算、资源使用量等,即节俭整体费用。

2.2 容量体系整体设计

从下往上看,最上层次要是根底数据(根底容量),比方机器、资源池等偏差云底层的层面。SRE 和平台更多要感知到集群的容量、资源池的容量等到底怎么样,无论资源池如何超卖或者调控,前提是整体底层的资源应用肯定要在平安水位。

在根底容量之上,咱们构建了一套基 VPA 的伸缩策略,以及基于 HPA 的弹性扩缩实例的策略。还和业务的资源池做了合池,合池后可能就会面临一个问题,即都在一个大池子里,如何管制每个业务方应用的资源?此时,就须要基于业务做配额治理,即管控每个业务能应用多少资源。

在更下层,咱们还提供了一套容量可视化以及可经营的数据,提供给业务做撑持,进步业务团队的效率,包含基于业务部门的组织容量、容量事件等,比方容量经营周报,将不同的部门的使用率公开排名,依据数据提供优化倡议等,这部分我将在前面具体地介绍。

三、容量经营与可视化如何帮忙业务解决问题?

3.1 根底容量

根底容量是整个容量体系的根底,上文提到根底容量咱们更关注集群、资源池、node 以及一些利用维度的容量报表,如下图所示。

集群:关注集群容量水位和超卖率;

资源池:关注资源池容量水位、超卖率、资源冗余度。资源使用率决定了咱们是否须要及时采买机器、判断是否能承载更多业务;

Node:关注 Node 资源水位、Node 超卖率,因为超卖会有热点带来的压力,所以对 Node 做了使用率相干的报表;

利用:关注使用量、使用率、实例数、单实例容器数等。业务比拟关注利用层面的数据的,比方,服务是否是单点的,因为单点代表如果一台物理机挂了,凑巧服务在这台物理机上,此时服务会短暂不可用,对于外围业务来说是不能被承受的。

基于这些指标,咱们做了一些可视化的界面,与对外监控零碎 Grafana 数据默认存储 2 周不同的是,咱们整个容量平台的数据是长久存储的,目前已存储靠近两年的数据。

3.2 业务组织容量

在降本增效的背景下,如何帮忙业务去解决问题?业务侧个别更关注如何找出哪些服务占用了较多容量、哪块业务的资源使用率比拟低能够缩容、老本突增或者应用忽然增多到底是哪个业务导致的、业务治理或者架构整合后到底治理成果如何等等,须要比拟直观的界面,能帮他们理解全局。

所以基于以上几点,咱们做了基于业务组织的容量报表,如下图所示。

以 B 站直播业务为例,直播作为一个大部门,假如整体容量使用率是 40%,想要进步使用率,通过直观的可视化报表能够看到直播大部门下,分支业务例如营收,会有送礼、抽奖之类的服务,发现其资源较多且使用率低时,业务团队就能根据可视化报表的信息,提前做治理从而取得更多的收益。

同时,可能基于趋势图,看到直播业务下哪些业务忽然占用了较大容量,比方新业务场景、研发或者业务忽然扩容等,并且反对数据下钻,能够下钻到营收业务下,理解到底是抽奖还是送礼业务引起的变动。

3.3 容量事件

从事件源上看,能引起容量变动的事件有很多,其中包含公布平台 /HPA 变更平台 /Node 治理,在公布平台里,研发能够扩容或新增服务,以及批改容量配置等,所以公布平台会导致容量的变动。另外,HPA 扩缩容、Node 物理机新增或删除等,也会导致容量的变动。

所以咱们外部对接了各种容量变更的平台,做了容量事件相干的能力,当一个业务发现整体资源应用变动很多,此时能通过容量事件疾速定位事件源,及时感知容量危险,并追溯容量变动的根因。

3.4 容量周报

容量每周都在发生变化,所以咱们平台做了周报的剖析,从老本、效率、危险这三个外围登程,业务部门和平台方的周报关注点差别较大。

3.4.1 部门容量周报 (业务侧)

业务侧周报外围关注以下 4 点——

整体资源容量,资源使用率,环比上周变动。 即和上周比拟,资源使用率减少或缩小了多少。

利用容量 Top。即哪些利用占用了较多资源,不便业务疾速感知大头资源,进步降本优化效率。

危险利用 Top(优先展现 L0/L1 利用)。 本部门是否有危险较大的利用,如有使用率较高的外围服务,能够提前扩容。

一周容量变动利用 Top。 即新增了哪些服务、哪些服务做了扩缩容、下线了哪些服务等,做到高深莫测。

(内部周报展现 – 部门 main 整体资源利用率)

3.4.2 外部周报(平台侧)

平台侧周报外围关注以下 2 点——

** 部门资源使用率及排名,部门容量 Top;
部门资源闲暇率 Top(大于 5000 核部门)。**

通过公开排名,理解哪些业务的容量治理较弱,并优先治理。同时,因为其资源使用量较大,优先对其做治理,平台也将失去更大的治理收益。

(外部周报展现 – 整体资源利用率)

3.5 容量巡检

不论是在流动大促,还是在日常业务稳定性保障中,咱们都须要亲密关注整体容量是否存在危险,所以有了容量巡检体系。

3.5.1 业务类巡检

依据业务侧关注的 2 个方面——利用容量巡检、配额巡检,咱们做了可视化展现。

利用峰值使用率较高的,会有稳定性危险,须要思考紧急扩容;而利用使用率较低的,则要思考是否能够缩容以节俭资源。

后面讲到咱们做了合池,那么须要关注合池后配额使用率过高的状况,防止导致后续扩容或新增业务无奈满足,提前发现危险并做治理。

3.5.2 平台类巡检

平台更关注底层的使用率状况,可调度实例数是否满足后续的业务需要,以及资源池是否是单节点等等。同时,因为平台笼罩了 VPA,那么 VPA 调整完后的失败率也是平台比拟关注的。

基于此,咱们做了平台巡检大盘、资源池巡检治理、VPA 巡检治理等等。在巡检大盘中,对危险资源池 / 闲暇资源池 Top、危险利用 Top、危险配额 Top 等做了相应展现。

3.6 容量治理的业务价值

容量治理落地后,咱们能够直观看到整体工作对业务带来的帮忙,比方容量资源导致的公布问题缩小 80%、容量问题导致的线上故障升高 90% 等等。从这个角度来看,业务部门并非是在配合平台做容量治理,而是大家独特在为最终的业务指标致力,能确保容量治理落实好后,业务的诉求失去更快响应,稳定性也能失去较大晋升。

四、容量治理是如何撑持 S12 赛事的?

后面咱们讲的是平台侧的能力、业务侧的需要,接下来,我将以刚过去的 B 站大型赛事 S12 为例,具体论述容量治理平台在具体业务场景中的利用。

4.1 S12 流动节奏

4.2 S12 赛前容量预估

S12 赛前的容量预估次要分为三大步。

第一步,参考历史根底容量数据,计算容量 delta

无论 S 赛事还是跨年晚会,B 站多年来的大型流动,积淀了一些历史数据可作参考,基于历史数据能够计算出增量。

举个例子,S11 在 11 月举办总结赛,流动保障启动在 8 月,拿 8 月的使用量 a 和 S11 峰值使用量 b 做比拟,并依据 delta = 1 + (b-a) / a,来算出 S11 当年的增量系数,比方 1.3、1.5 等。

第二步,S12 新增场景,预估增量

思考到 S12 在原有根底上,会有一些新增场景,此时须要在业务指标明确后,将其转化成技术指标,技术指标再去转化为容量需要,失去一个预估的增量 d。

第三步,S12 容量预估,失去资源缺口

在资源筹备中,额定 buffer 通常是 10%~20%。总容量的预估,能够依据 S12 以后 8 月的使用量 e 和 buffer 来推算,公式参考如下:

容量预估 =(e delta + d ) (1 + buffer)

这部分预估的容量,减去以后的总资源存量,即可失去整体的资源缺口,并以此为根据进行容量调整。

4.3 S12 的 PaaS 合池

4.3.1 合池前后比照

在合池之前,各块物理资源池绝对独立,如下图所示,漫画业务的整体资源使用率最低,而直播可能已靠近饱和,此时因为直播是齐全独立的物理资源池,漫画和电商业务的闲暇资源无奈被利用。在今年,例如 S11 期间,就须要洽购资源或长期从云上新增资源来撑持整个流动。

S12 赛前,咱们把诸如漫画、电商、直播等的在线类微服务合池完后,业务不再须要关怀总体的物理资源池,即只需关怀本身业务逻辑配额的使用率,而非底层的分配率或使用率。在物理层面有在线对立物理资源池,底层的分配率、使用率齐全由 SRE 和平台来保障。

4.3.2 合池可能危险

合池后可能会面临一些不稳固因素,比方,不同的资源池或不同的业务,其内核版本可能有差别,所以咱们做了整体物理层的标准化,对立内核以及去 CPUSET 化,通过底层的 VPA 策略动静调整整体资源应用。

4.4 S12 的配额治理

因为合池后的每个业务都共用一个资源池,所以各业务的资源配额须要做到细分治理,防止资源被无限度应用。这里咱们通过容量治理平台进行治理,容量配额下发逻辑如下图所示。

配额是基于组织数来下发的,比方某个组织能应用多少配额,策略下发后会作用在规定引擎上,业务变更时,比方要做发版前,会先在规定平台上理解对应业务的配额是否足够做发版,若资源不够,则会揭示配额有余,此时需分割 SRE 调整配额或者进行配额治理。以此咱们就能做到配额管控,保障整个资源池不会被乱用。

4.5 S12 的容量撑持

整个 S12 赛事期间,容量撑持能够大抵分为四个方面——HPA、VPA、弹性上云、容量巡检,如下图所示。

4.6 S12 的容量监控大盘

对于 S12 赛事流动保障,整体关注的外围指标有业务指标、SLO、资源饱和度,容量监控大盘能依据外围指标,帮忙更快地定位潜在危险点,并疾速做决策。

首先是业务指标,S12 咱们比拟关注直播间在线人数,如超过 1000 万、2000 万等等。当赛事期间的整体流量减少,点播业务也会被影响,所以点播在线人数也是咱们关注的业务指标之一。

其次是 SLO,SRE 团队会更关注外围接口的 QPS,以及吞吐、提早、错误率等。

最初是资源饱和度,包含外围服务饱和度、外围中间件饱和度等。

五、将来布局

5.1 容量风控

咱们发现有一些服务的容量变更操作不足根据,比方想当然地做缩容,没有指标去提醒或验证,很有可能导致服务故障。所以咱们会做容量风控相干的拦挡策略,基于容量画像、利用群包,去做到容量变更危险管制。

5.2 弹性伸缩

第一块是分时调度。B 站有些小流动比方漫画业务,根本是在夜间有 1 个小时左右的峰值流量,其余工夫点都是失常的流量。退出分时调度后,比方夜间 0 - 1 点的流动,咱们就能够在 23 点前提前做好扩容,流动完结后实现缩容。
第二块是弹性预测。一方面是可能预测有法则的流量压力并提前扩容,另一方面如果监控零碎挂了,弹性的预测数据也能够作为监控数据的兜底。

5.3 热点打散

咱们是基于软限调度,同时软限也基于 VPA 做了调整,但仍难防止有些服务在物理机上会有热点,所以咱们将基于物理机去做二次调度等工作。(全文完)

增加助理小姐姐(shulie888),凭截图收费支付以上所有材料

并收费退出「TakinTalks 读者交换群」

申明:本文由公众号「TakinTalks 稳定性社区」联结社区专家独特原创撰写,如需转载,请后盾回复“转载”取得受权。

本文由博客一文多发平台 OpenWrite 公布!

正文完
 0