关于负载均衡:循序渐进讲解负载均衡vivoGatewayVGW

作者：vivo 互联网运维团队- Duan Chengping

在大规模业务场景中，曾经不可能通过单机提供业务，这就衍生出了负载平衡的需要。为了满足适合牢靠的负载，本文将从简略的根底需要登程，一步步推动并解释如何建设负载平衡平台。

一、怎么保障你的业务牢靠

想一个问题：假如你有10台服务器对外提供雷同的服务，你如何保障这10台服务器能稳固解决内部申请？

这里可能有很多种解决方案，但实质上都是解决下述两个问题：

① 客户端的申请应该调配去哪一台服务器比拟好？

② 万一其中某些服务器故障了，如何隔离掉故障服务器？

问题① 解决不好，可能会导致10台服务器中的一部分服务器处于饥饿状态，没有被调配客户端申请或者是调配得很少；而另一部分则始终在解决大量的申请，导致不堪负重。

问题② 解决不好，则CAP准则中的可用性(A)可能就没法保障，除非零碎不须要A。

要解决上述问题，你必须实现一套控制器，能调度业务申请和治理业务服务器。很可怜的是，大多数状况下这个控制器往往就是整个零碎的瓶颈。因为控制系统如果不深刻到客户端上，就必须依赖一个集中式的决策机构，这个机构必然要承载所有客户端的申请。这时候你又得去思考这个控制器的冗余和故障隔离的问题，这就变得无休无止。

二、业务和管制隔离

那么，如何解决上述问题？

那就是业余的事件交给业余平台去做，即，咱们须要独立的负载平衡提供上述2点的解决方案。

对于客户端来说，每次申请一个站点，最终都会转变成对某个IP发动申请。所以只有能管制客户端拜访的IP地址，咱们就能管制申请应该落到哪个后端服务器上，从而达到调度成果，这是DNS在做的事件。或者，劫持客户端所有申请流量，对流量重新分配申请到后端服务器上。这个是Nginx、LVS等的解决形式。

图1、通过DNS实现负载平衡的成果示意图

图2、通过LVS/Nginx实现负载平衡的成果示意图

这两个形式都能达到负载平衡的成果。但这外面有个重大的问题，DNS、Nginx、LVS等服务在互联网时代不可能单机就能提供业务，都是集群式（也就是有N台服务器组成），那这些集群的可靠性和稳定性又该如何保障呢？

DNS次要负责域名解析，有肯定的负载平衡成果，但往往负载成果很差，不作为次要思考伎俩。Nginx提供7层负载平衡，次要靠域名来做业务辨别和负载。LVS是4层负载平衡，次要靠TCP/UDP协定、IP地址、TCP/UDP端口来辨别服务和负载。

为了解决Nginx、LVS这些负载均衡器集群的负载平衡及可靠性，咱们能够做下述简略的计划：

业务服务器的负载和可靠性由Nginx保障；
Nginx的负载和可靠性由LVS保障。

上述计划是遵循了业务 <– 7层负载 <– 4层负载的逻辑，实际上是在网络分层模型中的应用层 <– 传输层的做两级负载。能够看出，其实这个计划是用另一层负载平衡来解决以后层级的负载和可靠性的问题。但这个计划还是有问题，业务和Nginx集群这两层的负载和可靠性是有保障了，但LVS集群这一层的可靠性怎么办？

既然咱们在网络分层模型中应用层 <– 传输层做了两级负载，那有没有可能做到应用层 <– 传输层 <– 网络层的三级负载？很侥幸的是，基于IP路由的形式，网络设备（交换机、路由器）人造具备了网络层负载平衡性能。

到此，咱们能够实现整个负载平衡链条：业务 <– 7层负载(Nginx) <– 4层负载(LVS) <– 3层负载(NetworkDevices);

从这里能够看出，要确保整个负载平衡体系是无效牢靠的，必须从网络层开始构筑。处于高层级的业务，能够为低层级的业务提供负载。绝对于低层级，高层级的业务都能够认为是低层级业务的管制面，能够交给业余团队去实现和治理，低层级业务侧只须要关注业务自身实现即可。

图3、网络7层模型和LVS、Nginx之间的对应关系

网络7层分层模型阐明：

7、应用层: 反对网络应用，利用协定仅仅是网络应用的一个组成部分，运行在不同主机上的过程则应用应用层协定进行通信。次要的协定有：HTTP、FTP、Telnet、SMTP、POP3等。

6、表示层: 数据的示意、平安、压缩。（理论使用中该层曾经合并到了应用层）

5、会话层: 建设、治理、终止会话。（理论使用中该层曾经合并到了应用层）

4、传输层: 负责为信源和信宿提供应用程序过程间的数据传输服务，这一层上次要定义了两个传输协定，传输控制协议即TCP和用户数据报协定UDP。

3、网络层: 负责将数据报独立地从信源发送到信宿，次要解决路由抉择、拥塞管制和网络互联等问题。

2、数据链路层: 负责将IP数据报封装成适合在物理网络上传输的帧格局并传输，或将从物理网络接管到的帧解封，取出IP数据报交给网络层。

1、物理层: 负责将比特流在结点间传输，即负责物理传输。该层的协定既与链路无关也与传输介质无关。

三、如何实现4层负载平衡

下面说过，3层负载由网络设备人造提供，但理论应用中是和4层负载紧耦合的，个别不独立提供服务。4层负载能够间接为业务层提供服务，而不依赖7层负载（7层负载次要面向HTTP/HTTPS等业务），所以咱们这里次要针对4层负载来讲。

3.1 如何转发流量

实现负载平衡，话中有话就是实现流量重定向，那么，首要解决的问题是如何转发流量。

4个问题要解决：

① 如何把客户端的流量吸引到负载均衡器上？

② 负载均衡器如何抉择适合的后端服务器？

③ 负载均衡器如何将申请数据发送到后端服务器上？

④ 后端服务器如何响应申请数据？

对于①，

解决方案很简略，给一批后端服务器提供一个独立的IP地址，咱们称之为Virtual IP（也即VIP）。所有客户端不必间接拜访后端IP地址，转而拜访VIP。对于客户端来说，相当于屏蔽了后端的状况。

对于②，

思考到处于低层级的负载平衡通用性，个别不做简单的负载策略，相似RR（轮询）、WRR（带权重轮询）的计划更适合，能够满足绝大多数场景要求。

对于③，

这里的抉择会往往会影响这④的抉择。现实状况下，咱们冀望是客户端的申请数据应该一成不变的发送到后端，这样能防止数据包被批改。后面提到的网络七层分层模型中，数据链路层的转发能够做到不影响更下层的数据包内容，所以能够满足不批改客户端申请数据的状况下转发。这就是网络常说的二层转发（数据链路层，处在七层网络模型中的第二层），依附的是网卡的MAC地址寻址来转发数据。

那么，假如把客户端的申请数据包当成一份利用数据打包送到后端服务器是不是可行？该形式相当于负载均衡器和后端建设了一个隧道，在隧道两头传输客户端的申请数据，所以也能够满足需要。

上述两种解决方案中，依赖数据链路层转发的计划称之为间接路由形式（Direct Route），即DR模式；另一种须要隧道的计划称之为隧道（Tunnel）模式。DR模式有一个毛病，因为依赖MAC地址转发，后端服务器和负载均衡器必须在同一个子网中（能够不谨严认为是同一个网段内），这就导致了只有和负载平衡服务器在同子网的服务器能接入，不在同一个子网的这部分就没有应用负载平衡的机会了，这显然不可能满足以后大规模的业务。Tunnel模式也有毛病：既然数据转发依赖隧道，那就必须在后端服务器和负载均衡器之间建设隧道。如何确保不同业务人员能正确在服务器上配置隧道，并且能监控隧道失常运行，难度都很大，须要一套实现的治理平台，话中有话即治理老本过高。

图4、DR模式的转发示意图，响应流量不会通过负载均衡器

图5、Tunnel模式转发示意图，和DR一样，响应流量不会通过负载均衡器

既然都不是很现实，那还有没有其余计划？

咱们冀望的是后端服务器不感知前端有负载平衡存在，服务能够放在任何中央，且不做任何过多配置。既然做不到一成不变传送客户端的数据包，那就代理客户端的申请。也就是对客户端收回来的数据包的源IP和目标IP别离做一次IP地址转换。

具体来说，负载均衡器收到客户端A的申请后，本人以客户端的角色向后端服务器发动雷同的申请，申请所带的payload来自于客户端A的申请payload，这样保障了申请数据统一。

此时，负载均衡器相当于发动了一个新连贯（不同于客户端A发动的连贯），新建的连贯将会应用负载均衡器的IP地址（称之为LocalIP）作为源地址间接和后端服务器IP通信。

当后端返回数据给负载均衡器时，再用客户端A的连贯将数据返回给客户端A。整个过程波及了两个连贯，对应两次IP地址转换，

申请时刻：CIP→VIP, 转换成了LocalIP→后端服务器IP，
数据返回时刻：后端服务器IP→ LocalIP, 转换成了VIP→ CIP。

客户端该过程齐全基于IP地址转发数据，而不是MAC地址，只有网络可达，数据就能够顺畅在客户端和后端之间传输。

图6、FULLNAT转发模式

上述计划称之为FULLNAT转发模式，也就是实现了两次地址转换。显然，这种形式足够简略，不须要后端服务器做任何调整，也不限度后端部署在何处。但也有个显著问题，那就是后端看到的申请全副来自于负载均衡器，实在的客户端IP信息齐全看不到了，这就相当于屏蔽了实在客户端的状况。侥幸的是数据中心中绝大多数利用并不需要明确晓得实在客户端的IP地址信息，即使是须要实在客户端IP信息，负载均衡器也能够将这部分信息加载在TCP/UDP协定数据中，通过按需装置肯定的插件获取。

综合上述几种计划来说，FULLNAT模式对咱们的业务场景（非虚拟化环境）适宜度是最佳的。

既然咱们打算应用FULLNAT模式，则④的解决就没有任何艰难了，因为负载均衡器间接充当了客户端角色，后端的数据必然要全副转发给负载均衡器，由负载均衡器再发给真正的客户端即可。

表1：各种模式之间的优劣势剖析

3.2 如何剔除异样后端服务器

负载平衡个别提供对后端的健康检查探测机制，以便能疾速剔除异样的后端IP地址。现实状况下，基于语义的探测是最好的，能更无效的检测到后端是不是异样。但这种形式一来会带来大量的资源耗费，特地是后端宏大的状况下；这还不是特地重大的，最重大的是后端可能运行了HTTP、DNS、Mysql、Redis等等很多种协定，治理配置十分多样化，太简单。两个问题点加起来导致健康检查太过于轻便，会大量占用原本用于转发数据的资源，治理老本过高。所以一个简略无效的形式是必要的，既然作为4层负载，咱们都不去辨认上游业务是什么，只关注TCP或者UDP端口是不是可达即可。辨认下层业务是什么的工作交给Nginx这类型的7层负载去做。

所以只有定期检查所有后端的TCP/UDP端口是否凋谢，凋谢就认为后端服务是失常的，没有凋谢就认为是服务异样，后端列表中剔除，后续将不再往该异样后端转发任何数据。

那么如何探测？既然只是判断TCP端口是不是失常凋谢，咱们只有尝试建设一个TCP连贯即可，如果能建设胜利，则表明端口是失常凋谢的。然而对于UDP来说，因为UDP是无连贯的，没有新建连贯的这种说法，但同样可能靠间接发送数据来达到探测的目标。即，间接发送一份数据，假如UDP端口是失常凋谢的，所以后端通常不会做响应。如果端口是没有凋谢的，操作系统会返回一个icmp port unreachable状态，能够借此判断端口不可达。但有个问题，如果UDP探测数据包里带了payload，可能会导致后端认为是业务数据导致收取到无关数据。

3.3 如何实现负载均衡器的故障隔离

后面咱们说过，4层负载平衡依赖于网络层衡来确保4层负载均衡器之间的负载是均衡的，那么负载均衡器的故障隔离就是依赖于网络层来做。

具体如何做？

实际上，咱们是依赖于路由的形式来做网络层的负载平衡，负载平衡集群中每台服务器都把雷同的VIP地址通过路由协定BGP通告给网络设备（交换机或者路由器），网络设备收到雷同的一个VIP来自不同的服务器，就会造成一个等价路由（ECMP），话中有话就是造成负载平衡。所以如果咱们想要隔离掉某台负载均衡器的话，只有在该服务器上把通过BGP路由协定公布的VIP撤销即可，这样，上游交换机就认为该服务器曾经被隔离，从而不再转发数据到对应设施上。

图7、通过撤销VIP路由进行故障隔离

至此，咱们曾经实现了一个基于FULLNAT，次要依赖三层协定端口做健康检查，通过BGP和网络设备对接实现VIP收发的形式实现负通用载平衡架构模型。

四、VGW的实现计划

基于上述4层负载的架构，咱们建设了VGW（vivo Gateway），次要对内网和外网业务提供4层负载平衡服务。上面咱们将从逻辑架构、物理架构、冗余保障、如何进步管理性转发性能等方面进行阐明。

4.1 VGW组件

VGW外围性能是简单平衡，同时兼具健康检查，业务引流等性能，所以组成VGW的组件次要就是外围的负载平衡转发模块、健康检查模块、路由管制模块。

负载平衡转发模块：次要负责负载计算和数据转发；
健康检查模块：次要负责检测后端（RealServer）的可用状态，并及时革除不可用后端，或者复原可用后端；
路由管制模块：次要进行VIP公布引流和隔离异样VGW服务器。

4.2 逻辑架构计划

为了不便了解，咱们把客户端到VGW环节的局部称之为内部网络(External），VGW到后端（RealServer）之间的环节较外部网络（Internal）。从逻辑架构上将，VGW性能很简略，就是把External的业务申请平均散发到Internal的RealServer上。

图8、VGW逻辑示意图

4.3 物理架构计划

物理架构上，对于提供内网的VGW和外网的VGW会有肯定差别。

外网VGW集群应用了至多2张网卡，别离接外网侧网络设备和内网侧网络设备。对于VGW服务器来说，两个网口延长出两条链路，相似人的一双手臂，所以称这种模式为双臂模式，一个数据包只通过VGW服务器的单张网卡一次。

图9、外网VGW物理示意图

而内网VGW和外网不同，内网VGW则只用应用了1张网卡，间接内网侧网络设备。绝对应的，该形式称为单臂模式，一个数据包须要须要先从仅有的一张网卡进，而后再从网卡出，最初转发到内部，总计穿过网卡2次。

图10、内网VGW物理示意图

4.4 VGW现有业务模型

后面咱们说过，负载平衡能够为7层负载提供更上一层的负载平衡。

以后VGW最大的业务流量来自于7层接入接出平台（也就是Nginx）的流量，而Nginx根本承载了公司绝大部分外围业务。
当然Nginx并不能反对所有类型的业务，间接构建于TCP、UDP之上的非HTTP类型这一部分流量7层Nginx并不反对，这类业务间接有VGW将数据转发至业务服务器上，两头没有其余环节，比方kafka、Mysql等等。
还有一部分业务是用户自建了各种代理平台，相似于Nginx等等，但也由VGW为其提供4层负载平衡。

图11、VGW业务模型图

4.5 VGW的冗余保障

为了进步可用性，那么思考哪些危险？大家自然而然的思考到服务器故障、过程故障等场景。但VGW场景须要思考更多，因为VGW整个零碎包含了链路、网络设备、服务器、过程等。而且还不能只思考设施宕机这种简略的场景，实际上，上述任何设施呈现不宕机但转发异样的状况才是最麻烦的。

所以监控VGW服务转发是不是失常是第一步，咱们通过布放在不同机房和地区的探测节点定期和VIP建设连贯，通过建设连贯的失败比列来作为掂量VGW是不是失常的规范。实际上，该监控相当于检测了整个波及VGW的所有环节的链路和转发是不是良好的。

下面的监控笼罩到的是集群级别的探测，当然咱们也建设了其余更细粒度的监控来发现具体问题点。

在有监控一手数据之后，咱们就能提供服务器级别故障解决和集群级别的故障解决能力。

所有设施级别的间接宕机，VGW做到主动隔离；
所有链路级别的异样，一部分能主动隔离；
所有过程级别的异样，能达到主动隔离；
其余非齐全故障的异样，人工染指隔离。

服务器级别故障隔离是将某一些VGW服务器通过路由调整将勾销VIP的公布，从而达到隔离目标；

集群级别故障隔离是将整个VGW集群的VIP勾销公布，让流量主动被备用集群牵引，由备用集群接管所有业务流量。

图12、服务器、链路级别故障隔离

图13、集群级别的故障隔离

4.6 如何进步VGW性能

随着业务量级越来越大，VGW单机要接管近百万的QPS申请，同时要达到500W/s以上的包解决能力。显然个别服务器根本无法达到这么大量的申请和包处理速度，次要起因在于Linux的网络解决机制。网络数据包都必须通过Linux内核，网卡收到数据包后都要发送中断给CPU，由CPU在内核解决，而后再拷贝一份正本给应用程序。发送数据也要通过内核进行解决一遍。频繁的中断、用户空间和内核空间之间一直的拷贝数据，导致CPU时长重大被耗费在了网络数据处理上，包速率越大，性能越差。当然还有其余诸如Cache Miss，跨CPU的数据拷贝耗费等等问题。

这里会很容易想到，能不能把下面CPU干的这些脏活累活扔网卡去干了，CPU就纯正解决业务数据就行。目前很多计划就是依据这个想法来的，硬件计划有智能网卡，纯软件计划以后用的较多的是DPDK（Intel Data Plane Development Kit）。显然智能网卡的老本会偏高，而且还在倒退阶段，利用有肯定老本。而DPDK纯软件来说在老本和可控方面要好得多，咱们抉择了DPDK作为底层的包转发组件（实际上是基于爱奇艺开源的DPVS的二次开发）。

DPDK次要是拦挡了内核的包解决流程，将用户数据包间接上送至应用程序中，而不是由内核进行解决。同时摈弃了依附网卡中断的形式解决数据的行为，转而采纳轮询的形式从网卡中读取数据，从达到升高CPU中断的目标。当然还利用了CPU亲和性，应用固定的CPU解决网卡数据，缩小过程的切换耗费。另外还有很多对于Cache、内存等方面的优化技术。总体上可能将服务器网卡包处理速度达到千万PPS，极大晋升网卡的包解决能力，进而能晋升服务器的CPS（每秒新建连贯数目）。以后咱们在100G网卡下，可能达到 100w+的CPS和1200w+PPS的业务处理量（无限条件下的测试后果，非理论值）。

图14、VGW应用的底层工具DPVS（DPDK+LVS）比照几种现有的负载平衡计划性能

五、总结

通过上述解说，咱们逐渐从一个业务可靠性的需要推演出一套可行的负载平衡计划，同时联合vivo的理论需要，落地了咱们的VGW负载平衡接入平台。当然，以后的负载平衡计划都是大量取舍后的后果，不可能做到完满。同时咱们将来还面临着新的业务协定反对的问题，以及数据中心去中心化的业务模型对负载平衡的集中式管制之间抵触的问题。但技术始终在提高，但总会找到适合的计划的！

关于负载均衡:循序渐进讲解负载均衡vivoGatewayVGW

一、怎么保障你的业务牢靠

二、业务和管制隔离

三、如何实现4层负载平衡

3.1 如何转发流量

3.2 如何剔除异样后端服务器

3.3 如何实现负载均衡器的故障隔离

四、VGW的实现计划

4.1 VGW组件

4.2 逻辑架构计划

4.3 物理架构计划

4.4 VGW现有业务模型

4.5 VGW的冗余保障

4.6 如何进步VGW性能

五、总结

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于负载均衡:循序渐进讲解负载均衡vivoGatewayVGW

一、怎么保障你的业务牢靠

二、业务和管制隔离

三、如何实现4层负载平衡

3.1 如何转发流量

3.2 如何剔除异样后端服务器

3.3 如何实现负载均衡器的故障隔离

四、VGW的实现计划

4.1 VGW组件

4.2 逻辑架构计划

4.3 物理架构计划

4.4 VGW现有业务模型

4.5 VGW的冗余保障

4.6 如何进步VGW性能

五、总结

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复