关于java:亿级流量架构服务降级写得太好了

作者：等不到的口琴 \
起源：www.cnblogs.com/Courage129/p/14427020.html

什么是服务降级

如果看过我后面对服务限流的剖析,了解服务降级就很容易了,对于一个景区,平时轻易进出,然而一到春节或者十一国庆这种状况客流量激增,那么景区会限度同时进去的人数,这叫限流,那么什么是服务降级呢?

简略来说就是,将一些不太重要的景区我的项目砍掉,平时就那么三五八个人,景区能够凋谢湖中游泳啦,摸鱼啦,捉虾啦,有状况工作人员能够下湖捞你,然而当初客流量大了,工作人员关注不过去,都在湖里晃荡万一沉了不太平安,大手一挥,这个我的项目砍了,将工作人员调配在其余中央。

在互联网中也有相似的降级措施,像之前双11, 有段时间是只容许下单不容许退单或者改单,这样做目标是什么呢?

还是为了保障服务的可用性,当硬件软件优化到肯定的水平还是有下限,这时候将资源重点歪斜给外围业务,那些不太重要的就砍掉,保障服务的可用性。

服务等级定义

服务等级定义 SLA（Service Level Agreement）是断定压测是否异样的重要依据。压测过程中，通过监控外围服务状态的 SLA 指标数据，能够更直观地理解压测业务的状态。

SLA则是服务商与您达成的失常运行工夫保障。

对于这个的具体解释,能够参考阿里云的介绍:服务等级定义SLA（https://help.aliyun.com/docum…）,这儿不过多形容,SLA 分为网络服务和云服务,提供商的在线保证率通常要求达到6个9。

6个9含意

6个9指99.9999%,也就是一个服务有99.9999%概率是平安的,6个9有多平安呢?

2个9 = （1-99%）X24 X 365 = 87.6 小时 = 3.65天

3个9 = （1-99.9%）X24 X 365 = 8.76 小时

4个9 = （1-99.99%）X24 X 365 = 0.876 小时 = 52.56分钟

5个9 = （1-99.999%）X24 X 365 = 0.0876 小时 = 5.256分钟

6个9 = （1-99.9999%）X24 X 365 = 0.00876 小时 = 0.5256分钟 = 31秒

也就是,一年当中,6个9的安全性最多会有31s服务是不可用,相对来说是极高的。

降级解决

兜底数据

这方面有很多例子,比方某些页面挂了会返回寻亲子网。能够对一些要害数据设置一些兜底数据,例如设置默认值、动态值、设置缓存等。

默认值: 设置平安的默认值，不会引起数据问题的值，比方库存为0

动态值:申请的页面或api无奈返回数据，提供一套静态数据展现，比方加载失败提醒重试，或者寻亲子网,或者跳到默认菜单,给用户一个略微好一点的体验。

缓存: 缓存无奈更新便应用旧的缓存

限流降级

限流顾名思义，提前对各个类型的申请设置最高的QPS阈值，若高于设置的阈值则对该申请间接返回，不再调用后续资源,也就是当流量洪峰达到的时候，可能须要抛弃一部分用户来保障服务可用性,对于抛弃的用户能够提供敌对的提醒,比方提醒用户以后忙碌、稍后重试等。

限流须要联合压测等，理解零碎的最高水位，也是在理论开发中利用最多的一种稳定性保障伎俩。当服务器压力剧增的状况下，依据以后业务状况及流量对一些服务和页面有策略的降级，以此开释服务器资源以保障外围工作的失常运行。

超时降级

对调用的数据设置超时工夫，当调用失败时，对服务降级,举个例子,当拜访数据曾经超时了,且这个业务不是外围业务,能够在超时之后进行降级,比方商品详情页上有举荐内容或者评估,然而能够降级显示评估临时不显示,这对次要的用户性能——购物,不产生影响,如果是近程调用,则能够磋商一个单方都能够承受的最大响应工夫,超时则主动降级。

故障降级

如果近程调用的服务器挂了(网络故障、DNS故障、HTTP服务返回谬误),则能够进行降级, 例如返回默认值或者兜底数据或者动态页面,也能够返回之前的缓存数据。

重试/主动解决

客户端高可用：提供多个可调用的服务地址,这样做

微服务重试：dubbo重试机制

API调用重试：当达到重试次数后，减少拜访标记，服务降级，异步探测服务是否复原。

WEB端：在服务不可用时，web端减少重试按钮或主动重试能够提供更敌对的体验。

主动重试需设置重试次数和数据幂等解决

降级开关

在服务器提供反对期间, 如果监控到线上一些服务存在问题,这个时候须要临时将这些服务去掉,有时候通过服务调用一些服务,然而服务依赖的数据库可能存在,网卡被打满了,数据库挂了,很多慢查问等等,此时要做的就是暂停相干的零碎服务,也就是人工应用开关降级。开关能够放在某地,定期同步开关数据,通过判断开关值来决定是否做出降级。

开关降级还有一个作用,例如新的服务版本刚开发处在灰度测试阶段,不太确定外面的逻辑等等是否正确,如果有问题应该能够依据开关的值切回旧的版本。

在服务调用方设置一个flag，标记服务是否可用,另外key能够存储存储在在本地,也能够存储在第三方的配置文件中,例如数据库、redis、zookeeper中。

爬虫和机器人

剖析机器人行为：短时间间断操作，agent，行为轨迹、拖拽（模仿登陆/秒杀/灌水）

爬虫：引到到动态页或缓存页

读降级

简而言之,在一个申请内，多级缓存架构下，后端缓存或db不可用，能够应用前端缓存或兜底数据让用户体验好一点。

对于读服务降级个别采纳的策略有：
临时切换读: 降级到读缓存、降级到走动态化
临时屏蔽读: 屏蔽读入口、屏蔽某个读服务

通常读的流程为: 接入层缓存→应用层本地缓存→分布式缓存→RPC服务/DB

咱们会在接入层、应用层设置开关，当分布式缓存、RPC服务/DB有问题时主动降级为不调用。当然这种状况实用于对读一致性要求不高的场景。

页面降级、页面片段降级、页面异步申请降级都是读服务降级，目标是丢卒保帅,爱护外围线程，或者因数据问题临时屏蔽。

还有一种是页面动态化场景。

动态化降级为动态化：比方，平时网站能够走动态化渲染商品详情页，然而，到了大促降临之际能够将其切换为动态化来缩小对外围资源的占用，而且能够晋升性能。其余还有如列表页、首页、频道页都能够这么解决。能够通过一个程序定期推送动态页到缓存或者生成到磁盘，出问题时间接切过去。

动态化降级为动态化：比方，当应用动态化来实现商品详情页架构时，平时应用动态化来提供服务，然而，因为非凡起因动态化页面有问题了，须要临时切换回动态化来保障服务正确性。以上都保障了出问题时有预案，用户能够持续应用网站，不影响用户购物体验。

写降级

大家都晓得硬盘性能比不上内存性能,如果访问量很高的话,数据库频繁读写可能撑不住,那么怎么办呢,能够让内存(如果是Redis)库来临时满足写工作,同时将执行的指令记录下来,而后将这个信息发送到数据库,也就是不在谋求内存与数据库数据的强一致性,只有数据库数据与Redis数据库中的信息满足最终话一致性即可。

也就是说，失常状况下能够同步扣减库存，在性能扛不住时，降级为异步。另外，如果是秒杀场景能够间接降级为异步，从而爱护零碎。还有，如下单操作能够在大促时临时降级，将下单数据写入Redis，而后等峰值过来了再同步回DB，当然也有更好的解决方案，然而更简单，不是本篇的重点。

还有如用户评估，如果评估量太大，那么也能够把评估从同步写降级为异步写。当然也能够对评估按钮进行按比例凋谢（比方，一些人看不到评估操作按钮）。比方，评估胜利后会发一些处分，在必要的时候降级同步到异步。

总结
在cap原理和BASE实践中写操作存在于数据一致性这个环节，降级的目标是为了提供高可用性，在少数的互联网架构中，可用性是大于数据一致性的。所以丢失写入数据同步，通过下面的实践，咱们也能勉强承受数据最终一致性。高并发场景下，写入操作无奈及时达到或抗压，能够异步生产数据/cache更新/log等形式

前端降级

当零碎呈现问题的时候，尽量将申请隔离在离用户最近的地位，防止有效链路拜访, 在后端服务局部或齐全不可用的时候，能够应用本地缓存或兜底数据,在一些非凡场景下，对数据一致性要求不高的时候，比方秒杀、抽奖等能够做假数据。

JS降级

在js中埋降级开关，在拜访不达到，零碎阈值的时候能够防止发送申请

次要管制页面性能的降级，在页面中，通过JS脚本部署性能降级开关，在适当机会开启/敞开开关。

接入层降级

能够在接入层，在用户申请还没达到服务的时候，通过、Nginx + Lua、Haproxy + lua过滤有效申请达到服务降级的目标, 次要管制申请入口的降级，申请进入后，会首先进入接入层，在接入层能够配置性能降级开关，能够依据理论状况进行主动/人工降级。这个能够参考第17章，尤其在后端应用服务出问题时，通过接入层降级从而给应用服务有足够的工夫复原服务。

应用层降级

次要管制业务的降级，在利用中配置相应的性能开关，依据理论业务状况进行主动/人工降级。

SpringCloud中能够通过Hystrix配置核心能够进行人工降级，也能够依据服务的超时工夫进行主动降级, Hystrix是Netflix开源的一款针对分布式系统的提早和容错库，目标是用来隔离分布式服务故障。

它提供线程和信号量隔离，以缩小不同服务之间资源竞争带来的相互影响；官网讲Hystrix提供优雅降级机制；提供熔断机制使得服务能够疾速失败，而不是始终阻塞期待服务响应，并能从中疾速复原。Hystrix通过这些机制来阻止级联失败并保证系统弹性、可用。下图是一个典型的分布式服务实现。

片段降级

例如关上淘宝首页,这一瞬间须要加载很多数据,有动态的例如图片、CSS、JS等,也有很多其余商品等等,这么多数据中,如果一部分没有申请到,那么就能够片段降级,意思是就不加载这些数据了,用其余数据顶替,例如其余商品信息或者等等。

提前预埋

这个很容易了解,大家应该都记得,每次双十一之前,淘宝总会揭示你下载更新,按情理来讲,流动还没开始,更新啥呢?

做法是对于一部分静态数据能够提前更新到你手机上,当你双十一时就不必再近程连贯服务器加载了,防止了耗费网络资源。

近期热文举荐：

1.1,000+ 道 Java面试题及答案整顿(2021最新版)

2.别在再满屏的 if/ else 了，试试策略模式，真香！！

3.卧槽！Java 中的 xx ≠ null 是什么新语法？

4.Spring Boot 2.5 重磅公布，光明模式太炸了！

5.《Java开发手册（嵩山版）》最新公布，速速下载！

感觉不错，别忘了顺手点赞+转发哦！

关于java:亿级流量架构服务降级写得太好了

什么是服务降级

服务等级定义

6个9含意

降级解决

兜底数据

限流降级

超时降级

故障降级

重试/主动解决

降级开关

爬虫和机器人

读降级

写降级

前端降级

JS降级

接入层降级

应用层降级

片段降级

提前预埋

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于java:亿级流量架构服务降级写得太好了

什么是服务降级

服务等级定义

6个9含意

降级解决

兜底数据

限流降级

超时降级

故障降级

重试/主动解决

降级开关

爬虫和机器人

读降级

写降级

前端降级

JS降级

接入层降级

应用层降级

片段降级

提前预埋

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复