关于微服务:TSF微服务治理实战系列三服务限流

大家应该都有去游乐园玩耍的经验，其实服务限流与游乐园人流治理很类似。比方每一个游乐园所能承载的规范游客总数是大略确定的，当游乐园承载的游客数量超出了规范数量，游客在玩耍的时候就会呈现玩耍路线人潮拥挤（申请拥挤解决慢）、热点游乐设施排队久（热点 API 过载）、餐品饮料供给缺货（数据库连接池有余）等状况，更有在重大节日时因为人数太多导致的踩踏事变（服务宕机导致的雪崩）。

服务限流其实就是一种应答超额流量的爱护机制，当业务流量超出零碎可能承载的下限时，疾速解决超额的申请（如疾速失败），避免超额的申请持续争抢 / 占用系统资源。本节将简略介绍服务限流针对的问题域、设计准则及 TSF 在服务限流方面的能力和应用场景。

崔凯

腾讯云 CSIG 微服务产品核心产品架构师

多年分布式、高并发电子商务系统的研发、零碎架构设计教训，善于支流微服务架构技术平台的落地和施行，目前专一于微服务架构相干中间件的钻研推广和最佳实际的积淀，致力于帮忙企业实现数字化转型。

社会的劣势资源总是稀缺的，稀缺的资源又总是让人一拥而上。比方在 12306 抢春节回家的票，就是一场全国返乡人民都会参加的秒杀流动，如此大规模的流量让春节回家难这件事年年上热搜，那么具体是什么技术起因导致的呢？

因为回家心切而过于冲动的去反复刷新抢票页面（海量并发读）；
票放出的工夫和库存都是固定的，所有人会在同一时间点击购买按钮（海量并发写）；
很多人就想抢到好时间段的票，就去买了抢票机器人（流量放大）；
零碎没有做多级缓存、数据精简、音讯队列解耦等优化操作（本身架构问题）。

上述起因只是一部分次要影响因素，在遭逢大流量时，如果没有适当的防御机制，轻则零碎响应迟缓、频繁报错，重则零碎瘫痪。其实每年的车票就那么多，与其让所有人都破费额定的资源去争抢，不如早早让用户晓得卖光了，疾速失败。

服务限流就是为了爱护后端服务和数据不被大流量击垮而设计，当产生流量浪涌时，让实例能在最大无效负荷运行，而不会超过负载导致解体。

产品的能力再炫酷，也须要落地在问题场景中能力产生价值。那么针对上述问题场景，服务限流能够应用哪些能力模型来解决问题呢？小编认为至多须要具备如下几种次要的能力：全局限流从整体限定服务容量（包含网关和业务服务），标签限流进行精准的细粒度管制，动静调节让服务能够依据本身状态自适应调整流量。

全局限流

从每个服务的视角整体把控服务容量，并且不辨别调用申请的起源。所有流经被调用服务的申请都将被统计计数，一旦统计数字超过了全局限流配置的阈值，整个服务会回绝超过配额的申请。

标签限流

通过标签化能力，将上游申请进行分类，针对不同品种的申请配置不同的限流规定，同时限流规定甚至能够准确管制到每个申请上。最终通过多个限流规定的组合，实现针对服务中不同 API、不同流量起源的组合型防护。

动静调节

针对单个实例基于本身状况和算法，能够动静调整流经申请数量，保障在不超过每个实例最大吞吐量的状况下，使得资源被无效的充分利用。

限流常见的算法包含固定窗口算法、滑动窗口算法、漏斗算法、令牌桶算法等，算法的内容在互联网已有诸多形容，小编不再赘述，只简要比照各算法优劣点。

算法名称	长处	毛病
固定窗口算法	代码逻辑简略易实现	窗口临界点流量翻倍问题
滑动窗口算法	防止了临界点翻倍问题	超过临界值后没有缓冲机制
漏斗算法	固定速率保障稳定性，有肯定缓冲	刹时流量不能在短时间内立刻被解决
令牌桶算法	兼顾缓冲机制和刹时流量解决	首次启动时令牌数量需优化

其实每种算法都有应用的场景，比方滑动窗口算法，实现起来简略易懂，比拟适宜简略的限流场景；漏斗算法因为其流出速率恒定的特点，更偏重于爱护上游服务，缩小大流量对上游服务或三方平台的冲击；令牌桶算法更重视爱护利用本身，同时满足了对申请进行缓冲和刹时大流量问题的均衡。

另外在微服务体系中，限流更多的落地形式，更多的落地形式是大量微服务共用一套分布式限流框架，不便对立配置、对立运维、对立治理。TSF 服务限流通过令牌桶算法，实现了一整套分布式服务限流的管控机制，使得利用在援用 TSF-SDK 后，开箱即用的取得分布式限流的能力。

上图为 TSF 服务限流架构示意图，首先撑持端限流核心基于用户的限流配置，计算得出服务中每个实例单位工夫（1S）内应通过的最大的申请数配额（单位工夫内最大流经申请数），并将该配额下发到每一个对应的服务实例中（各实例配额并不相同）。其次 TSF-SDK 会将单位工夫内的统计数据上传到限流核心，供限流核心计算下一个单位工夫该当下发的配额。最初，在以后单位工夫内，当超过配额的申请达到实例后，就会被拦挡并返回 HTTP 429（Too Many Requests）谬误。

简略总结下，TSF 服务限流通过 SDK 实时上报的实例统计数据，使得限流核心组件能够动静的调整每个实例以后的配额数值。例如一个服务有 4 个实例，全局限流配置为 100QPS，则每个实例初始时各得 25 的配额。但当某一个实例产生阻塞，该阻塞实例会通过上报数据被限流核心感知，之后调配给阻塞实例的配额会适当缩小（如 5），并适当减少其它实例的压力。阻塞实例在低流量压力状况下逐步复原后，限流核心能够捕捉到实例的压力曾经减小，又会从新调整每个实例的配额到根本均分状态。

以下图为例是一个通用的 WEB 零碎架构，流量通过 APP、PC、第三方平台等不同的入口通过网关的平安鉴权和攻打防护，通过 CLB 负载到每一个微服务网关裸露的对外 API 上，再由微服务网关将申请散发到不同的后端服务中。

从设计服务限流的视角，咱们不应仅仅将限流的动作局限在某一些服务上，需尽量从整个架构的视角来剖析，核心思想是 “分层分级”。

分层是指申请从网关进入到返回用户，通过了网关、LB、微服务网关、后端服务等多层环节，咱们其实能够在申请流经的每一层进行缓存，提前缩小不平安的（如歹意攻打）、非必要的（如动态资源）的申请间接透传到后端服务和 DB，防止贵重资源被节约。

分级是指用户申请会不同水平的扩散到网关、前台服务、中台服务中的各个 API 中，那么依据服务是否外围、API 是否热点等不同的特色，能够对各微服务进行分级。例如对于入口型的微服务网关或者 BFF 聚合服务，更适宜配置针对网关 / 服务的全局限流；外围服务的外围 API 更适宜配置针对 API 的标签限流；针对单个服务中 API 数量较多的状况，独自配置 API 可能不切实际，更适宜通过全局限流配置一个该服务 QPS 共计的预估峰值。

另外，在配置限流之前，对微服务的历史数据（QPS 均值和峰值、PV/UV 等）、可收集到的已有业务数据（用户数、库存、商家、预估流量等）、资源耗费状况（服务器配置和数量、CPU 内存与流量的对应关系等）提前参照，也是重要的精确评估流量的伎俩。

在进行服务限流配置之前，首先要理解服务所处的层级、服务的预估容量等状况，这就须要一套残缺的压测办法来撑持。以下为一些我的项目中压测的落地教训，供各位读者参考。

首先，在筹备压测前先理解一些压测的“潜规则”：

尽量保障压测环境与生产环境的服务器配置、数量、型号保持一致；
影响压测的因素包含不限于：实例数量、服务器配置、利用配置、网络环境等；
通过扭转上述某一个影响压测的因素，察看压测数据的变化趋势，而不要同时扭转多个；
当服务中待压测接口较多时，优先压测外围接口，因为工夫总是无限；
常见可能的拐点为，在并发压力增大时 QPS 持平或不升反降、利用报错率飙高、响应耗时飙低等；
长链路压测过程中尽量保障被压服务的上游依赖服务资源绝对闲暇，如 consumer->provider 且 consumer 为被压服务时，需保障 provider 并无显著压力；
可先通过 mock 的形式压测本身的服务容量，再进行全链路压测。

其次，对于服务中单个 API 的压测，目标在于确认每个 API 在不同场景下的 QPS。对于全链路的压测，是以模仿实在业务链路为前提，将服务中单个 API 进行串联后，确认链路上所有相干 API 的 QPS，两种场景是从不同的视角登程的。全链路压测的问题在于，当上游服务的 API 成为瓶颈时，上游 API 的性能再好也无从施展且不易发觉，而单个 API 的压测恰好补救了这一点。同时，基于对上下游 API 和整体链路的 QPS 剖析比对，能够无效的缩小链路中不必要的资源节约。所以在压测用例中能够尝试如下用例组合：

服务单实例：通过单实例压测，理解每一个独自的部署单元的接口 / 服务容量；
服务多实例：单实例前减少一层客户端负载平衡，与单实例的压测数据比照，察看对接口的影响；
网关单实例：同服务单实例，理解网关单实例容量；
网关多实例：同服务多实例，理解网关多实例容量；
网关 + 服务：通过减少网关，察看网关路由对接口的影响；
CLB+ 网关 + 服务：通过减少 CLB，察看 CLB 对接口的影响；
CLB+ 网关 + 服务 A + 服务 B + 服务 C：通过全链路压测，理解实在业务链路状况下服务运行的状态。

减少实例并不会线性减少容量，当进行服务容量评估时，须要以理论压测后果作为参考。另外，针对压测数值要留有肯定的平安空间作为缓冲，通常限流配置的阈值需依据实例均匀 CPU 在 70-80% 左右时的 QPS 体现来确定。如网关压测时 QPS 为 10000 时 CPU 跑满且响应耗时开始显著减少（性能拐点），同时在 QPS 为 7500 时，各实例 CPU 均匀数值为 70%，则配置限流阈值应为 7500（服务 API 同理）。具体如下表所示：

利用类型	CPU100% 压测数值	理论配置数值
网关	10000	7500
服务	200	150

在压测过程中 mock 接口可能须要模仿实在调用的随机延时，可从业务分支拉出专门用于压测的压测分支，并看待压测接口进行 mock 批改，mock 代码内容可参考如下代码的思路编写:

public String mockResponseTime() throws InterruptedException {    
    int responseTime = 0;
    Random randomProportion = new Random();
    Random randomOffset = new Random();
    int proportion = randomProportion.nextInt(100);
    int offset = randomOffset.nextInt(5);
    if(proportion < 80){responseTime = calcTime(50,offset);
    } else if(proportion >=80 && proportion < 95){responseTime = calcTime(200,offset);
    }else {responseTime = calcTime(400,offset);
    }
    Thread.sleep(responseTime);
    return "OK";
}
private int calcTime(int milliSecond,int offset){Random random = new Random();
    if(random.nextInt(100) % 2 == 0){return milliSecond + offset;}
    return milliSecond - offset; 
}

TSF 的服务限流包含两种配置形式：全局限流、标签限流。全局限流针对整个微服务的所有申请，标签限流能够依据上游流量携带的零碎标签或自定义标签进行细粒度管控。限流的配置次要通过配置工夫和申请数来管制。

一个服务能够有多个同时失效的限流规定，当一个申请被多个限流规定束缚时，则仅当所有作用规定都判通过时才会放行。且申请通过后每个作用规定的 通行申请数 +1。若被一个规定拦挡，则针对该规定的 限流申请数 +1。

此外，TSF 弹性伸缩机制能够通过观测 QPS、响应工夫、CPU 使用率、内存使用率的监控数据，对服务实例数量进行动静程度扩缩，平安无效的缩小运维老本。当刹时大流量来长期，启用弹性伸缩组内的预留资源，尽可能承接用户的业务申请。配合容器本身疾速弹性伸缩的个性，能够实现服务的秒级扩缩容。

配置弹性伸缩规定时留神 CPU 利用率、内存利用率、申请 QPS、响应工夫的判断取的都是关联部署组内所有实例对应指标的 平均值。冷却工夫是指在实现一次扩缩容之后，会距离一段时间（即冷却工夫），期间并不会再次判断和触发弹性伸缩。

不过，留神弹性伸缩与服务限流组合应用的场景。第一，弹性伸缩与限流同时监控 QPS 时，弹性伸缩的规定失效工夫须要继续至多 1 分钟以上才会失效，而限流须要在 1 秒内实现限度，会导致 QPS 在超限后立即被限流而达不到弹性扩容的条件或者曾经超限至多 1 分钟后才开始限流；第二，弹性伸缩的目标在于动静扭转实例的数量，而限流规定是依据固定的实例数量而配置的，当产生弹性扩缩容后，也就意味着原有配置的限流规定生效并须要更新。

每年的双 11 大促是商家和用户们的狂欢，但仔细的读者敌人可能会发现，其实不止 11 月，每个月电商平台都会招揽商家们搞促销。即便是为了应答 3.15 这种每年都会查处商家的晚会，各大平台仍会乐此不疲。所以，对于有肯定规模的电商平台而言，零碎为了应答每月促销所带来的微小流量，限流简直是研发团队的一项日常操作。

针对电商大促的场景，TSF 能够通过全局限流 + 标签限流的组合来治理流量。首先，假如目前仅实现了外围服务 consumer-demo 的服务部署，未进行任何的限流配置。

在日常流量大幅稳定时，外围服务没有自保机制，这是业务不能承受的，所以须要对外围服务增加限流规定。在通过压测及历史数据分析后，预估以后资源配置可撑持的容量为 1500QPS，即全局限流配置每 1 秒 1500 个申请作为下限，如下图所示：

其次，仅配置全局限流不能针对性解决热点 API 超载的问题，那么能够配合标签限流针对热点 API 进行限度，如下图所示将某一个热点 API 限度在 1000QPS 以内。

额定补充一点，因为微服务网关 / 网关是南北流量的入口，一旦网关瘫痪或故障，影响的是所有的业务。如果不在网关处增加肯定的限流规定，可能会产生申请还没有流经后端服务，网关曾经先搞挂了，这样后端的限流策略基本无从起效。

服务限流相比其余治理伎俩更容易在落地我的项目中看到，次要是因为其实现形式比拟成熟，同时各行各业中有丰盛的落地场景。TSF 服务限流的次要价值在于，极少的代码革新老本和学习老本、能够对立治理不同语言及框架的限流策略、简略的控制台应用办法、免运维的撑持形式，让用户能够疾速的取得稳固的服务限流能力。

另外服务限流也须要在将来适应更多的场景，比方跟降级规定的联动、如何做到更精准的流量预测和流量自适应、如何做到毫秒级限流等。随着微服务治理实战系列曾经来到了第三章，也心愿能更多的失去大家的反馈，一起摸索更多的落地场景和办法。

https://cloud.tencent.com/doc…\

https://cloud.tencent.com/doc…

关于微服务:TSF微服务治理实战系列三服务限流

一、导语

二、作者介绍

三、限流概述

问题域

能力模型

限流算法

限流准则

压测办法

四、TSF 限流

配置办法

电商大促

五、结语

援用

Just My Socks（注册教程内含优惠码）

关于微服务:TSF微服务治理实战系列三服务限流

一、导语

二、作者介绍

三、限流概述

问题域

能力模型

限流算法

限流准则

压测办法

四、TSF 限流

配置办法

电商大促

五、结语

援用

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）