关于云计算:724-小时业务不中断菜鸟乡村应用多活落地实践

38次阅读

共计 2507 个字符,预计需要花费 7 分钟才能阅读完成。

简介:从后期调研、计划评估、多活建设到最终外围物流业务的革新上线,仅仅只用了 2 个多月,菜鸟农村就实现了外围业务同城多活容灾的指标,实现业务的 7*24 小时不间断服务,最大水平保障了业务稳定性及连续性。

作者:比扬

从后期调研、计划评估、多活建设到最终外围物流业务的革新上线,仅仅只用了 2 个多月,菜鸟农村就实现了外围业务同城多活容灾的指标,实现业务的 7*24 小时不间断服务,最大水平保障了业务稳定性及连续性。

菜鸟农村作为服务农村的新型物流业务,通过数字化技术,打造县域、乡镇、村三级独特配送服务体系,帮忙农村物流降本提效,晋升农村消费者快递服务体验;此外,还通过建设产地仓,造成产品分级品控、物流运输一体化,带动农村农货上行,帮忙农民增收。截至目前菜鸟农村物流已服务 1000 多个区县,服务站点笼罩 30000 多个农村。

面对高速倒退的业务规模,除了一直迭代业务能力的同时,菜鸟农村也在一直的夯实其技术底座和业务利用的高可用能力。菜鸟农村的业务齐全搭建在大公共云之上,采纳了云原生架构,目标是为了借助成熟的云产品能力实现业务疾速迭代。在调研多活容灾之初,菜鸟的同学就找到了阿里云原生高可用团队负责业务多活容灾 MSHA 的同学来一起探讨针对菜鸟农村业务现状和将来业务布局的多活容灾计划。通过 2 个多月的工夫,菜鸟农村联结阿里云原生高可用团队,打造了智能化、集约化的云化同城多活物流零碎和独特配送平台,实现了相干零碎利用的同城多活容灾架构建设,具备了可用区级流量比例的秒级调控(<10s),以及故障场景的可用区全方位流量(HTTP、RPC、MQ、任务调度)一键切 0 能力,历次演练可用区级故障,一键切 0 失效工夫均小于 20 秒,为菜鸟农村业务提供了无力的容灾保障。

菜鸟农村利用多活的革新实际之路

对于一家高速倒退的公司来说,IT 的建设与运维通常跟不上业务的高速倒退与迭代,如何高效、低成本的保障业务稳固成为业务倒退中面临的十分重要的挑战与危险。让咱们一起来体验菜鸟的农村的利用多活的革新实际之路。

后期面临的稳定性挑战及高可用诉求

外围业务零碎仅在公共云的繁多可用区部署,存在可用区级的故障危险。

保障业务疾速迭代的同时,如何高效且低代价的落地容灾计划。

容灾计划的选型问题。指标是劫难产生时尽可能的缩短故障对用户的影响时长,疾速复原业务。

从容灾指标维度剖析,在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)中最多只能同时实现两点,不可能三者兼顾。在容灾场景下,少数零碎抉择 AP 或 CP 模式。

从施行老本维度剖析,稳定性和扩展性效益越高,所带来的施行老本也越大。

为了疾速补全云上基建的单可用区危险,菜鸟农村抉择通过“同城双活”的容灾架构来疾速补齐短板,晋升业务的高可用性。

联合业务现状疾速制订同城利用双活容灾计划

菜鸟农村与阿里云一起针对所面临问题以及将来业务布局进行了深度沟通与研究。联合业务容灾的诉求以及业务技术栈,阿里云制订出了同城利用多活架构的解决方案,计划要点如下:

可用区级利用双活。从 1 个可用区拓展到 2 个可用区,2 个可用区部署对等容量的利用。基于多活接入网关产品承接所有业务流量,并依照比例或精准路由规定将流量调度到不同可用区的后端利用,多个可用区部署的利用同时对外提供服务,实现利用多活。

微服务同可用区优先调用。基于多活产品 Agent 能力,反对开启 Dubbo/SpringCloud 同可用区优先调用性能,从而防止跨可用区调用带来的 RT 增长。而当机房内衰弱的 Provider 数量低于配置的阈值时,则优先调用策略主动生效,防止同可用区 Provider 过少撑持不住上游的流量压力。

疾速容灾复原。当某一可用区产生故障时,基于多活产品的一键切流能力,首先通过多活接入网关将 HTTP 流量切换到另一可用区,同时基于多活产品 Agent 能力将故障可用区内的 RPC(Dubbo/SpringCloud)、MQ(RocketMQ)、定时工作(SchedulerX/XXL-Job)客户端进行故障隔离,实现全局流量的疾速容灾切换。

上线前屡次的容灾演练与验证

同城双活的搭建是否安稳的运行到线上,预发环境的验证和生产环境的容灾演练是尤为要害的环节。验证工作次要蕴含以下两局部:

Agent 启动验证。各类中间件的切 0 强依赖 Agent,必须确保 one Agent 能在所有业务容器失常启动、探针可失常上报至 MSHA 管控服务,且 Agent 启动后未影响到其余关联服务。

容灾切流能力验证。搭建同城双活是为了能在故障场景下及时切流,那么接入层切 0 能力验证、服务层切 0 能力验证、音讯层切 0 能力验证、调度工作层切 0 能力验证、服务层流量关闭策略失效验证等都是必不可少的内容。

容灾演练则是在生产环境下,理论验证容灾的成果。生产环境实在演练抉择在业务低谷期,整体验证内容跟预发环境相似,确保业务验证通过,各类中间件、音讯、工作的走向合乎预期。

菜鸟农村利用多活的业务价值

借助于阿里云的同城利用多活解决方案,帮忙菜鸟农村实现了在较短的工夫内业务同城容灾的指标,实现业务 7*24 小时不间断服务,即便单机房故障也可能分钟级复原,最大水平保障业务的连续性。

同时菜鸟的业务高可用之路还未进行,如何引入混沌工程进行模仿实在故障注入来进行容灾演练,如何将双活切换进行常态化工作并时刻保鲜都是须要继续去实现的工作,多活容灾之路不止于此,高可用之路也不止于此。菜鸟农村继续在路上。

现在,云原生曾经成为企业数字化转型的要害策略,因为利用须要疾速开发和交付,这就促使企业采纳云原生的办法来开发利用,以提高效率,并减少灵活性。对于身处云原生时代的企业和开发者而言,不仅须要采纳云原生的伎俩来应答业务的高速迭代,更要关注云原生下的高可用建设,同时也倡议以宽阔的视线和凋谢的心态去拥抱云原生生态。

1 月 11 日,在上海的云原生实战峰会上,阿里云智能研究员丁宇公布了《利用多活技术白皮书》,同时为了推动业界容灾的倒退,建设云原生业务容灾规范,阿里云对外开源“利用多活”中间件:AppActive。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0