共计 2145 个字符,预计需要花费 6 分钟才能阅读完成。
近日,阿里云凭借在稳定性畛域的全栈投入,获评中国信通院混沌工程实验室 2022 年度杰出贡献企业,并斩获“云零碎稳固平安运行优良案例”流动中多畛域优良案例。阿里云继续推动企业 IT 零碎建设,保障千行百业平安稳固的实现数字化转型与翻新。
此次“云零碎稳固平安运行优良案例”流动共收集超 100 份申报材料,历经多轮专家评审共 评比出 7 个技术畛域的泛滥优良案例。旨在开掘行业最佳实际案例,为泛滥企业的稳固平安运行提供参考。接下来,咱们将为大家一一进行解读。
全链路压测优良实际案例:《阿里云全链路压测实际》
在数字化转型 & 降级背景下,政企客户逐渐将业务利用迁徙上云并进行分布式革新,业务架构也变得更加简单。分布式环境下,任意节点都可能成为性能瓶颈,同时零碎可用性随着业务快速增长,面临严厉且不确定的挑战。在此背景下,如何精确掂量利用可能承载的极限流量水位成为挑战。传统压测办法存在高老本、高复杂度、难以保护、压测后果不精准等劣势,而无奈满足以精准流量模仿进行低成本容量预估的强需要。
阿里云全链路压测(End-to-end Performance Testing)正是为解决这个问题而诞生。全链路压测反对支流中间件,横跨 RPC、日志、存储、音讯队列等品种,通过流量染色、标记透传,赋予施压过程以流量隔离的能力,使得在不净化生产库的前提下对实在的生产环境做压测,帮忙客户获取最实在精准的生产环境抗压水位数据。
云零碎运行故障应急处理实际案例:《阿里云数字化平安生产平台及落地实际》
随着越来越对企业业务利用上云并进行分布式架构革新,业务架构变愈发简单,敏感水平也变高。传统运维伎俩存在工具割裂,面向基础设施而非业务,被动运维,不足面向分布式架构利用的标准稳固保障体系等劣势,使得无效保障业务稳定性和连续性成为挑战。
针对以上挑战,秉承着平台运维理念的数字化平安生产平台(Digital Production Stability)应运而生,平台外围面向 1- 5-10 应急响应场景,提供应急事件和故障的发现、响应和解决,提供应急场景的定义与治理、故障监控布防、故障上报、应急协同、过程跟踪、故障复原、改良措施的全生命周期治理能力。帮忙企业晋升业务稳定性,提供故障应急场景的一站式服务。
云零碎容灾优良实际案例:《阿里云利用多活容灾解决方案》
为了预防和防止线上零碎遭逢天下大乱,保障业务继续运行并对外提供服务,通常有灾备、多活等多种计划。传统容灾大多建设在数据级容灾根底上,劫难产生时会在约定工夫范畴(RTO)内复原运行,尽可能减少劫难带来的损失。但在理论施行时,因为灾备核心存在平时不提供服务,关键时刻无奈确定是否胜利切换;大体量业务无奈解决单地区资源瓶颈;闲置状态老本节约比拟低等问题。
利用多活作为利用容灾的重要模式,在同城或异地机房建设一套与本地生产零碎局部或全副对应的生产零碎,所有机房内的利用同时对外提供服务。当劫难产生时,多活零碎能够分钟级内实现业务流量切换,用户甚至感触不到劫难产生。阿里云利用多活容灾解决方案具备分钟级 RTO。复原工夫快。资源充分利用。资源不存在闲置的问题,多机房多资源充分利用,防止资源节约。切换成功率高。流量精准管制。利用多活反对流量自顶到底关闭,依靠精准引流能力将特定业务流量打入对应机房,企业可基于此劣势能力孵化全域灰度、重点流量保障等个性。
在以上案例背地,咱们能够看到软件行业须要标准化技术能力和方法论来保障线上业务稳定性。从 2018 年起,阿里巴巴团体致力于 IT 软件畛域的平安生产建设:增强高可用架构根底建设的同时,提供 SRE 转型的流程机制体系,配合可用性能力、组织能力和劫难恢复能力等指标,造成一套残缺的平安生产办法体系。
在 2022 杭州 · 云栖大会上,阿里云数字化平安生产平台 DPS 重磅公布,DPS 是以保障业务连续性为指标的一站式管控 SRE 平台,助力传统运维向 SRE 转型,企业级利用对业务连续性要求较高,若产生故障则资损重大,在 SRE 转型初期就须要将平安生产理念纳入其中;对于以互联网架构为外围的中等规模业务,能够通过阿里云利用高可用服务 AHAS、压测服务 PTS 的产品体系来保障外围场景的稳定性和韧性,而本身则能够更加专一在业务翻新中;对于中小规模的开发者,也能够通过阿里云提供的面向高可用的中间件框架和工具体系如 ChaosBlade、AppActive、Sentinel,构建本身的高可用体系。
能够看到平安生产是高可用的将来方向,阿里云通过残缺产品家族,笼罩混沌工程、全链路压测、多活容灾、平安生产等企业平安生产场景,并灵便反对不同部署模式。帮忙企业以云原生伎俩来应答业务高速迭代,促成业务与 IT 的全面协同,多维度来帮忙客户建设欠缺业余的业务连续性保障体系。
云服务的运行稳固已成为信息通信行业平安生产的重要组成部分。确保云服务的稳定性和业务的连续性是为平安生产提供平安稳固的网络运行环境,意义重大,责任重大。阿里云始终保持推动数字化转型与翻新,帮忙企业建设平安管理体系,健全平安责任制;同时,加强各类零碎稳定性危险的防控能力与应答能力。 建设云服务稳固运行规范体系及云服务可用性监测平台,促成云服务衰弱稳固继续倒退。为金融、交通、电信、电力和制作等各行业和畛域用户提供 IT 零碎稳定性解决方案和服务。