共计 2161 个字符,预计需要花费 6 分钟才能阅读完成。
容灾成为企业上云和用云的根底要求
2019 年 IDC 公布的《寰球云计算 IT 基础设施市场预测报告》显示:2019 年寰球云上的 IT 基础设施占比超过传统数据中心。越来越多企业因为云计算低成本、稳定性而抉择在云端构建零碎,云曾经变成了一个支流 IT 基础设施。近年来,开源技术和云技术保持高速倒退,呈现品种繁多的产品和服务,技术人员决策权变大,架构更迭速度日益放慢。在高速演进的过程中,要谨防人为的不合理故障,同时也要关注自然灾害的影响。一次不失当业务中断,可能带来重大的品牌、客户、经济损失。
所有的上云企业都把容灾零碎能力建设作为最根底指标来要求,并保障投入。只有确保劫难产生时,要害数据不失落,零碎服务尽快恢复运行,企业能力保障短暂、安稳的高速倒退。
常见的劫难故障
在企业生产实践中,未免会产生大大小小的故障,影响零碎的稳定性。有些故障在产生后疾速复原,内部用户无感,有些故障长时间无奈复原,造成内部舆情、资金损失等问题,甚至可能导致公司破产,故障个别有如下几类:
- 人为操作失误,比方常见的有配置谬误、利用公布失败等等;
- 硬件故障,比方常见的就是网络设备出故障,导致机房或者集群内多台服务器受影响等;
- 网络攻击,比方 DDoS 等网络攻击等;
- 断网 / 断电,比方光缆被挖断等;
- 自然灾害,比方雷击导致机房电力故障等。
在这些劫难下,经常面临着公网、接入网关、机房等设施中断,会造成流量上涨、网站打不开、故障报警等业务问题,对于企业而言,须要面临着“业务复原”和“故障复原”两大难题,最好的形式是将这两类问题进行解耦,在产生故障时,疾速切流,优先复原业务。在业务复原的前提下,进行故障定位修复。
故障逃逸能力的成长
业界常见的故障定位与复原涵盖 4 个步骤:发现问题 - 定位问题 - 修复问题 - 业务复原。显著无奈满足“业务复原”和“故障复原”解耦解决的需要。更好的应答形式是将这 4 个故障解决步骤升级成 ” 发现问题 - 切流 - 业务复原 ” 的 3 个故障解决步骤,通过“切流”保障业务的疾速复原,将业务复原的工夫从“数十分钟甚至数小时不等”缩短到“分钟级甚至秒级”,进步业务的容灾能力。
为了保障疾速切流的实现和在实在场景中“无效”的切流,咱们须要建设更高阶的容灾架构技术,还须要加强“基础设施”、“业务零碎”、“保障工具”、“生产制度”、“应急人员”的协同。通过架构与组织的协同,实现容灾多活的能力保鲜。
这种能力,不是即刻就能够冲破的,是须要不停的优化架构与组织协同,能力促使业务的容灾多活能力螺旋式的回升。
冲破地区限度
企业在起步阶段个别抉择单地区部署,但随着业务的规模倒退,单地区机房将无奈满足业务须要。与此同时,单地区的集群化组件随着连接数的爆炸性增长,单集群的容量已无奈持续扩大,亟须进行集群的拆分。
然而在做反对跨地区的集群拆分时,须要满足“路由一致性”、“数据一致性”的准则,从而让业务可能冲破地区限度,做到跨地区的容量程度扩大,灵便调度流量,从而解决单地区下的容量挑战问题,比方:
1、机器容量。多个异地机房对等部署,企业应用可在多地多机房灵便部署业务利用。
2、连贯容量。机房内集群化组件独立,各自机房连贯自有组件,防止连接数有限增长的问题。
灾备容灾的局限性
灾备容灾建设在数据级容灾的根底之上,罕用的实现形式是在备份机房构建一套雷同的利用零碎,劫难产生时会在约定的工夫范畴(RTO)内复原运行,尽可能减少劫难带来的损失。在理论施行时,存在以下几个问题:
1、灾备核心平时不提供服务,在切换到灾备核心的关键时刻时无奈确定是否能够胜利切换。
2、灾备核心平时不提供服务,整个灾备资源会处于闲置状态,老本节约比拟高。
3、灾备核心平时不提供服务,所以平时提供服务的机房还停留在单地区,当业务体量大到肯定水平时,这种模式无奈解决单地区资源瓶颈的问题。
利用多活的概念
“利用多活”是“利用容灾”技术的一种高级状态,指在同城或异地机房建设一套与本地生产零碎局部或全副对应的生产零碎,所有机房内的利用同时对外提供服务。当劫难产生时,多活零碎能够分钟级内实现业务流量切换,用户甚至感触不到故障产生。
常见的利用多活架构分为同城多活、异地多活、混合云多活,和传统容灾相比,利用多活具备以下 4 个劣势:
- 分钟级 RTO。复原工夫快,阿里外部生产级别复原工夫均匀在 30s 以内,内部客户生产零碎复原工夫均匀在 1 分钟。
- 资源充分利用 。资源不存在闲置的问题,多机房多资源充分利用,防止资源节约。
- 切换成功率高 。依靠于成熟的多活技术架构和可视化运维平台,相较于现有容灾架构,切换成功率高,阿里外部年切流数千次的成功率高达 99.9% 以上。
流量精准管制 。利用多活反对流量自顶到底关闭,依靠精准引流能力将特定业务流量打入对应机房,企业可基于此劣势能力孵化全域灰度、重点流量保障等个性。
到 2025 年,有超过 50% 企业会应用分布式云。公共云服务能力将延长到边缘计算和 IDC,一朵分布式云实现全场景笼罩。跨云、跨平台、跨地理位置的利用多活场景和技术将开始浮现。无容灾不上云,利用零碎要随时具备对劫难故障的逃逸能力。安稳迁徙上云是每位决策者的要害决策点。
业务继续倒退,架构一直演进,容灾治理解决的是倒退中问题。如何实现利用多活的容灾架构和组织协同,也越来越成为更多企业者关怀的问题。
—- 以上节选自《利用多活技术白皮书》,点击此处即可下载!