共计 4898 个字符,预计需要花费 13 分钟才能阅读完成。
简介:在大数据时代,数据就是企业的外围资产,是企业的生命线。在事实世界中,劫难时有发生,当产生劫难时,容灾能力成为企业是否生存的要害。云上容灾服务,通常称为 DRaaS(劫难复原即服务)岂但可能省去自建容灾核心的开销,还能节俭后续运维老本,帮忙客户疾速建设起跨地区的容灾计划,即买即用,随时开释的个性也为用户提供了极大的弹性。本文介绍了云上容灾产品状态,企业可联合本身特点抉择适合的容灾计划,针对异步复制产品解析了传统容灾与云上容灾的技术架构。阿里云块存储也联合本身架构特点实现了块存储的异步复制产品。
前言
数据是企业的生命线
数据异地容灾是企业级客户的一个普适需要,尤其是对于政府,金融等大客户,更是外围需要。在大数据时代,数据就是企业的外围资产,是企业的生命线。在事实世界中,劫难时有发生,当产生劫难时,容灾能力成为企业是否生存的要害。
在美国“911”事件中,美国的双子大楼倒塌,数家银行的数据中心因而毁于一旦。德意志银行,因为在几十公里外做了数据备份,很快复原了业务,失去用户的好评,而纽约银行因为没有灾备计划,在数月后开张。
21 年 3 月份,法国最大数据中心运营商 OVHcloud 机房着火,超 350 万网站受到影响。
在刚刚过来的郑州 720 旱灾中,郑州大学第一从属医院河医院区受到间断暴雨影响,整个院区淹水导致停电,医院启动了异地容灾机制,仅用 15 分钟就将外围业务紧急切换至东区外围机房,保障了其余两个院区的失常运行。
云上容灾成为趋势
一个个实在案例警钟长鸣,这也使得企业对数据保护,容灾的投入不断扩大。传统的容灾计划,往往须要企业自建容灾核心,购买专线,以及投入人力进行运维等,投入老本较大。在云计算疾速倒退的时代,越来越多的企业客户思考云上容灾。云上容灾服务,通常称为 DRaaS(劫难复原即服务)岂但可能省去自建容灾核心的开销,还能节俭后续运维老本,帮忙客户疾速建设起跨地区的容灾计划,即买即用,随时开释的个性也为用户提供了极大的弹性。下表中总结了 DRaaS 与传统容灾计划的比照,能够看出 DRaaS 与传统容灾相比具备零基建、少运维、高弹性的特点,因而,在云计算疾速倒退的时代,DRaaS 也成为容灾的趋势所在。
ESSD 云盘异步复制
阿里云块存储 ESSD 产品是寰球当先的旗舰级产品,曾经逐步走向成熟。为了更好的服务企业客户,满足企业客户云上容灾需要,阿里云块存储也推出本人的 DRaaS 产品,云盘异步复制,实现云盘的跨地区异步复制。本文介绍了用户如何抉择适合的云上容灾产品,从技术角度解析了不同容灾架构的异同点,而后介绍针对 ESSD 架构咱们如何抉择容灾架构以及云盘异步复制背地的技术原理。
企业如何抉择云上容灾计划
依据 RPO,RTO 抉择适合的容灾类型
企业在抉择容灾计划时,首先应该依据本人的业务特点确定本人的容灾等级。在容灾畛域通常应用 RPO(Recovery Point Objective)来掂量一个容灾零碎最多可能失落的数据的时长,RTO(Recovery Time Objective),来掂量从劫难产生到整个零碎恢复正常所须要的最大时长。
国家出台了相干规范,把容灾能力分为六个等级,如下图所示
对于企业来说从一级到六级,级别越高,数据失落的危险越低,然而容灾建设的老本越高。在传统存储行业中,通常数据备份归档类产品能够满足一到二级容灾需要,一般存储阵列的备份性能能够满足三到五级需要,高端存储阵列的异步复制性能能够满足四到五级需要,而高端存储同步复制,双活性能,以及基于利用的复制能够满足五到六级需要。
那么对于云上,各大云厂商也提供了丰盛的云产品来满足不同的容灾级别需要,云上灾备核心通常提供跨地区或者跨可用区的云上灾备服务,能够满足一到四级的需要,而异步复制、同步复制产品能够满足五到六级容灾需要。支流的利用,例如数据库业务通常也有本人的容灾产品,最高能够做到 IO 级别的容灾粒度。
从下面的级别能够看出异步复制能够满足四到五级容灾需要,也是银行等金融客户以及政府单位等宽泛须要的。
依据零碎特点抉择适合的容灾服务
从实现形式的角度来分类,现有云厂商的容灾计划大抵调配三类:基于利用、基于实例和基于块存储:
基于利用
这类通常是针对某种特定的应用服务进行的容灾计划,例如云数据库,音讯队列,对象存储等,应用相干云服务的用户能够依据本人的须要抉择对应产品的容灾服务,这种容灾服务的劣势是联合业务往往可能做到利用级别的一致性,毛病是普适性不强,只有基于特定的利用的业务才能够应用。
基于云主机
对于只购买了 IaaS 服务,或者有本人的定制化业务,又或者是利用级容灾服务不能满足需要的,能够抉择基于云主机的容灾计划,这种计划会做整机的数据一致性爱护,或者跨实例的数据一致性爱护,容灾端通常除了存储数据的复原,也进行主机网络的复原,应用起来比拟便捷,这种容灾服务长处是操作简略,普适性强,毛病是在容灾端也须要买好主机资源,老本绝对较高。
基于块存储(云盘)
容灾的外围是数据容灾,因而也有局部厂商针对云盘自身推出跨地区复制产品,这种产品模式比拟灵便,对利用个别没有限度,复制期间不须要容灾端购买主机,能够升高用户老本,也能够无缝与其余云服务搭配应用,造成利用级容灾相似的成果。同样基于云盘能够做一致性组,对一组云盘的复制数据满足解体一致性语义。
ESSD 云盘异步复制,简略几步帮你搞定业务复原
云盘异步复制性能反对 ESSD 产品跨 Region(地区)进行云盘数据的异步复制,RPO 为 15 分钟。用户仅须要简略 3 步就能够实现一个容灾对的创立:首选抉择须要复制的云盘,第二抉择容灾站点并创立从盘,第三创立容灾对并激活容灾对。容灾对激活后云盘数据就会周期性复制到容灾站点对应的从盘上了,当用户想临时进行复制时,能够应用容灾对的进行性能来临时终止复制。
当故障产生时,用户能够应用故障切换性能,实现主备站点的切换,故障切换会断开复制链路,并使得从端设施复原到上一个复制的一致性点,提供给用户可读可写权限。
当劫难复原后,用户想将业务复原到原有生产站点,能够应用反向的复原性能,将从站点产生的增量数据恢复回主站点。
云上异步复制背地的技术
本章就容灾产品中宽泛应用的异步复制技术探讨一下其实现原理以及与传统存储的架构异同。容灾的外围是数据的容灾,块存储容灾是最通用的容灾计划,因而后文的探讨次要针对云盘的异步复制技术。
传统存储的复制架构
传统存储异步复制实现形式大抵有三种:
基于存储网关:存储网关位于服务器与存储设备之间,是构架在 SAN 网络上的存储服务技术。存储网关能够对进入的 IO 流提供灵活多样的存储服务,存储网关与主机服务器和阵列是拆散的,不占用主机和存储端的资源,能够不便的反对异构零碎之间的复制,但因为 IO 多了网关链路,所以性能会有肯定的损失,不太适宜对性能要求高的业务。
基于主机:在 SAN 存储中通常实现在 Initiator 端,在主机端依据 IO 复制要求进行数据分流,典型实现如 DRBD,这种架构对后端的存储阵列没有要求,主机端须要装置相应的软件。做灾备服务的第三方厂商多采纳这种架构。
基于存储阵列:少数存储阵列厂商会联合本人的阵列特点实现基于存储阵列的复制架构,这种架构下厂商会依据本人阵列 IO 架构实现在 Target 端,对数据进行追踪和双写。
云上异步复制的两种技术架构
云厂商通常联合本人的产品特点,通常有两种技术架构:
有代理的实现架构:这种形式通常须要在用户虚拟主机中装置插件作为 IO 代理,插件通过截获用户 IO 申请并转发进行复制,这种计划劣势在于能够提供利用级别的一致性语义。这种架构对云盘厂商没有特殊要求,容易做到异构零碎的容灾,劣势是用户应用时须要部署插件能力应用,对用户操作系统的版本可能有限度。云产品第三方服务商通常采纳这种架构。
无代理的实现架构:这种实现形式往往基于底层的存储系统,依靠存储系统提供的一致性点以及获取数据差别位图等技术进行全量或者增量数据复制,能为用户提供数据解体一致性语义。这种形式的劣势是能够联合存储系统进行高效的差别数据复制,并且对用户主机零碎无入侵,业务应用形式更简略,劣势是无奈做到利用级数据一致性。支流云厂商通常具备自主研发的块存储服务,通常会联合块存储的本身架构特点实现无代理形式的复制架构。
阿里云 ESSD 云盘异步复制架构
阿里云块存储也推出了本人异步复制产品,本章介绍一下阿里云如何联合本身架构实现异步复制产品。
阿里云块存储异步复制性能采纳的是无代理的实现形式。零碎架构如图所示,容灾管理软件别离在生产站点和容灾站点部署,容灾管控零碎周期性的发动复制工作给异步复制 IO 组件,复制组件从云盘存储系统后端获取数据差别并将差别数据复制到指标区域,目前跨区域复制的 RPO 设计指标为 15 分钟。
高可用架构
异步复制技术实现上采纳高可用架构。思考到故障场景下零碎仍然能做到可用,容灾治理组件会在生产站点和容灾站点同时部署,而不是采纳容灾组件部署在单边或者在第三放区域部署的形式。容灾治理的元数据信息会在容灾对的主从都同步一份。这就保障了主站点劫难时,从站点的容灾治理性能依然可用。此外,容灾管理软件以及复制链路上都别离采纳了高可用架构,所有管控节点均采纳一主两备形式部署,保障了容灾服务本身的服务连续性。
高效复制
异步复制的复制流程采纳增量形式进行复制,可能最大水平的升高复制和传输的数据量,这也进步了复制效率。依靠底层存储系统高效的外部获取一致性点技术,可能高效的获取云盘的数据解体一致性数据视图,通过存储系统外部索引技术可能高效的获取数据的增量差别。下图给出一个存储系统如何获取一致性点的差别位图。获取到的差别位图会被序列化为数据差别日志,即 DCL(Data Change Log)发送给复制组件,依据差别位图读取相应区域的一致性点数据并写入到从盘。
复制链路也会依据云盘的大小带宽等个性将复制流程进行主动分片,并发复制,从而晋升复制的效率,最大水平满足 RPO。下图展现了复制组件获取差别位图和复制工作的过程,云盘会依据大小切分成多个数据分片存储到不同的数据服务器上,复制组件会从存储服务器获取一致性视图的 DCL,依据云盘大小和带宽状况,决定将一个云盘切分为多少个子工作进行复制,以更好的适配复制带宽。下图是复制 IO 组件的工作原理。
主盘性能无损
依靠存储系统自身的高效索引零碎和高性能一致性点生成技术,异步复制对主站点云盘自身的性能影响很小,能够忽略不计,主盘性能齐全满足官网售卖规范。
秒级 RTO
传统的备份业务通常会把数据存储在 OSS 等内部零碎上,须要应用时再利用 OSS 快照创立出盘,创盘和加载数据,会使得 RTO 工夫较长,通常达到分钟级或者更长。云盘异步复制对从端云盘进行周期性的写入,云盘在复制阶段不可读写,在故障切换后能够霎时可用,RTO 可达秒级,这得益于从盘数据始终在线的设计和存储系统可疾速复原到一致性点的架构劣势。
总结与瞻望
本文介绍了云上容灾产品状态,企业可联合本身特点抉择适合的容灾计划,针对异步复制产品解析了传统容灾与云上容灾的技术架构。阿里云块存储也联合本身架构特点实现了块存储的异步复制产品,相较于传统的异地容灾计划,块存储的容灾计划有如下劣势:
低成本:无需绑定虚拟机应用,用户在容灾站点只须要购买云盘,而无需购买备用虚拟机,在容灾复原时可依据须要购买虚拟机,从而大大降低经营老本。
易用性:无需用户虚拟机装置代理插件,做到利用无感知,对用户主机操作系统无版本要求。按需购买,操作简略,即买即用,反对一键切换和一键生成容灾演练盘。
高可用:容灾组件均采纳高可用区设计,保障在劫难场景下容灾零碎可能进行容灾切换操作。
业务疾速复原:提供较低的业务复原工夫,RTO 可达秒级。
极低的性能开销:复制期间主盘性能简直不受影响。
块存储异步复制产品致力于为用户提供简略高效易用低成本的异地容灾解决方案,后续将继续丰盛产品个性,陆续推出一致性复制组,共享盘反对,数据链路压缩与去重等个性,丰盛产品的应用场景和升高用户的应用老本,打造牢靠易用低成本的 DRaaS 服务,敬请期待。
作者:阿里云存储 李玮玮
原文链接
本文为阿里云原创内容,未经容许不得转载。