6 月 9 日,服气云容灾技术负责人 XiaSiming 在服气云《Tech Talk · 云技术有话聊》系列直播课上分享了《深服气混合云容灾技术解析》,具体介绍了服气云容灾的价值、混合云容灾技术介绍、容灾场景实际等内容。以下是他分享的内容摘要,想要理解更多能够关注“深服气科技”公众号观看直播回放。
一、容灾价值
随着互联网业务的蓬勃发展,云计算平台承载着用户的更多业务,容灾在很大水平上能够保障用户的业务平安。
容灾包含合规要求、安全事件、劫难故障等,针对运维人员少、技术水平无限、估算无限等问题,服气云容灾技术计划为用户打造了简略、牢靠、灵便、高性价比的解决方案。
服气云容灾次要以下四个特点:
简略易用:为用户提供云平台一体化的运维体验,不须要业余的灾备能力也能实现灾备。
安全可靠:确保数据一致性,容灾复原成果,闲时可验证,及时可复原。
灵便配置:灵便的灾备策略(CDP、定时备份)、保留策略,满足本异地分级爱护需要。
高性价比:相比自建机房,整体老本更优,下限施行更快,且可提供贴身运维式服务,升高用户本身运维压力。
混合云容灾技术介绍
容灾是指虚拟机在生产核心(主站点)保留一份备份,同时在容灾核心(备站点)保留一份正本。随时能够在主站点和备站点依据须要通过备份来复原虚拟机,当用户虚拟机业务因意外进行工作时,能够通过切换站点使业务持续失常工作的零碎。
深服气混合云容灾以后实现的是虚拟机级别的容灾。在容灾过程中,用户虚拟机业务不会受到影响。
依据业务重要水平的不同,能够实现不同 RPO(Recovery Point Object) 的容灾爱护级别。容灾爱护能够分为备份爱护和 CDP 爱护(继续数据保护)。容灾复原包含劫难复原和打算内复原;复原后虚拟机运行在备站点。当主站点恢复正常后,可将业务虚拟机从备站点回迁到主站点运行。
容灾流程操作的第一步是创立一个容灾爱护策略。将须要爱护的虚拟机退出到容灾爱护策略中。依据虚拟机业务的重要水平,定义容灾爱护的 RPO。创立容灾爱护策略后,会在备站点同时创立一个对应的容灾备机。容灾爱护依据 RPO 的不同要求,有备份爱护和 CDP 爱护。
在备份爱护过程中,会通过 bitmap 来读取虚拟机磁盘上新增的 I / O 数据,转化成 qcow2 保留在主站点的备份存储上。同时定时将该备份文件传输到备站点的备份存储上进行保留。
在 CDP 爱护过程中,当受爱护的业务有 IO 操作时,会将所有的 IO 操作通过日志文件的模式保留到主站点存储块上。同时实时将 IO 文件传输到备站点的存储块上进行保留。当主站点产生劫难时,须要在备站点复原虚拟机业务。通过传输到备站点的备份点疾速复原虚拟机,同时对虚拟机进行开机操作。主站点恢复正常后,将运行在备站点的虚拟机回迁到主站点。此外,也会对备站点虚拟机进行一次备份,确保回迁后的虚拟机不失落数据,而后再将备站点的增量备份传输回主站点,最初在主站点进行笼罩复原。
备份分为全量备份、增量备份。在全量备份过程中,虚构机会在 BITMAP 将磁盘数据的全副数据块都标记为脏,而后将全量数据从虚拟机运行存储中读取进去,写入到 qcow2 备份文件中。在此期间,虚拟机在备份过程中会监控磁盘数据块的变动状况,并记录在 BITMAP 中,便于后续进行增量备份。在增量备份中,虚构机会通过 BITMAP 读取磁盘上的增量脏数据,将数据写入备份存储的 qcow2 文件中,同时通过 BITMAP 记录新的脏数据块。个别状况下,在某个存储首次备份或者某个备份点损坏时,才会进行全量备份,其余状况个别都进行增量备份。
对于 CDP 备份,虚拟机所有的 I / O 操作落盘后,复制出一份 I /O,写入到指定配置的 I / O 日志存储中,将 I / O 操作记录成 I / O 日志文件保留。
CDP 备份过程中,会实时记录 I / O 日志,定期(最短 1s)生成一致性的 RP 点。CDP 只记录用户进行的 I / O 操作,但并不会去记录原始磁盘的状态。须要依赖虚拟机所做的备份点。IOLOG 和备份点相结合,能力实在还原某个工夫点磁盘的实在状态。
服气云 CDP 备份劣势体现在这五个方面:
1. 同时进行虚拟机 IO 数据备份
虚拟机启动时,不须要期待 CDP 数据同步实现,就能够开启业务,同时进行虚拟机 IO 数据的备份。
2. 缓存异步复制
对虚拟机的 IO 数据采纳了缓存异步复制技术,开启 CDP 性能后,会从 qemu 的 block 层复制 IO 数据到 iolog buffer,而后由 cdp_worker 服务异步写入到 iolog 零碎,整个过程对虚拟机的 io 性能无任何影响。
3. 虚拟机的 CDP 可能动静开启和敞开
虚拟机的 CDP 可能动静开启和敞开,在理论应用中会比拟灵便。例如,对正在运行的虚拟机,不须要重启或中断业务,就能够开启 CDP。
4. 虚拟机与 CDP 在逻辑上进行故障隔离
虚拟机与 CDP 在逻辑上进行了故障隔离,当 CDP 模块呈现故障时,不会影响虚拟机的业务。当故障打消后,CDP 模块会主动复原运行。
5. 疾速浏览指定 CDP 备份内的文件
反对疾速浏览指定 CDP 备份内的文件,不便用户疾速从 CDP 备份中获取数据文件。
因为备份记录的是一段时间磁盘数据的变动量,那么备份点就会存在冗余数据,为了尽量减少冗余量,正当利用存储资源,须要对备份进行定期清理。清理备份是依据备份点的工夫,从最早的备份点开始清理。依赖 QEMU COMMIT 的原理,将前一个备份跟后一个备份进行合并,去掉其中反复的数据。容灾主站点的 IOLOG 的清理,是间接删除 I / O 日志。而备站点是通过回放的形式,将 IOLOG 合并成一个备份。
在数据传输优化上,服气云使用性能更高的 lz4 来替换原生的 zlib 压缩算法,将单核的压缩性从 100MB/ s 晋升到 700MB/s,同时满足万兆带宽场景,QEMU 压缩线程的 CPU 耗费从 1000% 升高到 200%。
三、容灾场景实际
容灾场景实际分为本地数据中心容灾到云上、云上跨区域容灾、云上容灾到本地数据中心。
本地数据中心容灾到云上
该场景次要针对的是用户的业务运行在线下资源池,须要将线下的资源池的业务容灾到线上的服气云上。此时须要在用户线下和线上之间,买通链路后将线下的业务数据备份通过容灾网关传输到线上的数据中心中,而后保留在线上的共享存储中,当用户呈现故障时,即可随时从线上的共享存储拉起虚拟机,将业务复原到线上的数据中心。当须要将线上的数据回迁回线下数据中心时,可将线上数据中心虚拟机产生的脏数据通过容灾网关回迁到线下的数据中心,整个流程即可对用户的线下资源池进行业务爱护。
云上跨区域容灾
云上跨区域容灾该场景次要针对的是用户自身的业务虚拟机曾经运行在服气云的云平台上。当用户须要将服气云平台上的数据容灾到另外一个资源池,实现异地容灾,以确保数据的安全性。此时须要将线上的两个数据中心之间链路进行买通,买通后线上数据中心 A 能够将用户的业务数据通过容灾网关容灾到线上数据中心 B 以达到容灾的成果。
云上容灾到本地数据中心
此场景次要针对的是用户的业务运行曾经运行在服气云的云平台上。用户须要将云上的业务容灾到异地的线下的公有云场景,此时用户的业务运行在服气云的云平台上,须要先买通服气云平台跟线下的公有云之间的网络链路,通过服气云容灾网关将线上的业务数据从共享存储中读取进去生成备份,而后将备份传输到线下资源池中,存储到线下资源池的备份存储中。当呈现业务故障时,可随时在线下资源池通过复原拉起的形式将线下虚拟机在线下资源池进行拉起,拉起实现后可随时将线下的数据通过容灾网关回迁到线上的数据中心,以达到故障容灾的成果。
以上是服气云在混合云容灾过程中的技术计划和实际介绍。想要理解更多能够关注“深服气科技”公众号观看直播回放。