共计 1307 个字符,预计需要花费 4 分钟才能阅读完成。
云化时代,虚拟机热迁徙 (Live migration) 是被大家宽泛关注的的热点技术,作为云计算平台核心技术之一,虚拟机热迁徙也是服气云始终深刻钻研的底层技术。
那么服气云旗下的超交融产品在热迁徙上实力到底如何?这场测试揭晓了答案。
虚拟机热迁徙指 虚拟机从一台宿主机迁徙到另一台宿主机,确保业务始终运行在牢靠且资源短缺的物理主机上,并且在迁徙过程中尽可能的不中断业务。
随着越来越多的用户将外围业务部署在云平台,业务利用须要更高的 SLA 保障,可停机的窗口工夫的要求越来越高,甚至提出了零停机的能力要求。特地是在如下场景中:
(1)物理主机的保护,比方配件更换、服务保护。
(2)云平台降级,须要实现集群内物理主机的滚动热降级。
(3)云平台对集群内进行虚拟机运行地位调度,取得更优的资源应用效率。
为了测验服气云虚拟机热迁徙的实在能力体现,服气云在实在环境中 对 Oralce 业务承载下的虚拟机热迁徙进行了测试,并和业界其余厂家进行了比照。
测试环境
测试后果
↑ Oracle 1000 用户场景下的深服气超交融热迁徙
后果阐明
通过以上测试后果可看出,基于深服气超交融的热迁徙计划能够取得平滑的业务连续性体验,迁徙得更快、更稳。
对于承载了 1000 并发用户的 Oracle 业务虚拟机,深服气超交融承载的 Oracle 业务在迁徙过程中性能仅抖动了 6s,其中业务中断工夫仅 1s,下层业务可取得近乎 0 中断的平滑迁徙体验。相较于业界其余超交融产品的测试后果,服气云的劣势显著。
平滑迁徙背地的翻新设计
深服气超交融能实现远超业界其余产品的平滑迁徙体验,源自多个底层核心技术的劣势。其中一个关键技术是 CPU 节流算法,其基本原理如下:
在迁徙初始阶段,源主机通过协商机制在目标主机上启动一个同样的虚拟机,并将其置于静默状态。
而后源主机 QEMU 记录虚拟机的所有内存数据后,通过网络传输到目标主机,但传输过程中因为正在运行的业务会读写内存数据,新产生的内存数据会在第一轮传输实现后从新记录并依照同样的形式传输到目标主机,顺次迭代上来,直到最初记录的内存数据满足一个阈值后,源主机会进行运行(即仅 1s 的业务中断时长)。
QEMU 将残余的内存数据一次性传输到目标主机,而后目标主机开始运行,源主机关机。这个过程中可能产生顺次迭代无奈收敛的状况,将会升高虚拟机 CPU 利用率(即节流),使业务升高吞吐量,深服气超交融的优化次要是设计了新的算法,综合思考多个指标,兼顾了迁徙工夫和业务受节流影响的工夫,最终可能升高迁徙工夫和业务受节流影响的工夫。
该项技术的实现,使得本来无奈迁徙完的场景,当初可能胜利迁徙完,并当先业界程度;同时,热迁徙最初 downtime 停机阶段,ping 网络中断工夫不超过 2 秒(最佳测试后果是 0s)。
除了 CPU 节流算法,深服气超交融在 QEMU 热迁徙压缩算法优化、 磁盘热迁徙 BITMAP 数据块粒度调整 、 热点内存脏数据提早迁徙机制 、 内存热迁徙工夫片动静调整机制 、 磁盘热迁徙 IO QoS 动静调整机制 等技术上都有本人的翻新设计,后续《服气云黑板报》将陆续为大家带来服气云技术干货的分享。
以上就是本期《服气云黑板报》对于虚拟机热迁徙的分享。关注我,继续还有更多技术干货内容哦!