关于服务器:独家揭秘-深信服超融合卡慢盘识别准确率高达99

52次阅读

共计 1260 个字符,预计需要花费 4 分钟才能阅读完成。

随着各行各业数字化转型降级的减速,数据存储容量和硬盘数量也在一直减少,数据失落事件时有发生,特地是硬盘故障事件,一旦产生,对于业务的影响不可估量。

超交融在磁盘故障提前检测及处理方面是如何做的?明天就跟大家揭秘服气云的卡慢盘监控和隔离机制。

 

深服气超交融继续对主机上的硬盘进行 IO 级监控,如发现有卡盘或者慢盘,就会对硬盘进行隔离解决,防止持续有 IO 落入该硬盘导致业务卡死或者变慢。超交融卡慢盘检测隔离机制在利用过程中分为监控、辨认和处理三个阶段。

一、监控

针对磁盘卡慢故障模式简单的问题,多维度检测确诊。

 

超交融采纳了 Linux 通用的工具和信息,包含内核日志剖析、smart 信息剖析、硬盘 IO 监控数据分析等从多个维度精确定位故障硬盘,真正实现不依赖特定硬件工具、兼容性广的软件定义可靠性。

二、辨认

对辨认卡慢盘的模型进行粗疏打磨:超交融卡慢盘检测机制在辨认阶段,应用了 《卡慢盘辨认与解决计划》《一种卡慢盘辨认解决办法、安装以及存储介质》《一种慢盘故障精准辨认和诊断办法》 等专利技术,制订出了更加精准的卡慢盘辨认模型,使卡慢盘的辨认准确率在 99% 以上 。最终将卡慢盘分为三种类型: 卡慢 重大慢盘 轻微慢盘

三、处理

超交融针对不同类型的卡慢盘采纳不同的处理办法,防止业务数据落在卡慢盘上,保障业务数据安全。在上述前提下,尽可能保障业务失常对外提供服务。

超交融针对不同类型卡慢盘处理流程如下:

轻微慢盘

轻微卡慢对业务性能影响较小,优先保障业务运行。超交融会在 WEB 控制台进行告警,并通过事后设置好的邮件、短信等形式发送给管理员,管理员依据状况进行人工处理。人工处理操作包含手动隔离、替换硬盘等。

重大慢盘

在对端正本失常时,将该硬盘从零碎中隔离。新数据多正本写入时,写入到其余衰弱的硬盘上,业务读取该盘数据时,被动切换到另一副本读取。同时触发数据重建,保障数据的安全性。

在对端正本业务异样时,优先保障业务运行,超交融会在 WEB 控制台进行告警,并通过事后设置好的邮件、短信等形式发送给管理员,管理员依据状况进行人工处理。

卡盘

在对端正本失常时,将该硬盘从零碎中隔离,新数据多正本写入时,写入到其余衰弱的硬盘上,业务读取该盘数据时,被动切换到另一副本读取,同时触发数据重建,保障数据的安全性。

在对端正本异样时,第一次呈现卡慢场景优先保障业务运行。超交融会在 WEB 控制台进行告警,并通过事后设置好的邮件、短信等形式发送给管理员,管理员依据状况进行人工处理。1 小时内呈现 3 次硬盘卡慢时保障数据安全,将该硬盘从零碎中隔离。

综合理论测试成果,在未开启卡慢盘检测及处理性能前,在硬盘呈现卡慢时,IO 屡次呈现断崖式降落,业务继续受到影响。开启性能后超交融在硬盘卡慢亚健康状态呈现后可能在 1 分钟内 检测到并进行隔离处理,隔离后业务 IO 复原稳固,整个过程虚拟机不呈现 HA,升高了卡慢盘对业务性能的影响。依据深服气统计,2021 年卡慢盘引发的业务中断问题数降落 60%

以上就是本期《服气云黑板报》的分享,关注“深服气科技”微信公众号,能够继续获取更多技术干货内容哦!

正文完
 0