乐趣区

关于运维:自动定位问题自动修复故障托管云这个功能有点心动

用户业务利用增多,硬件性能跟不上?

云环境变得复杂,运维工作量不减反增?

运维人力老本日益激增,技术人才越招越少?

——服气云托管云的 AIOps 业务全生命周期持续性保障系统来啦!

帮忙企业构建实时、继续的保障体系,笼罩业务全生命周期场景,以多层级时序监控对要害指标进行采集与观测,基于规定预测以及 AI 预测算法构建故障预测引擎。

同时,围绕业务全生命周期,建设基于 AI 技术的全栈预测,剖析以及评估零碎,实现问题主动定位和主动修复闭环,实现当时危险预防和被动躲避,保障业务全生命周期的持续性。

↑ 业务全生命周期持续性保障系统能力概览

一、磁盘故障预测

通过智能采样,解决故障磁盘的样本不平衡问题,并解决时序依赖,自研小样本场景下基于深度学习的故障预测技术,捕获相邻磁盘间的故障流传的模式,从而实现精准的磁盘故障预测。

↑ 智能采样

二、内存 ECC 预测与隔离

(1)内存 ECC 告警与隔离

大量 CE 报错会导致 CE 风暴,造成零碎宕机,故须要对其先进行地址隔离,而后更换内存条,实现处理闭环。要想做到隔离地址的疾速准确,最好是先对高风险 CE 地址的进行预隔离,进而做到内存条物理插槽疾速定位,不便运维人员及时更换。另外,还须要采取长久化隔离,防止主机重启后隔离生效。

(2)内存 ECC 预测

基于机器学习算法,系统对历史特色进行学习,并进行内存生效预测,提前预警,防患未然。其中次要包含基于 CE 特色预测 CE 风暴、UE 等内存故障,基于内存性能、电压等指标评估 DRAM 健康状况,使预测后果更精确,升高误报导致的物料节约,预测周期 1 - 2 小时。

↑ CE 危险地址关联剖析

↑ CE 隔离成果

三、资源预测

资源预测告警能够展现行将资源耗尽的服务器组、资源池、虚拟机。

CPU、内存、存储预测中,能够看到历史数据和将来趋势,以及残余平安容量、预计多少天后将超过平安容量阈值、以及倡议扩容容量。

当资源过剩时,也可基于智能算法对闲置虚拟机进行辨认,回收对应的资源池或服务器资源。

↑ 辨认闲置虚拟机

将来,在故障预测、剖析与自愈上,该零碎将欠缺各个业务场景的故障预测剖析工作,依据专家教训的处理决策树设置主动处理闭环,并基于强化学习优化处理策略。

在辨认业务特色上,将辨认蕴含业务性能与不同资源的敏感度、业务特定的最佳实际计划等。使得业务在故障、亚健康等场景下,可能精确、疾速地定位问题,比方帮忙后端运维提前感知问题,及时更换硬件,防止因硬件问题引发的业务中断。

另外,在硬件亚健康集群的剖析上,零碎能够提供集群版本升级倡议,以及 DRS 各类调度优化能力,能够更加精确地针对性地对业务进行优化,肯定水平上防止资源节约。

还可依据托管云硬件故障状况剖析硬件故障率,硬件故障变化趋势等信息,为硬件导入选型提供事实举证,并联合硬件故障率在数据中心的散布,给仓储备件的调配提供优化倡议。

在托管云上,借助于业务全生命周期持续性保障系统,用户能够直观地理解以后业务运行衰弱水平与面临的危险大小,提前预测危险,并及时处理,从而实现业务的稳固间断运行。

退出移动版