关于运维:自动定位问题自动修复故障托管云这个功能有点心动

用户业务利用增多，硬件性能跟不上？

云环境变得复杂，运维工作量不减反增？

运维人力老本日益激增，技术人才越招越少？

——服气云托管云的 AIOps 业务全生命周期持续性保障系统来啦！

帮忙企业构建实时、继续的保障体系，笼罩业务全生命周期场景，以多层级时序监控对要害指标进行采集与观测，基于规定预测以及 AI 预测算法构建故障预测引擎。

同时，围绕业务全生命周期，建设基于 AI 技术的全栈预测，剖析以及评估零碎，实现问题主动定位和主动修复闭环，实现当时危险预防和被动躲避，保障业务全生命周期的持续性。

↑ 业务全生命周期持续性保障系统能力概览

一、磁盘故障预测

通过智能采样，解决故障磁盘的样本不平衡问题，并解决时序依赖，自研小样本场景下基于深度学习的故障预测技术，捕获相邻磁盘间的故障流传的模式，从而实现精准的磁盘故障预测。

↑ 智能采样

二、内存 ECC 预测与隔离

（1）内存 ECC 告警与隔离

大量 CE 报错会导致 CE 风暴，造成零碎宕机，故须要对其先进行地址隔离，而后更换内存条，实现处理闭环。要想做到隔离地址的疾速准确，最好是先对高风险 CE 地址的进行预隔离，进而做到内存条物理插槽疾速定位，不便运维人员及时更换。另外，还须要采取长久化隔离，防止主机重启后隔离生效。

（2）内存 ECC 预测

基于机器学习算法，系统对历史特色进行学习，并进行内存生效预测，提前预警，防患未然。其中次要包含基于 CE 特色预测 CE 风暴、UE 等内存故障，基于内存性能、电压等指标评估 DRAM 健康状况，使预测后果更精确，升高误报导致的物料节约，预测周期 1 - 2 小时。

↑ CE 危险地址关联剖析

↑ CE 隔离成果

三、资源预测

资源预测告警能够展现行将资源耗尽的服务器组、资源池、虚拟机。

CPU、内存、存储预测中，能够看到历史数据和将来趋势，以及残余平安容量、预计多少天后将超过平安容量阈值、以及倡议扩容容量。

当资源过剩时，也可基于智能算法对闲置虚拟机进行辨认，回收对应的资源池或服务器资源。

↑ 辨认闲置虚拟机

将来，在故障预测、剖析与自愈上，该零碎将欠缺各个业务场景的故障预测剖析工作，依据专家教训的处理决策树设置主动处理闭环，并基于强化学习优化处理策略。

在辨认业务特色上，将辨认蕴含业务性能与不同资源的敏感度、业务特定的最佳实际计划等。使得业务在故障、亚健康等场景下，可能精确、疾速地定位问题，比方帮忙后端运维提前感知问题，及时更换硬件，防止因硬件问题引发的业务中断。

另外，在硬件亚健康集群的剖析上，零碎能够提供集群版本升级倡议，以及 DRS 各类调度优化能力，能够更加精确地针对性地对业务进行优化，肯定水平上防止资源节约。

还可依据托管云硬件故障状况剖析硬件故障率，硬件故障变化趋势等信息，为硬件导入选型提供事实举证，并联合硬件故障率在数据中心的散布，给仓储备件的调配提供优化倡议。

在托管云上，借助于业务全生命周期持续性保障系统，用户能够直观地理解以后业务运行衰弱水平与面临的危险大小，提前预测危险，并及时处理，从而实现业务的稳固间断运行。