乐趣区

关于bootstrap:130-秒揭秘-EDAS-30-如何平滑应对突发流量高峰为您的业务保驾护航

云原生时代下,企业的 IT 运维面临架构复杂化、业务需要多样化和运维数据海量化等挑战,如何可能实现精准告警、异样智能诊断、根因定位、异样预测和异样主动修复,已成为企业数字化转型的急切需要。

9 月 26 日,阿里巴巴高级技术专家滕圣波在《GOPS 寰球运维大会》上发表了题为 《云上服务器无人值守与自助服务实战》 的主题演讲,分享了阿里云弹性计算团队如何利用人工智能技术赋能运维自动化,实现云上服务器无人值守,帮忙用户升高云服务器实例治理的复杂性,来保障实例服务的稳固和高效运行。本文依据滕圣波的演讲整顿。

图:阿里巴巴高级技术专家滕圣波

本文内容架构:
1、云上服务器为什么须要无人值守?
2、阿里云无人值守的自服务实战
3、无人值守背地的数据和 AI

1、云上服务器为什么须要无人值守?

运维是一种服务,既蕴含基础设施软件服务、也蕴含人力服务,服务的对象是企业中应用基础设施的业务团队,而云计算 IaaS 是一种运维服务,服务的对象已倒退为应用云服务的开发人员和运维团队。随着云计算的宽泛落地,大部分企业曾经上云,以后就有 100 万多家用户的业务运行在阿里云平台上,阿里云平台服务的用户也越来越多。

随着平台用户规模的扩充,咱们发现平台用户在 ECS 实例运维时广泛面临三个痛点:

(1)背景沟通老本高 ,为什么我的实例出问题了?
(2) 人工解决须要较长的工夫 ,为什么这个问题这么久还没有解决?
(3) 客户操作不通明,问题看起来修复了,可是刚刚你做了什么?

为此,咱们须要重人力投入在客服人员上让用户的问题得以高效解决。为了防止用户规模扩充带来的客户侧运维老本的线性回升,咱们开始利用人工智能技术赋能用户运维治理。在无人批发、无人驾驶成为趋势的时候,咱们认为将来云上服务器也将实现无人值守

事实上,阿里云弹性计算产品推出十年了,积淀了泛滥 ECS 实例运维治理教训和异样“行为”法则。所以依靠机器学习的数据驱动,咱们通过异样“行为”数据的剖析,构建了一套云上服务器的无人值守架构,并推出了一系列自助服务,实现了 ECS 实例的自诊断、自修复、自优化、自运维,帮忙用户升高 ECS 实例治理的复杂性,从而来保障实例服务的稳固和高效运行。

2、无人值守的自服务实战

云计算 IaaS 的运维工作能够拆分为服务侧运维和客户侧运维,服务侧运维是云平台的运维工作,通常对用户不可见的,次要波及基础设施、根底产品和下层管控三个层面,包含机房、物理设施的运维工作、资源虚拟化、资源调度、热迁徙等工作。随着用户规模的扩充,这些运维工作会越来越简单。而用户侧运维工作,是对用户本人可见的,次要是用户对 ECS 实例的批改操作和自动化工作,包含扩容、重启、监控、客服服务、工单反馈、资源编排和运维编排等。

咱们构建的云上服务器的无人值守架构,为阿里云平台用户提供了一系列的自助服务。狭义上看,阿里云的自助服务囊括了 ECS 实例自身、实例生命周期治理、系统管理和自动化、市场和生态四个维度,如下图。

图:狭义上的自助服务

广义上来说,阿里云自助服务为用户实现了 ECS 实例的诊断、修复和举荐的性能。当天,阿里云自助服务已提供实例诊断工具、实例优化举荐、主动修复工具、最佳模板举荐和 ECS 事件自动化等一系列自助服务工具,笼罩了 80% ECS 常见问题,将问题解决的均匀周期从几小时缩短至分钟级,整个过程无需客服人工参加,无隐衷透露危险,做到了云上服务器的无人值守。将来随着 AI+ 数据的一直驱动,ECS 实例的诊断和修复将会越来越精准。

ECS 实例的智能诊断

依据平台的数据统计,用户在应用 ECS 实例时次要面临四大类问题:
(1)实例无奈近程拜访
(2)实例无奈启动 / 进行
(3)实例性能异样
(4)磁盘扩容未失效

所以,在智能诊断的能力上,咱们笼罩了 ECS 零碎服务、磁盘衰弱服务、网络衰弱服务和 Guest OS 系统配置等维度,用户一键即可实现实例的智能衰弱诊断。

ECS 实例的自动化修复

在智能诊断实现后,咱们还会为用户提供 ECS 实例自动化修复计划,在前者定位问题所在之后,自动化修复可能在 1 - 3 分钟内解决问题,次要实现 ECS 零碎服务修复、网络问题修复和磁盘修复。

仅仅实现自动化修复是不够的,咱们认为自动化修复还应该是通明合规的。咱们通过运维编排服务 OOS 提供自动化引擎,通过云助手命令提供 GuestOS 内的执行能力,运维编排服务 OOS+ 云助手命令独特帮忙用户实现自动化修复;同时,咱们开源了运维编排服务 OOS+ 云助手命令的代码,做到所有修复逻辑对用户可见;所有修复操作还能够通过 ECS 实例的镜像、快照和数据备份实现回滚;通过阿里云 RAM 角色管制实现所有权限可控,通过阿里云操作审计 ActionTrail 实现所有记录可审计,做到了真正的通明合规。

3、无人值守背地的 AI 与数据能力

让咱们实现智能诊断和自动化修复的,是冰山下弱小的技术撑持——AI+ 数据。依靠底层的数据中台,咱们实现了包含物理机数据、虚拟化数据、网络数据、管制面数据和 GuestOS 内数据等数据的采集、荡涤、剖析和模型的构建;加上 AI 算法的一直调优,咱们搭建了用户画像、决策树、预测和举荐模型等,从而保障异样诊断和主动修复越加的精准和高效。

以后,在整体的 ECS 自助服务架构中,次要依附管控监控核心实时监测日志服务、中间件监控、API 申请监控以及控制台监控和自助诊断的数据,通过机器学习引擎实现问题预警和解决,进而驱动运维编排服务 OOS 实现自动化修复问题。

通过这套 AI 驱动的自服务架构,以后阿里云 ECS 实时内存异样感知准确率在 70% 以上,施行预测链路延时则管制在 100s 以内;另外交融专家教训、案例库和知识库,咱们构建了一个弱小的诊断决策树,为放慢问题的定位和修复提供了强有力的根据。

近两年,阿里云弹性计算团队继续一直地投入构建异样行为数据集,将来打算将其演进成为阿里巴巴团体在异样预测上的“ImageNet 数据集”并进行开源,心愿能为异样预测在业内的倒退奉献更大的价值。

原文链接
本文为阿里云原创内容,未经容许不得转载。

退出移动版