共计 2735 个字符,预计需要花费 7 分钟才能阅读完成。
近日,QCon 寰球软件开发大会在广州举办。深服气翻新研究院高级技术专家易佳在现场带来《深服气桌面云 AIOps 智能运维一体化计划演进》的主题演讲。
本次演讲重点分享了深服气在桌面云场景下 AIOps 的相干实战经验,以下是他的演讲内容摘要。\
\
一、深服气桌面云简介 \
\
桌面云,即虚构桌面架构(Virtual Desktop Infrastucture),俗称虚构云桌面(VDI)。VDI 的外围是云桌面的计算存储网络在服务器端实现,通过专有协定连贯云桌面。易佳介绍,深服气桌面云具备移动性强、不受地区限度、集中管控、平安度低等特点。\
\
二、挑战与方案设计 \
\
随着桌面云运维遇到第三方软件兼容性、蓝屏、木马等挑战,企业须要疾速定位问题所在,如利用卡慢、响应提早等,以及企业可能遇到公有云资源有余、硬件故障、网络等深层挑战,为此,深服气提出了桌面云智能运维一体化技术计划。
该计划包含数据服务和智能剖析服务两大外围局部。其中,数据源次要为 Logs、Traces 和 Metrics,示意桌面云的日志、链路和指标数据。\
\
所有数据经由数据总线流入数据分析引擎,对立存储于 InfluxDB、MongoDB 等数据库,联合 OpenAPI,供下层调度、剖析和业务利用。
调度器局部,包含策略下发器、动作与倡议编排、平台本身衰弱监测等;\
\
算法剖析局部,蕴含特色工程、训练与模型调优,罕用算法如故障预测、异样检测、关联推理等;\
\
业务零碎局部,包含闲置虚拟机辨认、虚拟机扩容缩容倡议等,如果呈现故障,对故障进行溯源和故障剖析。\
\
这里数据采集引擎应用的是 Sangfor AIOps Agent,借鉴了 telegraf、datadog 等开源 agent 的思维,实现了基于 Golang 的插件化采集引擎,反对采集 Windows、Linux 等多类不同维度的指标数据,供应 AIOps 剖析。\
\
随着用户诉求和用户体量的的一直变动,AIOps 数据模型与 AI 框架演进了三个版本。
第一个版本次要是一套轻量级监控剖析零碎,反对时序数据、告警数据、统计分析和容器化部署;反对主机、虚拟机数据采集做简略 AI 剖析,实用于小规模用户。\
\
第二个演进的版本是一个轻量级 AIOps 引擎,反对 OpenAPI 和数据对立调度。同时也在这个版本引入缓存机制,实现了存算拆散。同时,更多的 AI 算法也失去了反对。\
\
从第三个版本开始,实现了一套桌面云全栈 AIOps 引擎。在该版本中,面对数据上报的性能瓶颈问题,形象了数据接口,实现负载平衡。
其次是设计了投递分级,内存磁盘双对列。对于优先级比拟高的理论数据、理论体验影响比拟要害的指标,优先保障入库。
同时,也做了多级分表,优化了数据结构。保留横向扩大能力,按集群分库分表。缩小非必要的 tag 入库,如 ip 和 hostname,只在 tag 中保留一个。
为了均衡实时性与准确度,缩小反复数据,能够按采集指标辨别不同采集周期,如 CPU 设定为 10s 采集一次,memory 设定为 20s 采集一次;静态数据尽量只采集一次,如服务器型号、磁盘大小;退出了工夫窗口内数据去重,如过程信息等;依据指标量与忙碌水平,动静调整采集周期。\
\
最初,针对多维异构数据进行了冷热分层解决,冷数据存档供 AI 离线剖析和模型训练,热数据实时监控和展现。\
\
三、算法设计 \
\
深服气桌面云 AIOps 引擎提供业务自适应的 AI 调度,包含对立数据管理、对立模型治理和对立平台策略。
波及的算法包含基于 bagging 策略的分段线性回归算法、基于网格搜寻的缩扩容模型、基于资源束缚算法和贪婪策略的虚拟机新增模型、基于工夫序列特征提取和随机森林的闲置资源辨认模型等。\
\
基于 bagging 策略的分段线性回归算法,目标是设计一套评分模型来评测以后虚拟机、主机和集群的衰弱水平。\
\
基于 CPU、内存、磁盘、告警等多维度学习,为每个维度建设弱学习器,最初综合多个弱学习器构建强学习器,计算得出整体的衰弱评分。\
\
该算法综合评估多维外围资源耗费数据,以辨认整体负载程度,联合专家教训设置的告警规定以捕获偶发异样,使用 bagging 策略进行加权投票计算出机器的最终衰弱度评分。
基于网格搜寻的缩扩容模型在私有云或混合云场景也比拟常见。当虚拟机 CPU 和内存资源不够或过剩时,须要做精细化调度,在保障体验的同时,管制经营老本。\
\
该模型基于历史的 CPU 和内存时序数据来计算无效峰值,依据计算失去的资源无效峰值数据判断是否命中缩容 / 扩容策略,若命中则进一步判断该虚拟机是否处于懈怠机制爱护时间段,判断通过后基于网格搜寻以及 A /B Test 办法给出虚拟机最佳举荐配置。
资源束缚算法和贪婪策略的虚拟机新增模型,是基于总体可包容并发和以后并发来设计的,依据并发量来计算整个集群剩下多少内存和 vCPU,读取集群整体配置状况以及以后虚拟机并发状况。\
\
依据教训换算公式失去 mhz 单位的 CPU 容量残余数据与内存残余数据,捕获虚拟机均匀 vCPU 耗费数据后,基于资源束缚算法联合贪婪策略,输入可新增虚拟机倡议和硬件扩容优化指引。
基于工夫序列特征提取和随机森林的闲置资源辨认模型,联合可扩大假如测试的工夫序列特色,裁减虚拟机特色维度,训练随机森林模型,输入虚拟机闲置概率以及处理倡议,同时收集用户反馈迭代优化预训练模型以造成闭环。
四、实际与落地成果 \
\
该计划撑持大盘、集群、主机、虚拟机、网络、存储、应用软件全栈监控与剖析。计划引入 50+ 规定诊断一些外围指标问题,采集超过 800 维度的数据,适配 30+ 卡慢场景,实现 20+ 机器学习和统计算法,从而做到辨认出常见的异样问题。
在桌面云场景下,虚拟机内第三方过程问题比拟多,利用深服气桌面云 AIOps 计划之后能够改善很多。\
\
针对卡慢问题,深服气桌面云卡慢 / 故障异样检测准确率达到 87%。施行卡慢缓解倡议后,约有 47% 的问题可能失去显著缓解。\
\
执行 AIOps 优化策略后,整体老本均匀降落 18% 左右。同时,AIOps 的智能诊断能力,能够笼罩桌面云 65% 的已知资源卡慢问题。
此外,深服气桌面云 AIOps 也面临一些挑战。比方公有云场景下,因网络限度,很难获取大规模数据继续一直地进行 AI 学习,这导致整个 AI 链路过长。其次,用户的业务场景很多,在医疗、金融等不同场景下,算法模型如何做到较高的覆盖率和精准的辨认,这也是以后比拟辣手的一个问题。
深服气桌面云将来的演进方向,会体现在减少更多的反馈和模型的自更新机制,实现多业务场景的笼罩。同时,基于业务画像和运维常识图谱,实现精细化故障诊断。\
\
以上就是对于《深服气桌面云 AIOps 智能运维一体化计划演进》的分享,关注“深服气科技”公众号,继续获取更多技术干货内容。