关于机器学习:独家揭秘-深信服在桌面云场景下的AIOps实战分享

近日，QCon 寰球软件开发大会在广州举办。深服气翻新研究院高级技术专家易佳在现场带来《深服气桌面云 AIOps 智能运维一体化计划演进》的主题演讲。

本次演讲重点分享了深服气在桌面云场景下 AIOps 的相干实战经验，以下是他的演讲内容摘要。\
\
一、深服气桌面云简介 \
\
桌面云，即虚构桌面架构（Virtual Desktop Infrastucture），俗称虚构云桌面（VDI）。VDI 的外围是云桌面的计算存储网络在服务器端实现，通过专有协定连贯云桌面。易佳介绍，深服气桌面云具备移动性强、不受地区限度、集中管控、平安度低等特点。\
\
二、挑战与方案设计 \
\
随着桌面云运维遇到第三方软件兼容性、蓝屏、木马等挑战，企业须要疾速定位问题所在，如利用卡慢、响应提早等，以及企业可能遇到公有云资源有余、硬件故障、网络等深层挑战，为此，深服气提出了桌面云智能运维一体化技术计划。

该计划包含数据服务和智能剖析服务两大外围局部。其中，数据源次要为 Logs、Traces 和 Metrics，示意桌面云的日志、链路和指标数据。\
\
所有数据经由数据总线流入数据分析引擎，对立存储于 InfluxDB、MongoDB 等数据库，联合 OpenAPI，供下层调度、剖析和业务利用。

调度器局部，包含策略下发器、动作与倡议编排、平台本身衰弱监测等；\
\
算法剖析局部，蕴含特色工程、训练与模型调优，罕用算法如故障预测、异样检测、关联推理等；\
\
业务零碎局部，包含闲置虚拟机辨认、虚拟机扩容缩容倡议等，如果呈现故障，对故障进行溯源和故障剖析。\
\
这里数据采集引擎应用的是 Sangfor AIOps Agent，借鉴了 telegraf、datadog 等开源 agent 的思维，实现了基于 Golang 的插件化采集引擎，反对采集 Windows、Linux 等多类不同维度的指标数据，供应 AIOps 剖析。\
\
随着用户诉求和用户体量的的一直变动，AIOps 数据模型与 AI 框架演进了三个版本。

第一个版本次要是一套轻量级监控剖析零碎，反对时序数据、告警数据、统计分析和容器化部署；反对主机、虚拟机数据采集做简略 AI 剖析，实用于小规模用户。\
\
第二个演进的版本是一个轻量级 AIOps 引擎，反对 OpenAPI 和数据对立调度。同时也在这个版本引入缓存机制，实现了存算拆散。同时，更多的 AI 算法也失去了反对。\
\
从第三个版本开始，实现了一套桌面云全栈 AIOps 引擎。在该版本中，面对数据上报的性能瓶颈问题，形象了数据接口，实现负载平衡。

其次是设计了投递分级，内存磁盘双对列。对于优先级比拟高的理论数据、理论体验影响比拟要害的指标，优先保障入库。

同时，也做了多级分表，优化了数据结构。保留横向扩大能力，按集群分库分表。缩小非必要的 tag 入库，如 ip 和 hostname，只在 tag 中保留一个。

为了均衡实时性与准确度，缩小反复数据，能够按采集指标辨别不同采集周期，如 CPU 设定为 10s 采集一次，memory 设定为 20s 采集一次；静态数据尽量只采集一次，如服务器型号、磁盘大小；退出了工夫窗口内数据去重，如过程信息等；依据指标量与忙碌水平，动静调整采集周期。\
\
最初，针对多维异构数据进行了冷热分层解决，冷数据存档供 AI 离线剖析和模型训练，热数据实时监控和展现。\
\
三、算法设计 \
\
深服气桌面云 AIOps 引擎提供业务自适应的 AI 调度，包含对立数据管理、对立模型治理和对立平台策略。

波及的算法包含基于 bagging 策略的分段线性回归算法、基于网格搜寻的缩扩容模型、基于资源束缚算法和贪婪策略的虚拟机新增模型、基于工夫序列特征提取和随机森林的闲置资源辨认模型等。\
\
基于 bagging 策略的分段线性回归算法，目标是设计一套评分模型来评测以后虚拟机、主机和集群的衰弱水平。\
\
基于 CPU、内存、磁盘、告警等多维度学习，为每个维度建设弱学习器，最初综合多个弱学习器构建强学习器，计算得出整体的衰弱评分。\
\
该算法综合评估多维外围资源耗费数据，以辨认整体负载程度，联合专家教训设置的告警规定以捕获偶发异样，使用 bagging 策略进行加权投票计算出机器的最终衰弱度评分。

基于网格搜寻的缩扩容模型在私有云或混合云场景也比拟常见。当虚拟机 CPU 和内存资源不够或过剩时，须要做精细化调度，在保障体验的同时，管制经营老本。\
\
该模型基于历史的 CPU 和内存时序数据来计算无效峰值，依据计算失去的资源无效峰值数据判断是否命中缩容 / 扩容策略，若命中则进一步判断该虚拟机是否处于懈怠机制爱护时间段，判断通过后基于网格搜寻以及 A /B Test 办法给出虚拟机最佳举荐配置。

资源束缚算法和贪婪策略的虚拟机新增模型，是基于总体可包容并发和以后并发来设计的，依据并发量来计算整个集群剩下多少内存和 vCPU，读取集群整体配置状况以及以后虚拟机并发状况。\
\
依据教训换算公式失去 mhz 单位的 CPU 容量残余数据与内存残余数据，捕获虚拟机均匀 vCPU 耗费数据后，基于资源束缚算法联合贪婪策略，输入可新增虚拟机倡议和硬件扩容优化指引。

基于工夫序列特征提取和随机森林的闲置资源辨认模型，联合可扩大假如测试的工夫序列特色，裁减虚拟机特色维度，训练随机森林模型，输入虚拟机闲置概率以及处理倡议，同时收集用户反馈迭代优化预训练模型以造成闭环。

四、实际与落地成果 \
\
该计划撑持大盘、集群、主机、虚拟机、网络、存储、应用软件全栈监控与剖析。计划引入 50+ 规定诊断一些外围指标问题，采集超过 800 维度的数据，适配 30+ 卡慢场景，实现 20+ 机器学习和统计算法，从而做到辨认出常见的异样问题。

在桌面云场景下，虚拟机内第三方过程问题比拟多，利用深服气桌面云 AIOps 计划之后能够改善很多。\
\
针对卡慢问题，深服气桌面云卡慢 / 故障异样检测准确率达到 87%。施行卡慢缓解倡议后，约有 47% 的问题可能失去显著缓解。\
\
执行 AIOps 优化策略后，整体老本均匀降落 18% 左右。同时，AIOps 的智能诊断能力，能够笼罩桌面云 65% 的已知资源卡慢问题。

此外，深服气桌面云 AIOps 也面临一些挑战。比方公有云场景下，因网络限度，很难获取大规模数据继续一直地进行 AI 学习，这导致整个 AI 链路过长。其次，用户的业务场景很多，在医疗、金融等不同场景下，算法模型如何做到较高的覆盖率和精准的辨认，这也是以后比拟辣手的一个问题。

深服气桌面云将来的演进方向，会体现在减少更多的反馈和模型的自更新机制，实现多业务场景的笼罩。同时，基于业务画像和运维常识图谱，实现精细化故障诊断。\
\
以上就是对于《深服气桌面云 AIOps 智能运维一体化计划演进》的分享，关注“深服气科技”公众号，继续获取更多技术干货内容。

关于机器学习:独家揭秘-深信服在桌面云场景下的AIOps实战分享

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）