近期,由天翼云研发二部云终端根底平台团队组成的“翼腾飞”战队,在 2022 CCF 国内 AIOps 挑战赛中,以第三名的问题强势升级决赛,并将于 8 月 13 日加入最终的决赛问难,作为惟一一支进入决赛的运营商队伍,此次升级意味着天翼云的智能运维能力已处于业内领先水平。
国内 AIOps 挑战赛由清华大学联结中国计算机学会(CCF)独特发动,是智能运维畛域的国内顶尖赛事,备受寰球关注。往年,挑战赛以“微服务架构电商零碎下故障辨认和分类”为赛题,吸引了海内外 300 多支队伍加入,包含来自上海交通大学、华中科技大学近千名运维畛域和 AI 畛域的高手参赛。
此次赛题设计源于 AIOps 的外围场景——故障疾速发现与诊断,较量数据基于微服务架构的模仿电商零碎,要求参赛选手在云环境下实现算法模型调优、线上评测等操作。
“翼腾飞”战队成员始终深耕于云终端底层平台的研发工作,同时在云平台运维中踊跃践行 DevOps 及 AIOps 等理念,在自动化、智能化运维方面积攒了丰盛教训。
此次参赛是天翼云“翼腾飞”战队针对较量多模态数据,翻新设计了基于多模态数据协同的异样检测算法,在复赛中一举夺得第三名的好问题并进入决赛。
就具体赛题而言,本次较量在测评阶段仿照生产环境监控数据的获取和检测模式,通过订阅 kafka 推送的实时监控数据流,要求选手自行设计疾速和高鲁棒性的异样检测算法和故障分类算法,实现精确、高效、通用的故障检测和故障分类。
一方面,主办方提供了海量多模态监控数据,包含应用服务的动静拓扑、实时调用链数据、实时业务黄金指标、性能指标(来自于容器、操作系统和 JVM 等)和日志,其中指标名称与指标所在对象的组合约有 5000 多种,每天的数据约有 6G,与理论运维场景的数据量靠近,同时指标数据每天有将近 800 万行,日志和调用链每天的数据量各有上千万行,进行实时异样检测难度极大。
局部指标和日志数据进行可视化后的样例图
另一方面,赛事组织方在短时间内集中组织间断多天的实时测评,最初依据各参赛队伍提交的后果,对故障检测提早、故障检测准确率、检测召回率、定位准确率和分类准确率进行综合评分,这须要选手对算法计划继续进行疾速迭代优化。
对此,“翼腾飞”战队提出了一种多模态数据协同的检测模型,并采纳了无监督和有监督联合的算法体系,联合优良的代码工程实际以及多年云平台建设和运维教训,实现了故障疾速发现与诊断,获得了卓越的实际效果,充沛践行了“常识 + 数据 + 算法 + 算力”的 AI 3.0 理念,在海内外参赛选手中怀才不遇。
此次参赛推动了天翼云与业界优质研发团队及学术机构的切磋交换,同时也展现了天翼云多年的云平台建设和运维成绩。基于此次赛事所翻新设计的多模态监控数据分析和异样检测算法,也将利用到将来超大规模云平台治理和运维实际中。
对于决赛,“翼腾飞”战队充满信心,将与赛事选手共推 AIOps 的落地利用,让先进的数字技术与计划早日普惠公众。