乐趣区

关于运维:2023-CCF国际AIOps挑战赛赛题与赛制解读

本文依据本届挑战赛技术委员会主席、南开大学副教授张圣林在 2023 CCF 国内 AIOps 挑战赛宣讲会暨 AIOps 研讨会上题为《2023 CCF 国内 AIOps 挑战赛·赛题与赛制》的分享整顿而成,全文分为挑战赛背景介绍、题目简介、流程阐明和评分规定等局部,最初简要介绍了参考文献与往届资讯,供选手参考。

本届挑战赛背景介绍  近年来软件系统畛域产生了两个显著趋势。第一个趋势是随着云计算的倒退,软件系统架构由单体架构逐步转变为面向服务的架构。从单体的软件用一套可执行的文件来实现整个的业务逻辑,继续开发艰难并难以扩大。目前大部分的行业(包含互联网和金融机构)的软件系统逐步向微服务架构或面向服务的架构过渡,使它可能撑持细粒度、松耦合并通过 API 连贯的服务,以达到继续开发和灵便扩大的目标。第二个趋势是传统人工运维逐步向智能运维转变。这也是为了应答简单的软件和网络的架构。传统运维次要靠人工为主,耗时耗力且高度依赖专家教训,应答简单的零碎时往往大刀阔斧。随着智能运维的衰亡并深刻各行各业,联合专家常识、运维数据和智能算法,升高故障修复工夫并晋升无故障工夫成为业内共识。最终咱们冀望依附智能运维,能够实现无人值守的状态。

在此过程中,运维畛域面向微服务架构的智能化运维转型中面临两个挑战:第一个挑战是: 微服务架构的零碎复杂性较高,调用关系简单,故障呈现后根因定位和故障溯源难。同时,软件服务的动态性导致迭代速度快,须要动态创建和销毁容器,软件频繁变更后,过来的运维教训往往不再实用新的软件环境,给运维工作带来挑战。另一个挑战是: 如何关联和交融多模态数据,并开掘要害信息用于故障发现和诊断。在微服务架构下,往往具备多种损益起源和多种类型的数据,包含指标数据、日志数据以及调用链数据等多模态的运维数据。指标可能反映业务状态和机器性能的工夫序列数据。日志是一种程序打印或执行代码输入的非结构化文本。调用链则是在零碎实现一次业务调用的过程中,把服务之间的调用信息连接成的一个树状链条。多模态运维数据能够反映零碎状态的全方位信息,通过智能运维算法能够失去绝对于传统运维更精准的后果。针对以上挑战,联合微服务架构零碎和调用关系复杂性,以及多模态的运维数据,本次的挑战赛以开放式赛题的比赛模式,向业内广泛的两个挑战发动冲击。

本届挑战赛题目简介

回顾下历届挑战赛赛题:

相比往届较量,本届 AIOps 挑战赛在赛题方面做出了较大的翻新。本届挑战赛采纳开放式赛题,基于建行云龙舟运维平台的稳定性工具和多维监控零碎,模仿大型的生存服务 APP 的生产环境,提供端到端的全链路的日志、指标和调用链数据。选手能够自主命题、自行设计计划及实现,最初评审专家会依据选手的选题、计划和成果来评分。选手可基于一种或多种模态数据(如日志、指标、调用链数据等)抉择异样检测、故障分类、故障根因定位、故障影响剖析,以及其余类型,当然这只是一个示例,参赛选手自主命题的时候不必拘泥于上述案例。

零碎架构零碎架构蕴含了三个集群和一些中间件,它分了几个档次。首先,咱们将模仿拜访建行云的一个生存服务类 APP 的过程,通过负载均衡器加载到入访 WEB 集群里。应用层具备三个集群,蕴含两个根底集群和一个订单集群,负责解决用户拜访的服务。数据层蕴含中间件和数据库,来解决应用层三个集群对数据的申请。之后通过负载均衡器将用户的后果返回。模仿环境的拓扑构造如下:

故障场景以某一个交换机的故障为例:某网络接入交换机的端口,呈现了丢包重大的问题,导致交易解决工夫变长,且交易解决失败次数变多。注入故障时,首先会设置交换机某个端口丢包率较高(如 80%),同时制作高频、拜访数据库交易流量。整个故障流传的链条是:交换机端口丢包重大,通过剖析交换机性能指标如丢包率,导致关联的 AP 交易工夫变长,咱们可通过剖析关联 AP 的指标均匀解决工夫,可能感知到 AP 出了问题。之后,所关联 AP 零碎的成功率降落。通过这样的形式,从交换机端口的故障流传到导致 IP 交易会呈现问题,选手可通过剖析数据推导出交换机的端口故障的根因。

较量数据本届挑战赛将提供全链路的端到端的监控数据,包含指标数据,日志数据和调用链数据。指标数据包含业务指标和性能指标两种类型。日志数据中既有节点的物理服务器日志,同时也会尝试提供下层软件日志。

本届挑战赛流程阐明  

工夫安顿以下是初步打算,后续会依据最新进展动静调整。

报名形式面向全社会凋谢报名,既能够是高校师生,也能够是企业职工。报名前须要注册账号,提交身份认证审核,通过之后绑定手机号和填写账户的材料。报名之后须要去填写问卷,并组建一个团队,之后须要由队长来确认组队实现。参赛队伍不限度参赛人数,但如果一个人同时退出多支队伍,与该人员关联的所有队伍都会被取消资格。之后期待资源分配审核,审核通过后取得建行云的堡垒机账号和明码,胜利后会以短信的形式告诉。建行云堡垒机调配之后须要在一周之内会激活,对于没有激活队伍咱们会回收资源。1 支队伍只有有 1 人登录,就视为激活。较量预计 8 月份报名截止。

建行云资源分配后,需参照官网阐明在一周内激活。如果未按时激活,资源将被回收,队伍中有一个人登录即视作激活。报名胜利后请增加挑战赛小助手进群,微信群后续会进行赛事告诉和技术答疑,倡议队伍里每个成员都能入群。

扫码增加 AIOps_Challenge 进群,备注:“报名参赛”

本届挑战赛评分规定

在建行云的模拟系统中,咱们注入故障且流量模仿之后,会生成一些数据,并打到评测零碎外面。选手们申请到建行云的虚拟机之后,通过 Kafka 进行订阅。订阅完之后须要选手将钻研问题、解决方案、实现的原型零碎在评测零碎里提交,组委会将邀请业内专家对提交后果打分,并颁布排行榜。

评审专家根据设计方案和评估后果进行评分,每个赛题将由不少于两个专家评分,如一致较大,咱们会引入第三个专家染指。原则上会抉择不超过 10 个队伍进入决赛。进入决赛的队伍进行须要现场问难,评审专家现场打分,得出最初的排名。因为往年采纳开放式赛题,较量将不再要求选手凋谢代码,而是要求参赛队伍将运行软件依照要求放在指定目录,写好一键运行脚本,主办方将登录选手机器进行后果复现以评估后果的真实性。参考文献  单指标异样检测

多指标异样检测

日志剖析和异样检测

调用链分析和异样检测

故障分类

根因定位

退出移动版