关于人工智能:AIOps落地五大原则三架构路线

43次阅读

共计 1839 个字符，预计需要花费 5 分钟才能阅读完成。

清华大学裴丹传授联合过来 20 年在 AIOps 畛域与几十家企业单干、跨多种技术栈的落地教训积攒，以及 150 篇左右学术论文的算法积攒，总结出 AIOps 落地的 15 条经验性准则。这些教训分成 5 个大类准则，别离波及 AIOps 落地的大势所趋、价值路线、架构路线、算法路线、生态路线五个方面。

咱们持续分享《AIOps 落地五大准则（三）》，围绕 AIOps“架构路线”介绍 3 条经验性准则。

准则 3（架构路线）
数（据）知（识）驱动、算（法）（代）码联动、人机协同

准则 3 聚焦 AIOps 在架构上的路线，总体而言，从架构角度（如下图所示），一个 AIOps 零碎是：以运维监控数据和运维畛域常识为输出的、算法和代码联动的、人机协同的分布式系统、其每个组件都有其提供的服务（确定性的或模糊性的），而其整体上模仿运维人员的行为。上面咱们分三个方面逐个论述。

准则 3.a 数（据）知（识）驱动

数据和常识双轮驱动的要点在应急排障中的具体体现：一是基于全量数据做异样发现；二是基于常识对一个个零散的异样信号进行关联，从而取得“上帝视角”（如下图）。

具体而言，在运维排障中的“上帝视角”相似下图所示，每个节点是零碎运行过程中的一种可能异样（对应的是一个数据源和异样检测算法）。这些异样在零碎里的流传关系就是图中的“边”，最终造成这样的一幅运维排障的常识图谱。其外围思路是：① 基于所有可用监控数据的异样检测（寻找所有可能异样）；② 基于异样流传的故障定位（将所有相干异样中依照根因可能性排序）。

咱们会发现，之前提过的本来并列在一起的各种异样检测算法（如下图），当初通过这张图把它们连在一起，所有的运维排障工作通过这个图实现了。

图的“边”来自于依赖关系常识（逻辑组件之间的调用关系图、逻辑组件在物理组件上部署关系图、物理组件的网络门路关系图）和专家常识（组件内运维故障间的因果关系图，手工配置或算法开掘）。

以上“数据常识双轮驱动”的框架，咱们在 2009 年在运营商骨干网运维胜利落地之后的十几年间，攻克了畛域迁徙、算法降级、开掘代替人工配置等挑战（如下图），目前曾经具备了 IT 运维畛域推广的条件。

准则 3. b 算（法）（代）码联动

AI 利用里不仅蕴含算法，还可能蕴含一些（流程、规定）自动化代码。对于一个纷繁复杂的运维场景，咱们的工作是通过庖丁解牛的形式，分解成哪些是能够通过算法做的事件，哪些是能够通过自动化脚本做的事件（比方在排障的时候，通过一个 SQL 获取数据库的一个监控指标）。AIOps 零碎是一个大型分布式软件，指标是应急排障，不同组件之间相互配合，形成前述准则 3 那幅图所示的分布式系统。具体的一个组件的实现办法能够是确定性逻辑的硬代码还是模糊性逻辑的基于机器学习办法，就如同一个形成在线软件服务的不同微服务外部用哪种语言实现都能够。

准则 3.c 人机协同

前述准则 3 那幅图所示的分布式系统中蕴含了一个重要局部，即运维人员的反馈和决策。也就是说，AIOps 架构是一个人机协同的架构。这是为什么呢？

咱们在实际的过程中发现，AIOps 与一些常见的人工智能畛域（如计算机视觉）有一个十分显著的不同，即运维数据没法采纳众包的形式交给一个普通人来进行标注，必须依赖运维专家，然而运维专家可能没工夫或者不违心标注。

因而，在算法抉择时的优先级程序是：1. 无监督算法；2. 无监督算法 + 被动学习；3. 弱监督算法（如多实例学习，PU 学习）；4. 有监督算法 + 迁徙学习；5. 有监督学习。

然而无论采纳有监督还是无监督算法，评估的时候都须要标注数据，这个就依赖于日常多积攒案例，以及它周边的相干监控数据，从而可能评估无监督的算法。

自己认为，上述“无监督算法 + 被动学习”是一种有前景的形式，属于“人机协同”（如下图中的例子）。咱们在 Infocom 2020 有一个平安相干的工作，就是 human in the loop— 无监督异样检测 + 人工在线反馈，可能检测零日攻打。产生零日攻打时，其攻打指纹尚未发现或部署在防火墙中，因而用传统基于指纹的检测办法通常会漏掉零日攻打。无监督办法可能检测进去零日攻打的反常流量，不过不能保障清晰地区分所有攻打和所有新上线的利用的模式，所以咱们用线上人工反馈的形式进行反馈。这里要留神的是，这些反馈是该在线零碎运行的有机组成，用户在应用工具时的惯例步骤（而不是标注离线数据），其应用过程自身就给零碎提供了反馈。咱们在若干其它工作中也发现把“人机协同”作为 AIOps 架构的一部分是卓有成效的。

以上是裴丹传授对于“AIOps 落地的架构路线”具体解读。

正文完