关于运维自动化:AIOps在美团的探索与实践故障发现篇

AIOps，最后的定义是 Algorithm IT Operations，是利用运维算法来实现运维的自动化，最终走向无人化运维。随着技术成熟，逐渐确定为 Artificial Intelligence for IT Operations——智能运维，将人工智能利用于运维畛域，基于已有的运维数据（日志、监控信息、利用信息等），通过机器学习的形式来进一步解决自动化运维无奈解决的问题。

晚期的运维工作大部分是由运维人员手工实现的，手工运维在互联网业务疾速扩张、人力老本高企的时代，难以维系。于是，自动化运维应运而生，它次要通过可被主动触发、预约义规定的脚本，来执行常见、重复性的运维工作，从而缩小人力老本，进步运维的效率。总的来说，自动化运维能够认为是一种基于行业畛域常识和运维场景畛域常识的专家系统。随着整个互联网业务急剧收缩，以及服务类型的简单多样，“基于人为指定规定”的专家系统逐步变得力不从心，自动化运维的有余，日益凸显，以后美团在业务监控和运维层面也面临着同样的窘境。

DevOps 的呈现，局部解决了上述问题，它强调从价值交付的全局视角，但 DevOps 更强调横向交融及买通，AIOps 则是 DevOps 在运维（技术经营）侧的高阶实现，两者并不抵触。AIOps 不依赖于人为指定规定，主张由机器学习算法主动地从海量运维数据（包含事件自身以及运维人员的人工解决日志）中一直地学习，一直提炼并总结规定。AIOps 在自动化运维的根底上，减少了一个基于机器学习的大脑，指挥监测零碎采集大脑决策所需的数据，做出剖析、决策，并指挥自动化脚本去执行大脑的决策，从而达到运维零碎的整体指标。综上看，自动化运维程度是 AIOps 的重要基石，而 AIOps 将基于自动化运维，将 AI 和运维很好地联合起来，这个过程须要三方面的常识：

行业、业务畛域常识，跟业务特点相干的常识教训积攒，相熟生产实践中的难题。
运维畛域常识，如指标监控、异样检测、故障发现、故障止损、老本优化、容量布局和性能调优等。
算法、机器学习常识，把理论问题转化为算法问题，罕用算法包含如聚类、决策树、卷积神经网络等。

美团技术团队在行业、业务畛域常识和运维畛域的常识等方面有着长期的积攒，曾经积淀出不少工具和产品，实现了自动化运维，同时在 AIOps 方面也有一些初步的成绩。咱们心愿通过在 AIOps 上继续投入、迭代和钻研，将之前积攒的行业、业务和运维畛域的常识利用到 AIOps 中，从而能让 AIOps 为业务研发、产品和经营团队赋能，进步整个公司的生产效率。

AIOps 的建设能够先由无到部分单点摸索，在单点摸索上失去初步的成绩，再对单点能力进行欠缺，造成解决某个部分问题的运维 AI 学件，再由多个具备 AI 能力的单运维能力点组合成一个智能运维流程。行业通用的演进路线如下：

开始尝试利用 AI 能力，还无较为成熟的单点利用。
具备单场景的 AI 运维能力，能够初步造成供外部应用的学件。
有由多个单场景 AI 运维模块串联起来的流程化 AI 运维能力，能够对外提供牢靠的运维 AI 学件。
次要运维场景均已实现流程化免干涉 AI 运维能力，能够对外提供供牢靠的 AIOps 服务。
有外围中枢 AI，能够在老本、品质、效率间从容调整，达到业务不同生命周期对三个方面不同的指标要求，可实现多指标下的最优或按需最优。

所谓学件，亦称 AI 运维组件[1]（南京大学周志华老师原创），相似程序中的 API 或公共库，但 API 及公共库不含具体业务数据，只是某种算法，而 AI 运维组件（或称学件），则是在相似 API 的根底上，兼具对某个运维场景智能化解决的“记忆”能力，将解决这个场景的智能规定保留在了这个组件中，学件（Learnware）= 模型（Model）+ 规约（Specification）。AIOps 具体的能力框架如下图 1 所示：

AIOps 团队内部人员依据职能可分为三类团队，别离为 SRE 团队、开发工程师（稳定性保障方向）团队和算法工程师团队，他们在 AIOps 相干工作中别离表演不同的角色，三者缺一不可。SRE 能从业务的技术经营中，提炼出智能化的需要点，在开发施行前可能思考好需要计划，产品上线后能对产品数据进行继续的经营。开发工程师负责进行平台相干性能和模块的开发，以升高用户的应用门槛，晋升用户的应用效率，依据企业 AIOps 水平和能力的不同，运维自动化平台开发和运维数据平台开发的权重不同，在工程落地上可能思考好健壮性、鲁棒性、扩展性等，正当拆分工作，保障成绩落地。算法工程师则针对来自于 SRE 的需要进行了解和梳理，对业界计划、相干论文、算法进行调研和尝试，实现最终算法落地计划的输入工作，并一直迭代优化。各团队之间的关系图如下图 2 所示：

以后，咱们在品质保障方面的诉求最迫切，服务运维部先从故障治理畛域摸索 AIOps 实际。在故障管理体系中，从故障开始到完结次要有四大外围能力，即故障发现、告警触达、故障定位、故障复原。故障发现蕴含了指标预测、异样检测和故障预测等方面，次要指标是能及时、精确地发现故障；告警触达蕴含了告警事件的收敛、聚合和克制，次要指标是降噪聚合，缩小烦扰；故障定位蕴含了数据收集、根因剖析、关联剖析、智能剖析等，次要指标是能及时、精准地定位故障根因；故障复原局部蕴含了流量切换、预案、降级等，次要指标是及时复原故障，缩小业务损失，具体关系如下图 3 所示：

其中在故障治理智能化的过程中，故障发现作为故障治理中最开始的一环，在以后海量指标场景下，主动发现故障和主动异样检测的需要甚为迫切，能极大地简化研发策略配置老本，进步告警的准确率，缩小告警风暴和误告，从而进步研发的效率。除此之外，时序数据异样检测其实是根底能力，在后续告警触达、故障定位和故障复原环节中，存在大量指标须要进行异样检测。所以将故障发现作为以后重点摸索指标，解决以后海量数据场景下人工配置和经营告警策略、告警风暴和准确率不高的外围痛点。整个 AIOps 体系的摸索和演进路线如下图 4 所示。每个环节均有独立的产品演进，故障发现 -Horae（美团服务运维部与交易系统平台部共建我的项目）、告警触达 - 告警核心、故障定位 - 雷达、故障复原 - 雷达预案。

从美团现有的监控体系能够发现，绝大多数监控数据均为时序数据（Time Series），时序数据的监控在公司故障发现过程中扮演着不可漠视的角色。无论是根底监控 CAT[2]、MT-Falcon[3]、Metrics（App 端监控），还是业务监控 Digger（外卖业务监控）、Radar（故障发现与定位平台）等，均基于时序数据进行异样监控，来判断以后业务是否在失常运行。然而从海量的时序数据指标中能够发现，指标品种繁多、关系简单（如下图 5 所示）。在指标自身的特点上，有周期性、法则突刺、整体抬升和降落、低峰期等特点，在影响因素上，有节假日、长期流动、天气、疫情等因素。原有监控零碎的固定阈值类监控策略想要笼罩上述种种场景，变得越来越艰难，并且指标数量泛滥，在策略配置和优化经营上，人力老本将成倍增长。若在海量指标监控上，能依据指标主动适配适合的策略，不须要人为参加，将极大的缩小 SRE 和研发同学在策略配置和经营上的工夫老本，也可让 SRE 和研发人员把更多精力用在业务研发上，从而产生更多的业务价值，更好地服务于业务和用户。

在时序数据异样检测中，对于不同类型的时序数据，通常须要设置不同的告警规定。比方对于 CPU Load 曲线，往往稳定激烈，如果设置固定阈值，刹时的低落会常常产生误告，SRE 和研发人员须要一直调整阈值和检测窗口来缩小误告，以后，通过 Radar（美团外部零碎）监控零碎提供的动静阈值策略，而后参考历史数据能够在肯定水平上防止这一状况。如果零碎可能提前预判该时序数据类型，给出正当的策略配置倡议，就能够晋升告警配置体验，甚至做到自动化配置。而且在异样检测中，时序数据分类通常也是智能化的第一步，只有实现智能化分类，能力主动适配相应的策略。

目前，工夫序列分类次要有两种办法，无监督的聚类和基于监督学习的分类。Yading[4]是一种大规模的时序聚类办法，它采纳 PAA 降维和基于密度聚类的办法实现疾速聚类，有别于 K -Means 和 K -Shape[5]采纳相互关统计办法，它基于相互关的个性提出了一个新鲜的计算簇心的办法，且在计算间隔时尽量保留了工夫序列的形态。对 KPI 进行聚类，也分为两种办法，一种是必须提前指定类别数目（如 K -Means、K-Shape 等）的办法，另一种是无需指定类别数目（如 DBSCAN 等），无需指定类别数目的聚类办法，类别划分的后果受模型参数和样本影响。至于监督学习的分类办法，经典的算法次要包含 Logistics、SVM 等。

3.2.1 分类器抉择

依据以后监控零碎中时序数据特点，以及业内的实际，咱们将所有指标形象成三种类别：周期型、安稳型和无规律稳定型[6]。咱们次要经验了三个阶段的摸索，单分类器分类、多弱分类器集成决策分类和卷积神经网络分类。

单分类器分类：本文训练了 SVM、DBSCAN、One-Class-SVM（S3VM）三种分类器，均匀分类准确率达到 80% 左右，但无规律稳定型指标的分类准确率只有 50% 左右，不满足应用要求。
多弱分类器集成决策分类：参考集成学习相干原理，通过对 SVM、DBSCAN、S3VM 三种分类器集成投票，进步分类准确率，最终分类准确率进步 7 个百分点，达到 87%。
卷积神经网络分类：参考对 Human Activity Recognition（HAR）进行分类的实际[7]，咱们用 CNN（卷积神经网络）实现了一个分类器，该分类器在时序数据分类上体现优良，准确率能达到 95% 以上。CNN 在训练中会逐层学习时序数据的特色，不须要老本低廉的特色工程，大大减少了特色设计的工作量。

3.2.2 分类流程

咱们抉择 CNN 分类器进行时序数据分类，分类过程如下图 6 所示，次要步骤如下：

缺失值填充：时序数据存在大量数据失落或者局部时段无数据等景象，因而在分类前先对数据先进行缺失值填充。
标准化：本文采纳方差标准化对时序数据进行解决。
降维解决：按分钟粒度的话，一天有 1440 个点，为了缩小计算量，咱们进行降维解决到 144 个点。PCA、PAA、SAX 等一系列办法是罕用的降维办法，此类办法在升高数据维度的同时还能最大水平地保持数据的特色。通过比拟，PAA 在降到同样的维度（144 维）时，还能保留更多的时序数据细节，具体对比方下图 7 所示。
模型训练：应用标注的样本数据，在 CNN 分类器中进行训练，最终输入分类模型。

3.3.1 异样检测办法

基于上述时序数据分类工作，本文可能绝对精确地将时序数据分为周期型、安稳型和无规律稳定型三类。在这三种类型中，周期型最为常见，占比 30% 以上，并且蕴含了大多数业务指标，业务申请量、订单数等外围指标均为周期型，所以本文优先选择周期型指标进行主动异样检测的摸索。对于大量的时序数据，通过规定进行判断曾经不能满足，须要通用的解决方案，能对所有周期型指标进行异样检测，而非一个指标一套齐全独立的策略，机器学习办法是首选。

论文 Opprentice[8]和腾讯开源的 Metis[9]采纳监督学习的形式进行异样检测，其做法如下：首先，进行样本标注失去样本数据集，而后进行特征提取失去特色数据集，应用特色数据集在指定的学习零碎上进行训练，失去异样分类模型，最初把模型用于实时检测。监督学习整体思路 [10] 如下图 8 所示，其中
(x1,y1),(x2,y2),…,(xn,yn) 是训练数据集，学习零碎由训练数据学习一个分类器 P(Y∣X)或 Y =f(X)，分类零碎通过学习到的分类器对新的输出实例 xn+ 1 进行分类，预测其输入的类别 yn+1。

3.3.2 异样注入

一般而言，在样本数据集中，正负样本比例如果极度不平衡（比方 1:5，或者更迥异），那么分类器分类时就会偏向于高比例的那一类样本（如果负样本占较大比例，则会体现为负样本 Recall 过高，正样本 Recall 低，而整体的 Accuracy 仍然会有比拟好的体现），在一个极度不平衡的样本集中，因为机器学习会对每个数据进行学习，那么少数数据样本带有的信息量就比多数样本信息量大，会对分类器学习过程中造成烦扰，导致分类不精确。

在理论生产环境中，时序数据异样点是十分少见的，99% 以上的数据都是失常的。如果应用实在生产环境的数据进行样本标注，将会导致正负样本比例重大失衡，导致精召率无奈满足要求。为了解决基于监督学习的异样检测异样点过少的问题，本文设计一种针对周期型指标的主动异样注入算法，保障异样注入足够随机且蕴含各种异样场景。

时序数据的异样分为两种根本类型，异样上涨和异样上涨，如下图 9（图中数据应用 Curve[11]标注），通常异样会继续一段时间，而后逐渐复原，复原过程或快或慢，影响异样两侧的值，称之为涟漪效应（Ripple Effect），相似石头落入水中，波纹扩散的情景。受到该场景的启发，异样注入思路及步骤如下：

给定一段时序值 S，确定注入的异样个数 N，将时序数据划分为 N 块。
在其中的一个区域 X 中，随机选定一个点 Xi 作为异样种子点。
设定异样点数目范畴，基于此范畴产生随机出异样点数 n，异样点随机散布在异样种子两侧，左侧和右侧的数目随机产生。
对于具体的异样点，依据其所在位置，抉择该点邻域范畴数据作为参考数据集 m，须要邻域在设定的范畴内随机产生。
产生一个随机数，若为奇数，则为上涨，否则上涨。基于参考数据集 m，依据 3Sigma 原理，生成超出±3σ 的数据作为异样值。
设定一个影响范畴，在设定范畴内随机产生影响的范畴大小，左右两侧的影响范畴也随机调配，同时随机产生异样衰减的形式，包含简略挪动均匀、加权挪动均匀、指数加权挪动均匀三种形式。
上述过程只波及突增突降场景，而对于同时存在升降的场景，通过别离生成上涨和上涨的上述两个异样，而后叠加在一起即可。

通过下面的异样注入步骤，能比拟好地模拟出周期型指标在生产环境中的各种异样场景，上述过程中各个步骤的数据都是随机产生，所以产生的异样案例各不相同，从而能为咱们生产出足够多的异样样本。为了保障样本集的高准确性，咱们对于注入异样后的指标数据还会进行标注，以去除局部注入的非异样数据。具体异样数据生成成果如图 10 所示，其中蓝色线为原始数据，红色线为注入的异样，能够看出注入异样与线上环境产生故障时类似，注入的异样随机性较大。

3.3.3 特色工程

针对周期型指标，经标注产生样本数据集后，须要设计特征提取器进行特征提取，Opprentice 中设计的几种特征提取器如图 11 所示：

上述特色次要是一些简略的检测器，包含如固定阈值、差分、挪动均匀、SVD 合成等。Metis 将其分为三种特色，一是统计特色，包含方差、均值、偏度等统计学特色；二是拟合特色，包含如挪动均匀、指数加权挪动均匀等特色；三是分类特色，蕴含一些自相关性、互相关性等特色。参考上述提及的特征提取办法，本文设计了一套特色工程，区别于上述特征提取办法，本文对提取的后果用孤立森林进行了一层特色形象，使得模型的泛化能力更强，所抉择的特色及阐明如下图 12 所示：

3.3.4 模型训练及实时检测

参考监督学习在分类问题中的利用思路，对周期型指标主动异样检测计划具体设计如图下 13 所示，次要分为离线模型训练和实时检测两大部分，模型训练次要依据样本数据集训练生成分类模型，实时检测利用分类模型进行实时异样检测。具体过程阐明如下：

离线模型训练：基于标注的样本数据集，应用设计的特征提取器进行特征提取，生成特色数据集，通过 Xgboost 进行训练，失去分类模型，并存储。
实时检测：线上实时检测时，时序数据先通过预检测（升高进入特征提取环节概率，缩小计算压力），而后依据设计的特色工程进行特征提取，再加载离线训练好的模型，进行异样分类。
数据反馈：如果断定为异样，将收回告警。进一步地，用户可依据理论状况对告警进行反馈，反馈后果将退出样本数据集中，用于定时更新检测模型。

3.3.5 非凡场景优化

通过上述实际，本文失去一套可残缺运行的周期型指标异样检测零碎，在该零碎利用到生产环境的过程中，也遇到不少问题，比方低峰期（小数值）稳定幅度较大，节假日和周末趋势和工作日趋势齐全不同，数据存在整体大幅抬升或降落，局部法则稳定时间轴上存在偏移，这些状况都有可能产生误告。本文也针对这些场景，别离提出对应的优化策略，从而缩小周期型指标在这些场景下的误告，进步异样检测的精召率。

1）低峰期场景：低峰期次要体现是小数值高稳定，低峰期的稳定比拟广泛，然而惯例检测时，只获取以后点前后 7min 的邻域内的数据，可能无奈获取到自身曾经呈现过屡次的较大稳定，导致误判为异样。所以对于低峰期，须要扩充比拟窗口，包容到更多的失常的较大稳定场景，从而缩小被误判。如下图 14 所示，红色是当日数据，灰色是上周同日数据，如果判断窗口为 w1，w1 内蓝色点有可能被认为是异样点，而工夫窗口范畴扩充到 w2 后，大幅稳定的蓝色点和绿色点都会被捕捉到，呈现相似大幅稳定时不再被断定为异样，至于低峰期范畴能够通过历史数据计算进行辨认。

2）节假日场景：节假日前一天以及节假日之后一周的数据，和失常周期的趋势都会有较大差异，可能会呈现误告。本文通过提前配置须要进行节假日检测的日期，在设置的日期范畴内，除了进行失常的检测流程，对于曾经检测出异样的数据点，会再进入到节假日检测流程，都异样才会触发告警。节假日检测会取最近 1h 的数据，别离计算其稳定比、周同比、日环比等数据，以后工夫的这些指标通过“孤立森林”判断都为异样，才会认为数据是真正异样。除此之外，对于节假日，模型的敏感度会适当调低以适应节假日场景。

3）整体抬升 / 降落场景：场景特点如下图 15 所示，在该场景下，会设置一个抬升 / 上涨率，比方 80%，如果明天最近 1h 数据 80% 绝对昨日和上周都上涨，则认为是整体抬升，都上涨则认为是整体降落。如果呈现整体抬升状况，会升高模型敏感度，并且要求以后日环比、周同比在 1h 数据中均为异样点，才会断定以后的数据异样。

4）法则稳定偏移场景：局部指标存在周期性稳定，然而工夫上会有所偏移，如图 16 所示案例中时序数据因为稳定工夫偏移导致误告。本文设计一种类似序列辨认算法，在历史数据中找出稳定类似的序列，如果存在足够多的类似稳定序列，则认为该稳定为失常稳定。类似序列提取过程如下：最近 n 分钟的时序作为根底序列 x，获取检测时刻历史 14 天邻域内的数据（如前后 30min），在邻域数据中指定滑动窗口（如 3min）滑动，把邻域数据分为多个长度为 n 的序列集 Y，计算根底序列 x 与 Y 中每个序列的 DTW 间隔，通过“孤立森林”对间隔序列进行异样判断，对于被断定为异样值的 DTW 间隔，它所对应的序列将被视为类似序列。如果类似序列个数超出设定阈值，则认为以后稳定为法则偏移稳定，属于失常景象。根据上述办法，提取到对应的类似序列如图 16 左边所示，其中红实线为根底序列。

为了把上述时序数据异样检测摸索的后果进行落地，服务运维部与交易系统平台部设计和开发了时序数据异样检测零碎 Horae。Horae 致力于工夫序列异样检测流程的编排与调优，解决对象是时序数据，输入是检测流程和检测后果，外围算法是异样检测算法、工夫序列预测算法以及针对工夫序列的特征提取算法。除此之外，Horae 还会针对非凡的场景开发异样检测算法。Horae 外围能力是可依据提供的算法，编排不同的检测流程，对指标进行主动分类，并针对指标所属类型主动抉择适合的检测流程，进行流程调优失去该指标下的最优参数，从而确保能适配指标并失去更高的精召率，为各个对时序数据异样检测有需要的团队提供高准确率的异样检测服务。

3.4.1 Horae 零碎架构设计

Horae 零碎由四个模块组成：数据接入、实时检测、试验模块和算法模块。用户通过数据接入模块注册须要监听时序数据的音讯队列，Horae 零碎将监听注册的 Topic 采集时序数据，并依据粒度（例如分钟、小时或天）更新每个工夫序列，每个时序点都存储到时序数据库中，实时检测模块对每个时序点执行异样检测，当检测到异样时，通过音讯队列将异样信息传输给用户。下图 17 具体展现了 Horae 零碎的整体架构图。

数据接入：用户能够通过创立数据源用于数据上报，数据源能够蕴含一个或多个指标，指标更新频率最小为一分钟。不同数据源中指标的时序数据互相隔离，时序数据更新到应用 Elasticsearch 革新后的时序数据库中。
实时检测：采集到实时的时序数据后，会依据指标绑定的执行流程立刻进行异样检测，如果没有训练调优，会先执行训练调优以保障更佳的精召率。实时检测的后果会通过音讯队列告诉到用户，用户依据异样检测的后果进行进一步解决判断是否须要收回告警。
试验模块：该模块次要性能是样本治理、算法注册、流程编排、模型训练和评估、模型公布。该模块提供样本治理性能，可对样本进行标注和存储；对于曾经实现的算法，能够注册到零碎中，供流程编排应用；通过算法编排失去的流程，能够用在模型训练或者异样检测中；训练流程会应用到标注好的样本数据调用算法离线服务进行离线训练并存储模型；对于曾经编排好的检测流程，能够对指标进行模仿察看检测异样检测成果，或者离线回归判断检测流程在该指标上的具体精召率数据。
算法模块：算法模块提供了所有在试验模块注册的异样检测算法的具体实现，算法模块既能够执行单个算法，也能够承受多个算法编排的流程进行执行。以后反对的算法大类次要有预处理算法（异样值去除、空值填充、降维、归一化等），时序特色算法（统计类特色、拟合特色、分类特色等），机器学习类算法（RF、SVM、XGBoost、GRU、LSTM、CNN、聚类算法等），检测类算法（孤立森林、LOF、SVM、3Sigma、四分位、IQR 等），预测类算法（Ewma、Linear Weighted MA、Holt-Winters、STL、SAIMAX、Prophet 等），自定义算法（形变剖析、同环比、稳定比等）。

3.4.2 算法注册和模型编排

算法模型是对算法的形象，通过惟一字符串标识算法模型，注册算法时须要指定算法的类型、接口、参数、返回值和解决单个时序点所须要加载的时序数据配置。胜利注册的算法模型依据算法类型的不同，会生成用于模型编排的算法组件或对异样检测模型进行训练的组件。用于模型编排的算法组件次要包含：预处理算法、时序特色算法、评估算法、预测算法、分类算法、异样检测算法等，用于模型训练的算法分为两大类：参数调优和机器学习模型训练。

注册后的算法模型通常不会间接用于异样检测，会对算法模型进行编排后失去一个流程模型，流程模型能够用于执行异样检测或者执行训练。试验模块反对两种类型的流程模型：执行流程和训练流程。执行流程是一个异样检测流程，指定指标和检测时间段，失去检测时间段每个时序点的异样分值；训练流程是一个执行训练的流程模型，次要包含参数调优训练流程和机器学习模型训练流程。应用算法进行流程编排如下图 18 所示，左侧菜单为算法组件，两头区域可对算法执行流程进行编排调整，右侧区域是具体算法的参数设置。

3.4.3 离线训练和实时检测

在模型编排阶段，可编排执行流程和训练流程，执行流程次要用在指标实时异样检测过程，而训练流程次要用在离线模型训练和参数调优。执行流程由流程配置和异样分值配置形成，由试验模块的流程调度引擎负责执行调度，下图 19 展现了执行流程的具体形成。流程调度引擎在对执行流程调度执行之前，会从流程的最深叶子节点的算法组件开始递归计算须要加载的时序数据集，依据流程中算法组件的参数配置，加载前置训练流程的训练后果，最初对流程中的算法组件顺次调度执行，失去检测时间段每个时序点的异样分值。最终实现后的执行流程编排如图 18 所示。

训练流程由流程配置、训练算法、样本加载配置和训练频次等信息形成，由试验模块的流程调度引擎负责调度执行，下图 20 展现了训练流程的具体形成。训练流程次要分为两大类，参数调优训练和机器学习模型训练。参数调优训练是指为须要调优的参数设置参数值迭代范畴或者枚举值，通过贝叶斯调优算法对参数进行调优，失去最优参数组合；机器学习模型训练则通过设计好特色工程，设置分类器和超参数范畴后调优失去机器学习模型文件。训练流程执行训练的样本集来源于人工标注的样本或者基于主动样本结构性能生成的样本。训练流程编排具体过程和执行流程相似，不同的是训练流程可设置定时工作执行，训练的后果会存储供后续应用。

异样检测模型中会蕴含很多凭借教训设定的超参数，不同的指标可能须要设置不同的参数值，保障更高的精召率。而指标数据会随着工夫发生变化，设置参数须要定期的训练和更新，在试验模块中能够为训练流程设置定时工作，试验模块会定时调度训练流程生成离线训练任务，训练任务执行实现能够看到训练后果和成果。下图 21 示例展现了一个参数调优训练流程的示例。

3.4.4 模型案例和后果评估

依据在周期型指标上摸索的后果，在 Horae 上编排分类模型训练流程，训练和测试所应用的样本数是 28000 个，其中用于训练的比例是 75%，用于验证的比例是 25%，具体分类模型训练后果如下图 22 所示，在测试集上的准确率 94%，召回率 89%。同时编排了与之对应的执行流程，它的检测流程除了异样分类，还次要蕴含了空值填充、预检测、特征提取、分类判断、低峰期判断、偏移稳定判断等逻辑，该执行流程适用范围是周期型和稳定型指标。除此之外，还提供了流程调优能力，检测流程中的每个算法能够裸露其超参数，对于具体的指标，通过该指标的样本数据能够训练失去该流程下的一组较优超参数，从而进步该指标的异样检测的精召率。

该异样检测流程利用到生产环境的指标后，具体检测成果相干案例如下图 23 所示，对于周期型指标，能及时精确地发现异常，对异样点进行反馈，准确率达到 90% 以上。除此之外，还比照了形变剖析异样检测，对于生产环境中遇到的三个形变剖析无奈发现的 4 个案例，周期型指标异样检测流程能发现其中 3 个，体现优于形变剖析。

时序数据异样检测作为 AIOps 中故障发现环节的外围，以后通过摸索和实际，曾经在周期型指标异样检测上获得了肯定的问题，并落地到 Horae 时序异样检测零碎中。在时序数据异样检测局部，后续会陆续实现安稳型、无规律稳定型指标主动异样检测，减少指标数据预测相干能力，进步检测性能，从而实现所有类型的海量指标主动异样检测的目标。

除此之外，在告警触达方面，咱们以后在进行告警收敛、降噪和克制相干的规定和算法的摸索，致力于提供精简无效的信息，缩小告警风暴及烦扰；在故障定位方面，咱们曾经基于规定在定位上获得比拟不错的成果，后续还会进行更全面的定位场景笼罩和关联性剖析、根因剖析、常识图谱相干的摸索，通过算法和规定晋升故障定位的精召率。因篇幅所限，告警触达（告警核心）和故障定位（雷达）两局部内容将会在后续的文章中具体进行分享，敬请期待。

[1] 周志华. 机器学习: 倒退与将来[R]. 报告地: 深圳, 2016.
[2] 美团实时监控零碎 CAT[EB/OL]. https://tech.meituan.com/CAT_… 2018-11-01.
[3] 美团零碎指标监控 Mt-Falcon[EB/OL]. https://tech.meituan.com/Mt-F… 2017-02-24.
[4] Ding R, Wang Q, Dang Y, et al. Yading: fast clustering of large-scale time series data[J]. Proceedings of the VLDB Endowment, 2015, 8(5): 473-484.
[5] Paparrizos J, Gravano L. k-shape: Efficient and accurate clustering of time series[C]. Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. ACM, 2015: 1855-1870.
[6] H. Ren, Q. Zhang, B. Xu, Y. Wang, C. Yi, C. Huang, X. Kou, T. Xing, M. Yang, and J. Tong,“Time-series anomaly detection serviceat microsoft,”in Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 3009–3017, ACM, Jun. 2019.
[7] Tom Brander. Time series classification with Tensorflow[EB/OL]. https://burakhimmetoglu.com/2… 2017-08-22.
[8] Liu D, Zhao Y, Xu H, et al. Opprentice: Towards practical and automatic anomaly detection through machine learning[C]//Proceedings of the 2015 Internet Measurement Conference. ACM, 2015: 211-224.
[9] Metis is a learnware platform in the field of AIOps[EB/OL]. https://github.com/Tencent/Me… 2018-10-12.
[10] 李航. 统计学习办法 [M]. 第 2 版. 北京: 清华大学出版社, 2019.28-29.
[11] An tool to help label anomalies on time-series data[EB/OL]. https://github.com/baidu/Curve, 2018-08-07.

胡原、锦冬、俊峰，根底技术部 - 服务运维部工程师；长伟、永强，到家事业群 - 交易系统平台部工程师。

根底技术部 - 服务运维部 - 运维工具开发组 - 故障治理开发组次要负责故障发现、故障定位、故障复原、故障经营、告警核心、风险管理、数据仓库等工作。目前团队诚招高级工程师、技术专家。欢送有趣味的同学投送简历至 tech@meituan.com（邮件主题注明：运维工具）

想浏览更多技术文章，请关注美团技术团队（meituantech）官网微信公众号。

关于运维自动化:AIOps在美团的探索与实践故障发现篇

一、背景

二、技术路线布局

2.1 AIOps 能力建设

2.2 关联团队建设

2.3 演进路线

三、AIOps 之故障发现

3.1 故障发现

3.2 时序数据主动分类

3.3 周期型指标异样检测

3.4 异样检测能力平台化

四、总结与瞻望

五、参考资料

六、作者简介

招聘信息