本文简要介绍咱们刚刚被WSDM2021会议录用并行将发表的论文"Time-Series Event Prediction with Evolutionary State Graph"(论文地址),在文中咱们提出了一种将时序转化为图进行示意建模的办法。同时咱们把所实现的办法落地为阿里云·SLS的智能巡检服务,能够利用于大规模的工夫序列异样检测与剖析,辅助运维,经营,研发等诸多场景。
整体导读
- 文章通过实在场景下数据分析,发现了工夫序列状态之间的动静关系对于时序事件预测很重要;
- 文章提出了演变状态图来捕捉时序状态之间的关系,并提出了EvoNet模型对演变状态图进行建模剖析,在进步事件预测准确度的同时,也具备良好的可解释性;
- 文章发表在数据挖掘畛域顶级会议 WSDM 2021 上。
工夫序列的状态
如何对工夫序列进行无效的剖析在学术界有宽泛的钻研,例如异样检测[2],语音辨认[3]等。工业界也有十分多的利用场景,通常须要模型在进行判断的同时(例如判断异样),给出所做判断的正当解释,这对帮忙人们进行更好的决策有很大的作用。
可解释的工夫序列剖析通常须要咱们提取工夫序列中代表性的特色。以前的工作很大一部分从经典的特色工程和示意学习动手,这些办法具备很好的可解释性,但次要依附人的教训,在简单的场景下很难做到通用化。近年来随着深度学习的倒退,许多工作开始尝试一些简单的模型办法来主动的开掘特色。然而,只管这些办法获得了良好的成果,但因为模型的复杂度高以及难以对后果很好的解释,许多办法不能很好地满足理论工业落地的需要。
近年来,可解释的时序建模多着眼于离散时序,在时间轴上将时序分段,而后从分段中抓出能够用于判断异样的示意,常见的办法有:
- 字典办法[3],找时序分段的特征值
- 形态办法[4],找时序分段的非凡波形
- 聚类办法[5],找时序分段的分类特色
这些办法能够无效的捕获时序中的状态,即有表征意义的特色片段。然而,这些形式都是以动态的形式捕获出特色,而疏忽了工夫序列是动静演变的。基于以上背景为登程,为了形容工夫序列的动静信息,同时让模型学习更好的可解释性示意,该论文尝试捕获时序状态随工夫的动态变化信息,将相邻两时序段之间的状态变动用图(Graph)这种数据结构进行示意。整体时序的演变转化为动态图的变动,造成一种可推理可解释的办法用于时序建模与剖析。
时序状态的辨认
这里以时序聚类为例子,形容时序状态的辨认以及在时序上的映射。这里时序状态定义为,行将离散出的时序片段聚成个特色类,抽取类的特征值。给定时序片段和时序状态,咱们能够量化他们之间的间隔来示意时序片段映射到时序状态的权重,具体为:
,
其中形容时序片段与时序状态之间的间隔。简略的,能够采纳欧式间隔。该间隔越小,则辨认的权重就越大。通过下面的办法,每个时序片段能够别离以不同的权重映射到个状态上。
时序演变状态图
当咱们将时序段辨认成带权重的状态集后,一种简略的办法是将工夫序列视为最可能状态的新的序列,而后对新构建序列的马尔科夫性质进行建模剖析[6]。 然而,一个时序段不只会属于一个状态,而应该将其辨认为具备不同权重的多个状态。因而,这项工作提出了一种新鲜的动态图构造来形容状态之间的关系,并摸索状态的动态变化如何揭示工夫序列的演变。
论文将演变状态图定义为一系列加权有向图。具体地,每个图被示意为以示意从时序段的状态到的状态的转变。图中的每个节点都示意一个状态;每个边示意从?到的转移关系(或简称关系),对应的转移权重为。这里察看到的每个时序段的状态权重是独立的,那么转移权重能够由下式计算:
这是被辨认为状态?和被辨认为状态的联结权重。相比于构建新序列的办法,演变状态图通过对每个时序段中多个状态及其跨段的转移关系进行建模,沿时间轴保留了来自原始数据的更多信息。
上图展现了一个预测网络流量异样的演变状态图的示例,实线示意写入流量,虚线示意读取流量,红色示意当天产生异样事件。(a) 可视化了四种辨认出的状态,而 (b) 出现在四个不同的工夫距离(在(a)中标记的I,II,III,IV)的演变状态图。 从图中所示的案例能够看出,当产生异样事件时,状态转换(#2→#16)和(#2→#8)在工夫I上更加频繁。 同样,状态转换(#2→#8)和(#8→#23)在工夫II处很显著。 这些转变表明,写入和读取流量的不均衡(状态8和状态16)或流量降落(状态23)将导致网络异样。 在工夫III,在此期间未产生异样,能够看到状态次要停留在#2中。 而后在下一个时刻IV出现异常。 因而能够看到状态转换#2→#16的明显增加。
时序演变状态图网络
过后序转化为动态图·演变状态图之后,如何对这种动态图构造进行建模剖析变为了次要的问题,受图神经网络(GNN)的启发[7],该文的研究者设计了两种机制来对演变状态图进行建模与剖析,即部分信息聚合和工夫图流传。
上图阐明了所提出的演变状态图网络(EvoNet)的总体构造。对于给定的工夫序列以及事件,该文首先辨认每个分段的状态并结构演变状态图。接下来,该文定义示意向量对于图中每个节点的信息进行编码,并定义示意向量 用于编码整个图的信息。
基于此,如图a,EvoNet通过消息传递网络(message passing)[8]来聚合部分的构造信息:
并应用循环神经网络[9] 进一步流传工夫上的节点以及图的信息:
而后,EvoNet将学习到的特色示意利用于上游的时序工作。具体的推导逻辑大家能够从原文[1]中获取,这里不做过多论述。
特地的,在进行工夫上信息聚合的操作中,该研究者们提出在点到点建模的同时,还应关注点到图的影响,即时序的演变不仅仅与状态与状态之间的转变无关,状态与整个时序片段之间的关系也有影响。因而,如图b,作者们采纳档次循环神经网络机制,捕获节点级别信息与图级别信息随工夫的影响,通过有工夫注意力机制(temporal attention)量化不同工夫地位上影响的权重:
试验后果
文章对来自Kaggle的两个公共数据集,和来自国家电网、中国电信、阿里云的三个真实世界数据集进行工夫序列事件预测工作。试验后果如下表所示:
工业落地实际
该文提出的算法已落地为阿里云·SLS的工夫序列智能巡检服务。该办法能够提供大规模秒级别的实时异样检测,并给出异样判断初步解释,辅助于运维,经营,风控等诸多场景。详情请见《阿里云SLS·机器学习服务》。上面展示该文所列举的一个例子:
如图所示,图a 展示了云服务主机(ECS)监控下的每秒CPU利用率。红色示意1分钟内有异样。这个例子中设定了10个状态以构建演变状态图,并可视化了每个工夫地位的工夫注意力分数。
1.工夫留神机制的有效性:如图b所示,热力求可视化了不同工夫地位的注意力得分。咱们能够看到留神分数胜利地突出了图a中异样的地位。
2.演变状态图的可解释性:如图c-e所示,咱们能够看到,工夫地位I的图中有一个次要的转移#2→#4→#0,而在工夫地位II的图中则是#3→#5。请留神,II之后立刻产生异样。当咱们在时间轴上汇总所有演变状态图时(图d)能够发现,过渡#2→#4→#0是图中的次要门路,而#3→#5是主要门路。这些察看结果表明,距离II中产生的转移#3→#5是异样的。
如图e所可视化的不同状态的均匀曲线,能够看到,转移#2→#4→#0示意服务过程,即CPU利用率从0.25回升到0.75,并在放弃一段时间后降落。相同,转移#3→#5示意CPU利用率回升到0.5,而后立刻降落。这些察看结果表明,这种异样可能是由CPU的故障引起的。
原文链接
本文为阿里云原创内容,未经容许不得转载。