关于数据:多场景下时序序列分类算法基础知识全面总结

43次阅读

共计 3112 个字符,预计需要花费 8 分钟才能阅读完成。

云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的 AIOps 开发者生态。

前言

本期咱们有幸邀请到中国矿业大学(北京)博士、云智慧智能研究院算法工程师徐同学,从时序序列分类的概念、钻研意义、根本框架及算法总结四个方面带来对工夫序列分类算法的总结概述,上面就让咱们一起来学习吧~

一、什么是工夫序列分类

  1. 分类工作

分类工作是一个机器学习畛域的工作,目标是让算法通过学习为未知样本调配标签。典型案例是将一封邮件分类为垃圾邮件和非垃圾邮件。

分类工作又可细分为以下四类:

  • 二分类问题 :将样本分为两类,如图 1 所示;
  • 多分类问题 :将样本分为多类,如图 2 所示;
  • 多标签分类 :同一样本被赋予多个标签;
  • 不均衡分类 :正负样本数量比例迥异。

  1. 工夫序列分类

工夫序列分类是一项在多个畛域均失去利用的通用工作,目标是利用标记好的训练数据,确定一个工夫序列属于事后定义的哪一个类别。工夫序列分类不同于惯例分类,因为时序数据是具备程序属性的序列。如下图所示的心电图信号样本,它示意一个心跳流动。依据信号特色的不同能够加以辨别,右边示意失常心跳,而左边示意心肌梗死。

工夫序列分类工作须要对样本进行学习,进而进行分类,因而这个工作有监督学习的作用。该工作可细分为两类:单指标工夫序列分类和多指标工夫序列分类。本文的算法论述聚焦在单指标工夫序列分类问题。

二、为什么要钻研工夫序列分类

工夫序列分类能够在以下场景发挥作用

  1. 预测算法与数据的匹配,辅助算法选型,晋升预测准确性;
  2. 异样检测算法与数据匹配,辅助选型,晋升检测准确性,缩小计算量;
  3. 预测算法的预处理,例如检测数据周期性并剔除,以进行失常历史数据的学习;
  4. 异样检测算法的预处理,例如银行跑批工作需将周期数据剔除,再进行异样检测;
  5. 工夫序列数据分析,不同类型数据占比、不同类型数据重要水平。

三、工夫序列分类问题根本框架

  1. 根本框架

工夫序列分类问题能够粗略划分为两个次要步骤:特征提取和分类器分类,如下图所示。

特征提取指从原始工夫序列数据中提取可能较好示意原序列的特色。分类器将提取的特色作为输出,输入原序列的类别标签。

  1. KNN 分类器

KNN(k-nearest neighbors)分类器是一类根底分类器,其中最罕用的是 1 -NN 分类器。KNN 分类器分为训练和分类两个阶段。在训练阶段,只需把训练样本以及样本标签存储起来;在分类阶段,首先设定近邻样本数量常数 K,而后计算与待分类样本最靠近的 K 个训练样本,最初采纳少数表决的形式断定类别,即呈现最多类别作为待分类样本类别。

例如第一章节心电图的例子,有若干心电图信号序列,依据每个序列是否失常,别离赋予 0 和 1 的标签。而后,用 1 -NN 算法进行训练,即存储所有样本序列;当新样本到来,须要计算新样本与所有训练样本的间隔,比方欧式间隔,找出间隔最近的样本对应的类别,即为新样本的类别。

  1. 算法评估与 UCR 数据集

算法成果的好坏须要一个主观的评估机制,这就离不开开源数据集。开源数据集为算法的偏心比拟以及沟通交流提供了平台,为算法钻研畛域的疾速倒退打下了根底。在工夫序列分类畛域,UCR(全称)开源数据集表演了这样一个角色。

如上图所示,UCR 是一个工夫序列分类畛域的数据仓库,蕴含多种不同类型的数据集,依照不同的应用领域和具体业务类型划分,例如上文的心电图数据集。

在评估一个算法时,须要在所有数据集上测试算法成果,最终依照评估机制给出综合评分,如上图所示。上图展现了 14 种算法的评估后果,对应评分越凑近 1 代表算法综合评分越高,被彩色横线笼罩的算法代表成果无显著差别。

四、工夫序列分类算法总结与典型算法介绍

  1. 工夫序列分类算法归类

主讲人通过浏览大量工夫序列分类文献,将工夫序列分类算法总结为两个大类,11 个小类,如下图所示。这里将工夫序列分类算法分为传统办法和深度学习办法两大类,传统办法包含全局特色类、部分特色类、模型类和集成类,深度学习办法又分为生成式模型和判别式模型。

  1. 典型算法介绍

  • 全局特色

全局特色分类算法将残缺工夫序列作为特色,计算工夫序列间的相似性来进行分类,通常采纳间隔度量函数与 1 -NN 相结合的形式。该类办法的钻研方向为用于度量残缺工夫序列相似性的间隔度量函数。

  • 典型全局特色算法 -dtw

如果咱们容许序列的点与另一序列的多个间断的点绝对应(相当于把这个点所代表的音调发音工夫缩短),而后再计算对应点之间的间隔之和,这就是 dtw 算法。dtw 算法容许序列某个时刻的点与另一序列多个间断时刻的点绝对应,称为工夫规整(Time Warping),如下图所示。

  • 典型全局特色算法 - 差分间隔法

差分间隔法计算原始工夫序列的一阶微分,而后度量两个工夫序列的微分序列的间隔,即微分间隔。差分法将微分间隔作为原始序列间隔的补充,是最终间隔计算函数的重要组成部分。

差分间隔法将位于工夫域的原工夫序列和位于差分域的一阶差分序列相结合,晋升分类成果。钻研方向次要是如何将原序列和差分序列正当联合,差分间隔法的演进过程下图 9 所示。

  • 部分特色

部分特色类分类算法,将工夫序列中的一部分子序列作为特色用于工夫序列分类。该类算法的关键在于寻找可能辨别类别的部分特色。因为子序列更短,因而构建的分类器速度更快,但须要肯定的工夫来寻找部分特色。

  • 典型部分特色算法 - 距离(interval)

部分特色类中的距离法将工夫序列划分为几个距离区间(interval),从每个区间中提取特色。该类办法实用于长序列中带有相位依赖并具备区分度的子序列,以及噪声。基于距离的工夫序列分类算法倒退历程下图所示。

  • 典型部分特色算法 -shapelet

shapelet 分类算法通过在序列中查找最具分别性的子序列用于分类,其中 shapelet 指一个与地位无关的最佳匹配子序列。该类算法实用于能够通过序列中的一种模式定义一个类,然而与模式的地位无关的分类问题。例如后面的心电图异样案例,异样可能产生在任何地位,通过序列的异样点序列段能够进行分类。

shapelet 算法的特点是可解释性强,如下图所示,通过 Class27、Class28、Class32 三条序列的匹配后果,能够分明地理解匹配后果的起因。

  • 典型部分特色算法 - 字典类

shapelet 分类算法因为须要破费大量工夫搜寻子序列,因而更实用于短序列。对于长序列中一种模式重复呈现的工夫序列,更实用于一种叫做 dict 字典类的分类算法。该类算法以序列中子序列的反复频率作为特色进行分类。首先对序列进行降维和符号化示意,造成单词序列,而后依据单词序列中的单词散布状况进行分类。字典类分类算法的演进过程如下图所示。

开源福利

云智慧已开源数据可视化编排平台 FlyFish。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置,面向简单需要场景可能保障高效开发与交付。

点击下方地址链接,欢送大家给 FlyFish 点赞送 Star。参加组件开发,更有万元现金等你来拿。

GitHub 地址:https://github.com/CloudWise-…

Gitee 地址:https://gitee.com/CloudWise/f…

万元现金福利: http://bbs.aiops.cloudwise.co…

微信扫描辨认下方二维码,备注【飞鱼】退出 AIOps 社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~

正文完
 0