背景
现如今,随着企业业务零碎越来越简单,单指标工夫序列预测已不能满足大部分企业需要。在简单的零碎内,如果采纳繁多的指标进行工夫序列预测,因为各个指标相互作用的关系,因而会因为漏掉局部指标因素导致呈现预测精确度降落的状况。基于以上背景,多指标工夫序列预测呈现了。多指标工夫序列预测能够将目标值波及到的所有因素均思考在内,因而进步了预测的准确性。
工夫序列概念
工夫序列是一组依照工夫产生先后顺序进行排列的数据点序列。具备以下特点:
- 通常一组工夫序列的工夫距离为一恒定值;
- 往往具备有意义的可探索的特色,如趋势性、周期性等;
- 工夫序列会蕴含肯定水平的乐音,即随机特色。
预测的根本工作
单指标时序预测工作是给定某一个指标的历史变动状况,预测其在将来一段时间内的变动。多指标时序预测工作则是给定某几个指标的历史变动状况,预测其在将来一段时间内的变动。多指标时序预测工作与单指标时序预测工作的区别在于几个指标之间不肯定互相独立,而是存在某种影响。
评估指标
下图为工夫序列模型罕用评估指。在应用过程中,需依据理论的数据特色和指标个性进行抉择。
预测形式
示例:假如一个工夫序列为 [1,2,3,4,5,6,7,8,9,10,X,Y,Z],通过 [1,2,3,4,5,6,7,8,9,10] 预测 [X,Y,Z]。
-
单步预测
单步预测是用 [8,9,10] 预测 [X]。即通过过来三个工夫戳的值 [8,9,10] 来预测将来一个工夫点的值,该模型也叫三阶滞后模型。
-
间接多步预测
间接多步预测是先通过 [8,9,10] 预测 [X],同样的办法通过 [8,9,10] 预测 [Y] 和 [Z]。该形式的毛病是预测多少个工夫点的值就须要构建多少个模型,因而计算的工夫和空间复杂度均十分高。
- model1:[1,2,3,4,5,6,7,8,9],[X]
- model2:[1,2,3,4,5,6,7,8,9],[Y]
- model3:[1,2,3,4,5,6,7,8,9],[Z]
-
递归多步预测
递归多步预测是通过 [8,9,10] 预测 [X],随后依据预测到的 [X] 加 [9,10] 预测 [Y]。该形式因为是通过预测失去的值再次预测,因而会造成误差累计的状况,从而预测后果的精准度会继续降落。
- [8,9,10] 失去 prediction(X);
- [9,10,prediction(x)],而后 prediction(y),顺次类推。
-
混合模型
混合模型汇合了间接多步预测和递归多步预测的长处。通过 [8,9,10] 预测 [X],随后依据预测到的 [X] 加 [8,9,10] 预测 [Y]。
- [8,9,10] 预测 [X],
- [8,9,10,pre(X)] 预测 [Y]
-
多输入预测
多输入预测是通过 [8,9,10] 间接一次性将 [X,Y,Z] 预测进去。
- [8,9,10] 预测 [X,Y,Z]
时序特色工程
经调研,时序特色工程应从工夫戳衍生特色、时序值衍生特色、属性变量衍生特色以及非凡周期性结构四方面着手。
工夫戳衍生
工夫戳衍生进去的变量蕴含工夫特色、布尔特色、时间差特色三大类。
工夫特色: 蕴含年、季度、月、周、天(一年、一月、一周的第几天)、小时、分钟等。
布尔特色: 蕴含是否年初 / 年末、是否月初 / 月末、是否周末、是否节假日、是否非凡日期、是否早上 / 中午 / 早晨等。
时间差特色: 蕴含间隔年初 / 年末的天数、间隔月初 / 月末的天数、间隔周末的天数、间隔节假日的天数以及间隔非凡日期的天数等。
时序值衍生
时序值衍生进去的变量蕴含滞后特色、滑动窗口统计、扩大窗口统计三大类型。
滑动窗口统计: 工夫序列的一个重要个性就是以后或将来预测值与历史值是非亲非故的,通过滑动窗口结构窗口统计量则能够解决数值之前这种强互相关系的问题。
扩大窗口统计: 扩大窗口用来统计的数据是整个序列全副的数据,统计值能够是平均数、中位数、标准差、最大值、最小值等,这种特色个别是用在多序列建模,比方不同的股票价格,可能会有着不同的外在属性,在预测的时候用这个特色作为辨别也是一种形式。
滞后特色: 滞后特色是一种非凡的滑动窗口。如下图所示,若需预测 2012/10/2/ 15:00 的值 [5584],假如工夫窗口长度为 3,则能够应用 [5026,4918,5181] 进行预测。如果将 y 向下挪动一个工夫窗口,结构多个工夫特色,则能够看出下图竖列的蓝色框能够变成横向的蓝色框,此时如需预测下图黄色框问号处的值,必然采纳的是 [4918,5181,5584]。
属性变量衍生的特色
连续变量衍生
一个序列可能会伴有多个连续变量的特色,比如说对于股票数据,除了收盘价,可能还会有成交量、开盘价等随同的特色,对于销量数据,可能还会随同有价格的特色。对于这种连续变量,能够间接作为一个特色,也能够像之前时序值衍生的特色那样做解决,或者也能够与先前的数据做差值,比方 t 时刻的价格减去 t - 1 时刻的价格。
类别变量衍生
对于类别型变量,如果类别比拟少,个别在机器学习里做的解决是 one-hot encoding,然而如果类别一多,那么生成的特色是会很多的,容易造成维度劫难,然而也不能轻易用 label encoding,因为很多时候类别是不反馈程序的,如果给他编码成 1、2、3、4、5,对于一些树模型来说,在决裂节点的时候可不论这些是类别型还是连续型,统统当作连续型来解决,这是有先后顺序的,必定不能这么做。所以就有这么一种形式,就是和 y 做特色交互,比方预测销量,有一个特色是产品类别,那么就能够统计下这个产品类别下的销量均值、标准差等,这种其实也算是下面扩大窗口统计的一种。
非凡周期性变动
工夫序列是有周期性的,比方一天、一周或是一年。因为 sin 与 cos 函数均只能体现半周期性,故工夫序列的周期性需通过结构 sin 与 cos 函数作为两列特色来提前全周期性。
工夫序列整体预测流程
下图为工夫序列整体预测流程图。右边蓝色框为特色工程,当获取到原始数据时,需先判断是否思考工夫戳信息,是否思考星期信息,是否思考周末信息等。随后与人工输出的节假日信息矩阵造成特色矩阵 A。此时,所有的工夫戳信息均已思考残缺,然而仍短少了工夫序列自身的滞后个性。此时,随红色箭头达到下图右侧,判断是否思考工夫序列滞后个性,判断结束后,造成全新组合 B,随后将组合 B 输出进模型,通过间断递归计算最终数值。
开源我的项目举荐
云智慧已开源数据可视化编排平台 FlyFish。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置,面向简单需要场景可能保障高效开发与交付。
如果喜爱咱们的我的项目,请不要遗记点击下方代码仓库地址,在 GitHub / Gitee 仓库上点个 Star,咱们须要您的激励与反对。此外,即刻参加 FlyFish 我的项目奉献成为 FlyFish Contributor 的同时更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee 地址: https://gitee.com/CloudWise/f…
微信扫描辨认下方二维码,备注【飞鱼】退出 AIOps 社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~