预测是数据迷信中的一个热门但又艰难的问题。挑战的呈现有几个起因,从非平稳性到噪声、缺失值等等。如何解决这些问题可能是进步预测性能的要害。
工夫序列是一系列按工夫排序的值。预测这些数据集的要害是察看时序之间的工夫依赖性,以及过来产生的事件是如何影响将来的。
但以下 8 个起因可能是影响时序预测可靠性(预测性能)的次要起因:
1. 非平稳性
平稳性是工夫序列中的一个外围概念。如果工夫序列的统计量(比方平均水平)不随工夫变动,则该工夫序列是安稳的,其察看后果不依赖于察看它们的工夫。
许多现有的时序预测办法都假如工夫序列是安稳的,但 趋势 或季节性 等因素毁坏了平稳性。转换工夫序列能够缩小这个问题,比方对时序数据进行差分、取对数等等,将非安稳转换为安稳数据,并可通过几种办法测验工夫序列是否安稳,比方单位根测验(ADF)、KPSS-test 等。
2. 预测步长过长
预测通常被定义为预测工夫序列的下一个值。但提前预测许多值具备重要的理论劣势,它缩小了长期的不确定性,从而可能更好地制订商业作战打算。
预测更远的将来必然会减少不确定性,因而,预测更长的时间段变得更加艰难。
3. 对常见事件的关注
通常,咱们对预测常见状况更加关注,这些是散布的尾部。以能源生产为例,预测用电顶峰对于治理电网的供需至关重要。
通常状况下,常见的事件会带来重大的长期结果,典型的例子是股市崩盘,这些事件会导致许多投资者的财务破产。常见的事件可能会影响数据分布,从而使以后的模型过期。对于这些状况以及它们是如何产生的信息很少,因而很难预测它们。
有几种办法能够改良极值的预测:
- 应用老本敏感模型;
- 利用面向极其状况的统计散布;
- 从新采样训练数据的散布。
4. 额定的依赖关系和维度
除了工夫之外,工夫序列通常还有额定的依赖关系。时空数据是一个常见的例子,每个察看在二维上是相干的,有本人的滞后(工夫依赖性)和左近地位的滞后(空间依赖性)。时空数据是多元工夫序列的一个非凡实例。
这些工夫序列由多个变量示意,额定变量可能蕴含贵重的信息。因而,对它们进行建模对于进步预测性能可能至关重要。
5. 变点
事物会随着工夫的推移而变动,代表这些事物的工夫序列的数据分布也是如此,重大变动被称为 变点(Change Points)。当它们忽然产生时,这些变动被称为构造断裂。有时变动点是已知的,比方市场解体或和平暴发,这深刻影响了组织的运作形式。
随着工夫的推移,散布曾经扭转了,旧的察看没有以前有用,然而对于新散布的信息又很少。检测和适应变动对于放弃模型最更新很重要。
6. 低信噪比
直观地讲,信噪比量化了工夫序列的可预测性。
信号是数据的相干局部,也是试图建模和了解的货色。然而,这个信号常常被乐音或看似随机的、不可预测的稳定所覆盖。
有时候这种乐音可能是咱们不足畛域常识,不晓得哪些因素影响了数据,或者这些因素很难量化。所以序列的变动看起来比拟随机,典型的例子就是金融数据,低信噪比数据是普遍存在的。
7. 噪声和缺失值
噪声可能源于数据采集有余。比方噪声、缺失值可能是因为设施故障引起的,传感器故障导致数据失落或者存在烦扰,导致谬误读数。
噪声也可能是因为谬误的标签而产生的,当正文者给数据调配了谬误的标签时就会呈现这种状况。
适当的预处理步骤能够帮忙加强序列的信号,比方卡尔曼滤波器或指数平滑。
8. 小样本量
有些时候,工夫序列蕴含大量的观测值,在这种状况下,算法可能没有足够的数据来建设适当的模型。
这个问题可能是因为 采样频率低 造成的。例如,工夫序列只按月或按年观测,或者它们所代表的事物很少产生,比方极其天气事件。在批发行业,还可能会遇到冷启动问题,指的是新推出的产品信息很少的状况。
数据的不足可能是因为变点引起的(见上文第 5 点),如果产生重大变动,历史数据就会过期,须要反映新散布的新数据。
数据不足的问题能够通过应用全局预测模型来缓解(Lightgbm YYDS!),这些模型利用许多工夫序列来构建模型。
小结
在本文中形容了在时序预测工作中常遇到的 8 个挑战:
- 非平稳性:当数据统计量随工夫扭转时;
- 多步预测:对长期预测的需要;
- 极值:对极其事件更关注;
- 额定的依赖:对预测至关重要的额定变量;
- 变点:检测散布的变动;
- 低信噪比:当工夫序列具备低可预测性;
- 乐音:数据中的随机稳定;
- 小样本:当没有足够的数据;
公众号:DS 数说
作者:xihuishaw
欢送关注我的公众号DS 数说,原创技术文章第一工夫推送。
原链接传送门:https://mp.weixin.qq.com/s?__…