关于机器学习:译-层次时间序列预测法

3次阅读

共计 2410 个字符,预计需要花费 7 分钟才能阅读完成。

大多数对于工夫序列预测的文章都侧重于特定的聚合水平。然而,当咱们可能深入分析聚合的数据,以便在更细粒度的档次上察看同一个序列时,挑战就呈现了。在这种状况下,咱们往往会发现,对较低水平的预测与总体预测并不统一。为了确保不会呈现这种状况,咱们能够采纳一种称为分层工夫序列 (HTS) 预测的办法。

实践介绍

咱们从数据开始介绍,在探讨聚合和合成的工夫序列时,咱们能够辨别两种状况。通过剖析一个例子能够很容易地了解它们:假如咱们是一个在线零售商,在许多市场上销售不同品种的产品(比方亚马逊)。

第一种状况波及数据的清晰的层次结构,其中较低的级别惟一地嵌套在较高级别的组中。最简略的例子就是天文上的决裂。作为零售商,咱们能够查看所有市场的总销售额,而后按国家分类。如果有必要,咱们能够更深刻地钻研每个地区的销售状况(比方美国各州等等)。当咱们的数据遵循这样的构造时,咱们就是在解决分层的工夫序列。

第二种状况波及工夫序列,其中各级是穿插的,而不是嵌套的。作为一个零售商,咱们能够有多层次的细节: 产品类别,价格范畴,咱们本人的产品绝对于第三方销售的产品,等等。有了这样的决裂,就没有繁多的“正确”的聚合形式。在这种状况下,咱们应用分组的工夫序列。

当然,当咱们联结剖析地理位置和产品类别时,分层和分组的工夫序列能够混合成一个更加简单的构造。

分级工夫序列预测的全副挑战 (这个名称还包含分组和混合案例,只是为了更分明) 是生成整个聚合构造的统一预测。所谓连贯性,我指的是以与根本聚合构造相一致的形式累加的预测。例如,所有区域的预测应该减少到国家程度,所有国家程度减少到更高的程度,等等。或者,能够和谐不连贯的预测,使它们连贯统一。

还有一点须要廓清的是,层次化的工夫序列预测自身并不是一种工夫序列预测办法(如 ARIMA、ETS 或 Prophet)。相同,它是不同技术的汇合,使预测在给定的集体工夫序列档次中统一。

上面,咱们将介绍工夫序列分层预测的次要办法。

自下而上的办法

在自下而上的办法中,咱们预测层次结构的最细粒度级别,而后聚合预测以创立更高级别的预计。回到在线零售商的最后例子,咱们将预测每个地区的销售额,而后将这些总和来创立对各自国家的预测。咱们能够再次求和失去大陆 / 地区的程度,而后最终失去总和。

长处:

  • 因为预报是在最低水平上取得的,因而不会因为汇总而失去信息。

毛病:

  • 序列之间的关系 (例如,不同地区之间的关系) 没有被思考
  • 往往在高度聚合的数据上体现不佳
  • 计算密集型(取决于工作和较低层级的级数)
  • 数据中的乐音越大,预报的整体准确性就越差

自上而下的办法

自顶向下的办法包含预测层次结构的顶层,而后将预测合成为更细粒度的序列。最常见的是,历史比例是用来确定决裂。举个例子,咱们能够预测总体水平。而后,看看过来的数据,咱们能够推断美国占了销售额的 50%,欧洲占了 40%。而后,咱们能够迭代并将该系列合成为更细粒度的级别。

长处:

  • 最简略的办法
  • 对较高层次的预测是牢靠的
  • 只须要一个预报

毛病:

  • 因为信息失落(通过历史比例),较低水平的预测不太精确。

从中扩散的办法

从中扩散是上述两种办法的联合,只能用于严格分层的工夫序列。在这种办法中,咱们抉择中间层并间接进行预测。而后,对于所选级别以上的所有级别,咱们应用自下而上的办法ーー将级别向上加总。对于中间层以下的级别,咱们应用自顶向下的办法。

因为这是两种不同办法之间的折衷,因而得出的预测不会失落太多信息,而且计算工夫也不会像自下而上的办法那样爆炸。

最优协调办法

下面形容的三种办法侧重于在繁多程度上预测工夫序列,而后应用这些来推断其余的程度。与之相同,在最优协调办法中,咱们应用给定层次结构能够提供的所有信息和关系来预测每个级别。

在这种办法中,咱们假如根底预测 (对于所有级别的序列中的每个级别) 近似满足层次结构。这意味着预测应该绝对精确,而不是扭曲均衡。而后,咱们应用线性回归模型来和谐个别的预测。实际上,连贯的预测是所有各级根底预测的加权和。为了找到权重,咱们须要解决一个方程组,以确保不同档次之间的档次关系被保留。

长处:

  • 更精确的预测
  • 以起码的信息损失在各级进行无偏预测
  • 思考到工夫序列之间的关系
  • 因为每个预测都是独立创立的,该办法容许在每个级别应用不同的预测办法(ARIMA、ETS、Prophet 等)。此外,不同的级别能够应用不同的个性集,因为某些变量在给定的粒度级别上可能不可用。

毛病:

  • 最简单的办法
  • 能够是计算密集型的ー不能很好地实用于大量的级数

论断

在本文中,我简要介绍了档次工夫序列预测,并形容了用于应答这一挑战的最风行的办法。一个不言而喻的问题是应用哪种办法。你可能曾经猜到了,答案是: 这要看状况。

前三种办法往往偏差于它们所预测的程度,这在直观上是有情理的。因而,当取得一个特定程度的精确预测是最重要的,咱们心愿取得其余作为副产品,咱们可能心愿从一个更简略的办法开始,看看咱们是否称心。

否则,咱们可能会钻研在层次结构的所有级别上偏向于相当精确的最佳协调办法。现实状况下,咱们能够尝试所有不同的办法,同时采纳某种工夫序列 / 穿插验证计划来评估每个办法的性能,并抉择一个最适宜咱们的问题。

参考资料

原文作者:Eryk Lewinson 译者:Harry Zhu 英文原文地址:
https://towardsdatascience.com/introduction-to-hierarchical-time-series-forecasting-part-i-88a116f2e2

作为分享主义者 (sharism),自己所有互联网公布的图文均听从 CC 版权,转载请保留作者信息并注明作者 Harry Zhu 的 FinanceR 专栏:https://segmentfault.com/blog…,如果波及源代码请注明 GitHub 地址:https://github.com/harryprince。微信号: harryzhustudio
商业应用请分割作者。

正文完
 0