下图显示了对于不同类型葡萄酒销量的月度多元工夫序列。每种葡萄酒类型都是工夫序列中的一个变量。
假如要预测其中一个变量。比方,sparkling wine。如何建设一个模型来进行预测呢?
一种常见的办法是将该变量其视为单变量工夫序列。这样就有很多办法能够用来模仿这些系列。比方 ARIMA、指数平滑或 Facebook 的 Prophet,还有自回归的机器学习办法也能够应用。
然而其余变量可能蕴含 sparkling wine 将来销售的重要线索。看看上面的相关矩阵。
能够看到 sparkling wine 的销量 (第二排) 与其余葡萄酒的销量有相当的相关性。所以在模型中蕴含这些变量可能是一个好主见。
本文将介绍能够通过一种称为自回归散布滞后 (ARDL) 的办法来做到这一点。
Auto-Regressive Distributed Lag
ARDL 模型采纳自回归。自回归是大多数单变量工夫序列模型的根底。它次要分为两个步骤。
首先将 (单变量) 工夫序列从一个值序列转换为一个矩阵。能够用用延时嵌入法(time delay embedding)来做到这一点。只管名字很花哨,但这种办法非常简单。它基于之前的最近值对每个值进行建模。而后建设一个回归模型。将来值示意指标变量。解释变量是过来最近的值。
多元工夫序列的思路与此相似,咱们能够将其余变量的过来值增加到解释变量中。这就是了被称为自回归分布式滞后办法。分布式滞后的意思指的是应用额定变量的滞后。
当初咱们把他们进行整合,工夫序列中一个变量的将来值取决于它本身的滞后值以及其余变量的滞后值。
代码实现
多变量工夫序列通常是指许多相干产品的销售数据。咱们这里以葡萄酒销售工夫序列为例。当然 ARDL 办法也实用于批发以外的其余畛域。
转换工夫序列
首先应用上面的脚本转换工夫序列。
import pandas as pd
# https://github.com/vcerqueira/blog/
from src.tde import time_delay_embedding
wine = pd.read_csv('data/wine_sales.csv', parse_dates=['date'])
# setting date as index
wine.set_index('date', inplace=True)
# you can simulate some data with the following code
# wine = pd.DataFrame(np.random.random((100, 6)),
# columns=['Fortified','Drywhite','Sweetwhite',
# 'Red','Rose','Sparkling'])
# create data set with lagged features using time delay embedding
wine_ds = []
for col in wine:
col_df = time_delay_embedding(wine[col], n_lags=12, horizon=6)
wine_ds.append(col_df)
# concatenating all variables
wine_df = pd.concat(wine_ds, axis=1).dropna()
# defining target (Y) and explanatory variables (X)
predictor_variables = wine_df.columns.str.contains('\(t\-')
target_variables = wine_df.columns.str.contains('Sparkling\(t\+')
X = wine_df.iloc[:, predictor_variables]
Y = wine_df.iloc[:, target_variables]
将 time_delay_embedding 函数利用于工夫序列中的每个变量(第 18-22 行)。第 23 即将后果与咱们的数据集进行合并。
解释变量 (X) 是每个变量在每个工夫步长的最初 12 个已知值(第 29 行)。以下是它们如何查找滞后 t-1(为简洁起见省略了其余滞后值):
指标变量在第 30 行中定义。这指的是将来销售的 6 个值:
建设模型
筹备好数据之后,就能够构建模型了。应用随机森林进行一个简略的训练和测试循环。
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error as mae
from sklearn.ensemble import RandomForestRegressor
# train/test split
X_tr, X_ts, Y_tr, Y_ts = train_test_split(X, Y, test_size=0.3, shuffle=False)
# fitting a RF model
model = RandomForestRegressor()
model.fit(X_tr, Y_tr)
# getting forecasts for the test set
preds = model.predict(X_ts)
# computing MAE error
print(mae(Y_ts, preds))
# 288.13
拟合模型之后(第 11 行),失去了测试集中的预测(第 14 行)。该模型的均匀绝对误差为 288.13。
滞后参数的抉择
下面的基线应用每个变量的 12 个滞后作为解释变量。这是在函数 time_delay_embedding 的参数 n_lags 中定义的。那么应该如何设置这个参数的值呢?
很难先验地说应该包含多少值,因为 这取决于输出数据和特定变量。
解决这个问题的一种简略办法是应用特征选择。从相当数量的值开始,而后依据重要性评分或预测性能来批改这个数字,或者间接应用 GridSearch 进行超参数的搜寻。
咱们这里将简略的演示一个判断的过程:依据随机森林的重要性得分抉择前 10 个特色。
# getting importance scores from previous model
importance_scores = pd.Series(dict(zip(X_tr.columns, model.feature_importances_)))
# getting top 10 features
top_10_features = importance_scores.sort_values(ascending=False)[:10]
top_10_features_nm = top_10_features.index
X_tr_top = X_tr[top_10_features_nm]
X_ts_top = X_ts[top_10_features_nm]
# re-fitting the model
model_top_features = RandomForestRegressor()
model_top_features.fit(X_tr_top, Y_tr)
# getting forecasts for the test set
preds_topf = model_top_features.predict(X_ts_top)
# computing MAE error
print(mae(Y_ts, preds_topf))
# 274.36
前 10 个特色比原始预测显示出更好的预测性能。以下是这些性能的重要性:
指标变量 (Sparkling) 的滞后是最重要的。然而其余变量的一些滞后也是相干的。
ARDL 的扩大
多个指标变量预测,目前为止,咱们都在预测单个变量(sparkling wine)。如果咱们想要同时预测几个变量呢?
这种办法被称为:向量自回归 (VAR)
就像在 ARDL 中一样,每个变量都是依据其滞后和其余变量的滞后建模的。当想要预测多个变量而不仅仅是一个变量时,将应用 VAR。
与全局预测模型的关系
值得注意的是,ARDL 并不等同于全局预测模型(Global Forecasting Models)。
在 ARDL 的前提下,每个变量的信息被增加到解释变量中。变量的数量通常很少,且大小雷同。
全局预测模型会集了许多工夫序列的历史观测后果。模型通过这些所有察看后果进行建模。每一个新的工夫序列都是作为新的察看后果退出到数据中。全局预测模型通常波及多达数千个工夫序列量级也很大。
总结
本文的次要内容如下:多变量工夫序列蕴含两个或多个变量;ARDL 办法可用于多变量工夫序列的监督学习;应用特征选择策略优化滞后数。如果要预测多个变量,能够应用 VAR 办法。
最初本文的数据集在这里:
https://avoid.overfit.cn/post/ff41c484a5cc452cbf2caa3071d768c1
作者:Vitor Cerqueira