关于数据挖掘:数据挖掘基于sarimax的时间序列预测问题

3次阅读

共计 980 个字符,预计需要花费 3 分钟才能阅读完成。

一. 问题背景。

题目链接
企业外部环境不稳固,供应链问题面临较多难题。当初给定数据集,包含不同地区,各个工夫,销售价格和需求量的状况。
让咱们去预测将来几个月的需求量的状况。
第一问:
(1)产品的不同价格对需求量的影响;

(2)产品所在区域对需求量的影响,以及不同区域的产品需求量有何个性;

(3)不同销售形式(线上和线下)的产品需求量的个性;

(4)不同品类之间的产品需求量有何不同点和共同点;

(5)不同时间段(例如月头、月中、月末等)产品需求量有何个性;

(6)节假日对产品需求量的影响;

(7)促销(如 618、双十一等)对产品需求量的影响;

(8)节令因素对产品需求量的影响。
第二问:
对附件预测数据(predict_sku1.csv)中给出的产品,预测将来 3 月(即 2019 年 1 月、2 月、3 月)的月需求量。
并别离按天、周、月的工夫粒度进行预测,试剖析不同的预测粒度对预测精度会产生什么样的影响。

二. 解题。

间接说一下建模最重要的局部。
首先这是一个工夫序列问题,依照题目要求,分为日粒度,周粒度和月粒度别离进行剖析,所以别离先对日周月进行预处理。

预处理和模型介绍

包含非凡日期对需求量的影响,所以间接将节假日和促销节给剔除掉。
第一问剖析,节令对产品的影响,发现节令它是呈周期性的法则变动的,所以是一个季节性工夫序列问题,那么咱们模型就采纳统计学上的 sarimax 算法,如果不是周期性的就采纳 arima 算法。
arima 就是 arma 算法中最经典的一种,

开始建模

对 sarimax 算法进行建模的要保障两个条件。
1. 这个工夫序列是一个安稳序列。
均值没有零碎的变动,方差没有零碎变动,那么就阐明是一个安稳的,才有法则可言,预测进去的后果才有意义。
2. 这个工夫序列是一个非白噪声序列。
非白噪声就是纯随机序列,各序列之间没有关系,没有记忆。满足这两个条件剖析才有价值。
如果不满足的话,就是进行一阶二阶差分,让它满足这两个条件,也就相当于提取出了序列的安稳且随机的数据。
(细节就是,adf 测验来测验平稳性)
模型训练过程中,就是 pdq 这三个参数,
p 是节令自回归的阶数
d 节令差分的次数
q 是节令挪动均匀的阶数
个别不会超过 3.
训练出最好的 pdq。失去模型。

后处理

最初做一个残差测验。
因为,咱们对数据是假如他是满足正太散布的,做这个货色就保障咱们拟合是正确的。

最初先把泰迪杯的论文,数据留在桌面吧~ 到时候复盘。

正文完
 0