一.问题背景。

题目链接
企业外部环境不稳固,供应链问题面临较多难题。当初给定数据集,包含不同地区,各个工夫,销售价格和需求量的状况。
让咱们去预测将来几个月的需求量的状况。
第一问:
(1) 产品的不同价格对需求量的影响;

(2) 产品所在区域对需求量的影响,以及不同区域的产品需求量有何个性;

(3) 不同销售形式(线上和线下)的产品需求量的个性;

(4) 不同品类之间的产品需求量有何不同点和共同点;

(5) 不同时间段(例如月头、月中、月末等)产品需求量有何个性;

(6) 节假日对产品需求量的影响;

(7) 促销(如618、双十一等)对产品需求量的影响;

(8) 节令因素对产品需求量的影响。
第二问:
对附件预测数据(predict_sku1.csv)中给出的产品,预测将来3月(即2019年1月、2月、3月)的月需求量。
并别离按天、周、月的工夫粒度进行预测,试剖析不同的预测粒度对预测精度会产生什么样的影响。

二.解题。

间接说一下建模最重要的局部。
首先这是一个工夫序列问题,依照题目要求,分为日粒度,周粒度和月粒度别离进行剖析,所以别离先对日周月进行预处理。

预处理和模型介绍

包含非凡日期对需求量的影响,所以间接将节假日和促销节给剔除掉。
第一问剖析,节令对产品的影响,发现节令它是呈周期性的法则变动的,所以是一个季节性工夫序列问题,那么咱们模型就采纳统计学上的sarimax算法,如果不是周期性的就采纳arima算法。
arima就是arma算法中最经典的一种,

开始建模

对sarimax算法进行建模的要保障两个条件。
1.这个工夫序列是一个安稳序列。
均值没有零碎的变动,方差没有零碎变动,那么就阐明是一个安稳的,才有法则可言,预测进去的后果才有意义。
2.这个工夫序列是一个非白噪声序列。
非白噪声就是纯随机序列,各序列之间没有关系,没有记忆。满足这两个条件剖析才有价值。
如果不满足的话,就是进行一阶二阶差分,让它满足这两个条件,也就相当于提取出了序列的安稳且随机的数据。
(细节就是,adf测验来测验平稳性)
模型训练过程中,就是pdq这三个参数,
p是节令自回归的阶数
d节令差分的次数
q是节令挪动均匀的阶数
个别不会超过3.
训练出最好的pdq。失去模型。

后处理

最初做一个残差测验。
因为,咱们对数据是假如他是满足正太散布的,做这个货色就保障咱们拟合是正确的。

最初先把泰迪杯的论文,数据留在桌面吧~到时候复盘。