关于数据挖掘:基于ARIMASVM随机森林销售的时间序列预测附代码数据

原文链接 http://tecdat.cn/?p=1130

最近咱们被客户要求撰写对于销售工夫序列预测的钻研报告，包含一些图形和统计输入。

现在DT（数据技术）时代，数据变得越来越重要，其外围利用“预测”也成为互联网行业以及产业改革的重要力量。

对于批发行业来说，预测简直是商业智能（BI）钻研的终极问题，单纯从机器学习的角度来说，做到精准预测很容易，然而联合业务进步企业利润却很难。预测精确性是外围痛点。

业务挑战

扎对 ，将产品粗略分为：根本款和时装。 对于根本款，每年都没什么大变动，国内风行的影响也不大，那么能够进行长打算生产。对于时装，决定潮流走向的决策权不在某个区域，一个中央的买手们也没有成长到能够精确预判国内风行趋势，所以须要联合不同区域的各种因素，进行预测。对应的，在新货形成中，销量预测策略为：根本款打算生产，时尚款机动调整。

解决方案

工作/指标

依据服装批发业务营销要求，使用多种数据源剖析实现精准销量预测。

数据源筹备

沙子进来沙子出，金子进来金子出。无数据或数据品质低，会影响模型预测成果。在建设的一个正当的模型之前，对数据要进行收集，收集除已有销量数据之外的额定信息（比方天气，地点，节假日信息等），再在收集的数据根底上进行预处理。

有了数据，然而有一部分特色是算法不能间接解决的，还有一部分数据是算法不能间接利用的。

特色转换

把不能解决的特色做一些转换，解决成算法容易解决的洁净特色举例如下：

销售日期。就工夫属性自身来说，对模型来说不具备任何意义，须要把日期转变成到年份，月份，日，周伪变量。

产品特色。从产品信息表外面能够失去样式，色彩，质地以及这款产品是否是限量版等。然而并没有这些变量。这就须要咱们从产品名字抽取这款产品的上述特色。

以上例举的只是局部特色。

结构

以上阐明了如何抽取相干特色，咱们大抵有如下训练样本（只列举局部特色）。

划分训练集和测试集

思考到最终模型会预测未来的某时间段的销量，为了更实在的测试模型成果，以工夫来切分训练集和测试集。具体做法如下：假如咱们有2014-02-01~2017-06- 17的销量相干数据。以2014-02-01~2016-03-19的销量数据作为训练，2016-03-20~2017-06-17的数据作为测试。

建模

ARIMA， 个别利用在股票和电商销量畛域

ARIMA模型是指将非安稳工夫序列转化为安稳工夫序列，而后将后果变量做自回归（AR）和自平移（MA）。

随机森林

用随机的形式建设一个森林，森林由很多决策树组成，随机森林的每一棵决策树之间是没有关联的。在失去森林之后，当有一个新的输出样本进入的时候，就让森林中的每一棵决策树别离进行一下判断，看看这个样本应该属于哪一类（对于分类算法），而后看看哪一类被抉择最多，就预测这个样本为那一类。

反对向量回归（SVR）

SVR最实质与SVM相似，都有一个缘，只不过SVM的保证金是把两种类型离开，而SVR的保证金是指外面的数据会不会对回归有帮忙。

模型优化

1.上线之前的优化：特征提取，样本抽样，参数调参。

2.上线之后的迭代，依据理论的A / B测试和业务人员的倡议改良模型

点击题目查阅往期内容

数据分享|R语言剖析上海空气质量指数数据：kmean聚类、档次聚类、工夫序列剖析：arima模型、指数平滑法

左右滑动查看更多

从上图能够看出，在此案例中，反对向量机和随机森林算法模型的预测误差最小，使用3种办法预测某商品的销量，其可视化图形如下：

能够看出，销量的预测值的趋势曾经根本与实在销量趋势保持一致，然而在预测期较长的区间段，其预测值之间的差异较大。

评估成果不能只看销量，要综合思考，须要参考业务对接，预测精度，模型可解释性和产业链整体能力等因素综合思考;不能简略作为企业利润减少的唯一标准咱们的教训是，预测后果仅作为参考一个权重值，还须要专家意见，依照肯定的权重来计算。

瞻望

除了以上列举的一些办法，咱们曾经在尝试更简单的销售预测模型，如HMM，深度学习（Long Short-Term Memory网络，卷积神经网络（CNN））等;同时须要思考到模型的可解释性，可落地性和可扩展性，防止“黑箱”预测 ;还在尝试采纳混合的机器学习模型，比方GLM + SVR，ARIMA + NNET等。

销售预测简直是商业智能钻研的终极问题，即使通过机器学习算法模型可能进步测试集的预测精度，然而对于将来数据集的预测，想做到精准预测以使企业利润最大化，还须要思考机器学习模型之外的企业自身因素。比方，企业的整体供应链能力等，如何将企业因素退出到机器学习模型之中，是将来预销售预测的一个难点与方向。因而，要想解决销售预测终极问题还有一段路要走。

点击文末 “浏览原文”

获取全文残缺材料。

本文选自《机器学习助推快时尚精准销售工夫序列预测》。

点击题目查阅往期内容

Python中利用长短期记忆模型LSTM进行工夫序列预测剖析 – 预测电力负荷数据
RNN循环神经网络、LSTM长短期记忆网络实现工夫序列长期利率预测
联合新冠疫情COVID-19股票价格预测：ARIMA，KNN和神经网络工夫序列剖析
深度学习：Keras应用神经网络进行简略文本分类剖析新闻组数据
用PyTorch机器学习神经网络分类预测银行客户散失模型
PYTHON用LSTM长短期记忆神经网络的参数优化办法预测工夫序列洗发水销售数据
Python用Keras神经网络序列模型回归拟合预测、准确度检查和后果可视化
Python用LSTM长短期记忆神经网络对不稳固降雨量工夫序列进行预测剖析
R语言中的神经网络预测工夫序列：多层感知器（MLP）和极限学习机（ELM）数据分析报告
R语言深度学习：用keras神经网络回归模型预测工夫序列数据
Matlab用深度学习长短期记忆（LSTM）神经网络对文本数据进行分类
R语言KERAS深度学习CNN卷积神经网络分类辨认手写数字图像数据（MNIST）
MATLAB中用BP神经网络预测人体脂肪百分比数据
Python中用PyTorch机器学习神经网络分类预测银行客户散失模型
R语言实现CNN（卷积神经网络）模型进行回归数据分析
SAS应用鸢尾花(iris)数据集训练人工神经网络(ANN)模型
【视频】R语言实现CNN（卷积神经网络）模型进行回归数据分析
Python应用神经网络进行简略文本分类
R语言用神经网络改良Nelson-Siegel模型拟合收益率曲线剖析
R语言基于递归神经网络RNN的温度工夫序列预测
R语言神经网络模型预测车辆数量工夫序列
R语言中的BP神经网络模型剖析学生问题
matlab应用长短期记忆（LSTM）神经网络对序列数据进行分类
R语言实现拟合神经网络预测和后果可视化
用R语言实现神经网络预测股票实例
应用PYTHON中KERAS的LSTM递归神经网络进行工夫序列预测
python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译
用于NLP的Python：应用Keras的多标签文本LSTM神经网络分类

关于数据挖掘:基于ARIMASVM随机森林销售的时间序列预测附代码数据

原文链接 http://tecdat.cn/?p=1130

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:基于ARIMASVM随机森林销售的时间序列预测附代码数据

原文链接 http://tecdat.cn/?p=1130

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复