关于时间:基于ARIMASVM随机森林销售的时间序列预测

11次阅读

共计 1886 个字符,预计需要花费 5 分钟才能阅读完成。

原文链接 http://tecdat.cn/?p=1130

现在 DT(Data technology) 时代,数据变得越来越重要,其外围利用”预测“也成为互联网行业以及产业改革的重要力量。对于批发行业来说,预测简直是商业智能(BI)钻研的终极问题,单纯从机器学习的角度来说,做到精准预测很容易,然而联合业务进步企业利润却很难。预测精确性是外围痛点。

业务挑战

针对服装这类的时尚产业的客户需要,咱们参考 ZARA,将产品粗略分为: 根本款和时装。对于根本款,每年都没什么大变动,国内风行的影响也不大,那么能够进行长打算生产。对于时装,决定潮流走向的决策权不在某个区域,一个中央的买手们也没有成长到能够精确预判国内风行趋势,所以须要联合不同区域的各种因素,进行预测。对应的,在新货形成中,销量预测策略为:根本款打算生产,时尚款机动调整。

解决方案

工作 / 指标

依据服装批发业务营销要求,使用多种数据源剖析实现精准销量预测。

数据源筹备

沙子进来沙子出,金子进来金子出。无数据或数据品质低,会影响模型预测成果。在建设的一个正当的模型之前,对数据要进行收集,收集除已有销量数据之外的额定信息(比方天气、地点、节假日信息等),再在收集的数据根底上进行预处理。

有了数据,然而有一部分特色是算法不能间接解决的,还有一部分数据是算法不能间接利用的。

特色转换

把不能解决的特色做一些转换,解决成算法容易解决的洁净特色。举例如下:

销售日期。就工夫属性自身来说,对模型来说不具备任何意义,须要把日期转变成到年份、月份、日、周伪变量。

产品特色。从产品信息表外面能够失去样式、色彩、质地以及这款产品是否是限量版等。然而并没有这些变量。这就须要咱们从产品名字抽取这款产品的上述特色。

以上例举的只是局部特色。

结构

以上阐明了如何抽取相干特色,咱们大抵有如下训练样本(只列举局部特色)。

划分训练集和测试集

思考到最终模型会预测未来的某时间段的销量,为了更实在的测试模型成果,以工夫来切分训练集和测试集。具体做法如下:假如咱们有 2014-02-01 ~ 2017-06-17 的销量相干数据。以 2014-02-01 ~ 2016-03-19 的销量数据作为训练,2016-03-20~2017-06-17 的数据作为测试。

建模

ARIMA,个别利用在股票和电商销量畛域

ARIMA 模型是指将非安稳工夫序列转化为安稳工夫序列,而后将后果变量做自回归(AR)和自平移(MA)。

随机森林

用随机的形式建设一个森林,森林由很多决策树组成,随机森林的每一棵决策树之间是没有关联的。在失去森林之后,当有一个新的输出样本进入的时候,就让森林中的每一棵决策树别离进行一下判断,看看这个样本应该属于哪一类(对于分类算法),而后看看哪一类被抉择最多,就预测这个样本为那一类。

反对向量回归(SVR)

SVR 最实质与 SVM 相似,都有一个 margin,只不过 SVM 的 margin 是把两种类型离开,而 SVR 的 margin 是指外面的数据会不会对回归有帮忙。

模型优化

1. 上线之前的优化:特征提取,样本抽样,参数调参。

2. 上线之后的迭代,依据理论的 A /B testing 和业务人员的倡议改良模型

从上图能够看出,在此案例中,svm 和随机森林算法模型的预测误差最小,使用 3 种办法预测某商品的销量,其可视化图形如下:

能够看出,销量的预测值的趋势曾经根本与实在销量趋势保持一致,然而在预测期较长的区间段,其预测值之间的差异较大。

评估成果不能只看销量,要综合思考,须要参考业务对接、预测精度、模型可解释性和产业链整体能力等因素综合思考;不能简略作为企业利润减少的唯一标准。咱们的教训是,预测后果仅作为参考一个权重值,还须要专家意见,依照肯定的权重来计算。

瞻望

除了以上列举的一些办法,咱们曾经在尝试更简单的销售预测模型,如 HMM、深度学习(Long Short-Term Memory 网络、卷积神经网络(CNN))等;同时须要思考到模型的可解释性、可落地性和可扩展性、防止“黑箱”预测;还在尝试采纳混合的机器学习模型,比方 GLM+SVR,ARIMA + NNET 等。

销售预测简直是商业智能钻研的终极问题,即使通过机器学习算法模型可能进步测试集的预测精度,然而对于将来数据集的预测,想做到精准预测以使企业利润最大化,还须要思考机器学习模型之外的企业自身因素。比方,企业的整体供应链能力等,如何将企业因素退出到机器学习模型之中,是将来预销售预测的一个难点与方向。因而,要想解决销售预测终极问题还有一段路要走。

 

点击“浏览原文”下载浏览报告全文。

原文出处:http://tecdat.cn/category/ 大数据部落 /

正文完
 0