全文链接:http://tecdat.cn/?p=31948
原文出处:拓端数据部落公众号
本文利用 R 语言的独立成分剖析(ICA)、谱聚类(CS)和反对向量回归 SVR 模型帮忙客户对商店销量进行预测。首先,别离对商店销量的历史数据进行了独立成分剖析,失去了多个独立成分;其次,利用谱聚类办法将商店销量划分成了若干类,并将每个类的特色进行了提取;最初,利用 SVR 模型对所有的商店销量进行预测。试验结果表明,利用 FastICA、CS 和 SVR 模型可能精确预测商店销量。
读取数据
read.csv("train_final.csv")
head(data)
独立成分分析方法(fastICA)
首先对于 d 维的随机变量 x∈Rd×1,咱们假如他的产生过程是由互相独立的源 s∈Rd×1,通过 A∈Rd×d 线性组合产生的 x =As
如果 s 的遵从高斯分布的,那么故事完结,咱们不能复原出惟一的 s,因为不论哪个方向都是等价的。而如果 s 是非高斯的,那么咱们心愿找到 w 从而 s=wTx,使得 s 之间的互相独立就能够复原出 s 了,我将在前面指出,这等价于最大化每个 s 的非高斯性。
采纳独立成分分析方法(fastICA),失去矩阵 W,A 和 ICs 等独立成分后果(是否须要 pca 降维?)。
reeplot(prcomp(
谱聚类
谱聚类(spectral cluster),这里的谱指的是某个矩阵的特征值,该矩阵是什么,什么得来的,以及在聚类中的作用将会在下文解一一道来。谱聚类的思维来源于图论,它把待聚类的数据集中的每一个样本看做是图中一个顶点,这些顶点连贯在一起,连贯的这些边上有权重,权重的大小示意这些样本之间的类似水平。同一类的顶点它们的类似水平很高,在图论中体现为同一类的顶点中连贯它们的边的权重很大,不在同一类的顶点连贯它们的边的权重很小。于是谱聚类的最终目标就是找到一种切割图的办法,使得切割之后的各个子图内的权重很大,子图之间的权重很小。
采纳谱聚类形式对所有矩阵的列进行聚类,失去两到三种不同的聚类后果(如何)。
谱聚类聚成 2 个类别
sc <- spec
聚成 3 个类别
SVR 模型
SVR 是反对向量机(SVM)的重要利用分支。通过 SVR 算法,能够找到一个回归立体并使得一个汇合中的所有数据间隔该立体的间隔最短。
应用场景
SVR 是一个回归模型,次要是用于拟合数值,个别利用于特色较为稠密且特色数较少的场景。
例如,能够应用 SVR 回归模型来预测某个城市的温度。输出特色有很多,例如这个城市某个期间的平均温度、绿化水平、湖泊数量以及日期等。训练数据能够是一段时间内的城市温度。
对所有数据采纳 log 标准化解决,而后对不同的类的训练集别离采纳 SVR 模型训练,再用测试集失去测试后果
所需后果:
k 个不同模式工夫序列图(分属不同类的某个部门工夫序列),表征不同类之间的差别与同类之内的类似.
pre=SVRModel
不同类测试集所采纳 SVR 模型的不同参数(C,ε,σ)。
不同类测试集所采纳 SVR 模型之后的预测后果(RMSE,MAD,MAPE,MPE),
RMSE(test,yHat)
## [1] 0.1354805
MAE(test,yHat)
## [1] 0.1109939
MAPE(test,yHat)
## [1] 1.099158
#MPE
ftsa::error(forecast =yHat, true = test, method = "mpe")
## [1] 1.099158
预测模型
预测模型退出工夫序列向前 1 周,2 周,3 周,4 周时的数据作为输出变量,采纳不同聚类形式所得预测后果。
向前 2 周
不同类测试集所采纳 SVR 模型之后的预测后果(RMSE,MAD,MAPE,MPE)
RMSE(test,yHat)
## [1] 0.09735726
MAE(test,yHat)
## [1] 0.0655883
MAPE(test,yHat)
## [1] 0.6538239
#MPE
ftsa::error(forecast =yHat, true = test, method = "mpe")
## [1] 0.467259
最受欢迎的见解
1. R 语言 k -Shape 算法股票价格工夫序列聚类
2. R 语言基于温度对城市档次聚类、kmean 聚类、主成分剖析和 Voronoi 图
3. R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归
4. r 语言鸢尾花 iris 数据集的档次聚类
5.Python Monte Carlo K-Means 聚类实战
6. 用 R 进行网站评论文本开掘聚类
7. R 语言 KMEANS 均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化 **
8.PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和 KMEANS 聚类用户画像
9. R 语言基于 Keras 的小数据集深度学习图像分类