关于数据挖掘:Python基于SVM和RankGauss的低消费指数构建模型

全文链接：https://tecdat.cn/?p=32968

原文出处：拓端数据部落公众号

分析师：Wenyi Shen

校园的温情关心是智慧校园的一项重要内容。通过大数据与数据挖掘技术对学生日常校园内的生产信息进行疾速筛选和比对，建设大数据模型，对校园内须要帮忙的同学进行精准辨认，为高校温情关心提供无效的数据根据。

该我的项目解决的次要问题是如何通过数据挖掘技术筛选和比对学生生产信息，从而自动识别校园内须要帮忙的同学，为高校扶贫提供数据根据。

模型假如与问题剖析

模型假如

三点假如:

没有同学应用本人的账户为别人垫付，每一笔生产均为自己所为。
在全副数据的60天内，认为生产总次数小于80次的为常常点外卖的人，剔除他们，不认为属于低生产人群。
不存在免费谬误的状况。

数据荡涤

剔除工夫异样值

数据共计260多万条条，从20年9月1日6时始终继续到20年10月30日19时。但其中有“9月31日”的数据，咱们将其删除。

为了缩小计算量，咱们从200万条数据里随机选取20000条进行训练，最终取得两个聚类簇，以及各个簇的最大最小值。思考到数据选取的随机性，本文将生产金额80作为异样值阈值，删除所有生产金额大于80的数据，保留下约98%的失常数据。

咱们察看生产价格后发现，有少部分生产金额数据在1000甚至10000以上，这部分数据是异样数据，咱们采纳密度聚类(DBSCAN)算法来寻找一个阈值进行划分。

窗口与价位分类

窗口分类

对数据进行了Z-score标准化，以打消数据中的量纲差别，使得每个特色在模型中的影响水平相等。

绘制出标准化后的数据的SSE(Sum of Squared Errors）随分类个数变动的肘形图如下图所示:

应用簇为4的k-means聚类算法对标准化后的数据进行聚类，并失去各个分类核心的通过标准化后的均值和标准差及每个数据的所属的簇（即标签）

将标准化后的数据还原，并画出均匀生产价格和生产价格的方差与分类标签的关系图，如下图所示:

价位分类

最终的聚类成果如下。依据每个簇的最大最小值，将生产分为低、中、高三个价位，别离界定为小于10.37元，10.37元到24.67元和大于24.67元。

低生产指数模型

咱们选取上面7个自变量参加模型训练:夜宵次数，午饭金额，晚饭金额，下午茶金额，夜宵金额，中生产频率，高生产频率。而后，用户的生产分类cluster变量将作为y标签。

咱们以70%的数据做训练集，30%做测试集，建设SVM(反对向量机)分类模型，输入测试数据的准确率、准确率、召回率和F1值，以及混同矩阵热力求，成果如下所示:

训练SVM模型后，咱们取得了权重和偏置项，如下表所示，前面计算概率矩阵时会用到这些参数。

低生产指数模型

简略的说，RankGauss首先将该特色依照大小排序，计算出每个值的排名（排名从1开始);而后将排名除以n+1，其中n是该特色的样本数量，失去一个0到1之间的比例因子;最初将比例因子作为规范正态分布的累积散布函数(CDF）的输出，失去转换后的数据，如下表所示。

通过RankGauss标准化，能够看到，本来极小的数据也能转化到10个(-3)数量级及以上，在保留了模型可解释性和科学性的同时规范化了数据，便于数据参加二次运算。
相较于其余标准化算法，只有RankGauss能做到将任意散布的数据映射到高斯分布，并且保留原始特色的程序关系，同时标准减小数据的数量级差别。

对于作者

在此对Wenyi Shen对本文所作的奉献示意诚挚感激，他在南京理工大学实现了数据迷信与大数据技术业余的学位，专一数据挖掘、数据分析畛域。善于Python、R、Excel、SPSSPRO。

最受欢迎的见解

1.PYTHON用户散失数据挖掘：建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的办法：决策树，随机森林

3.python中应用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本开掘进步航空公司客户满意度

6.机器学习助推快时尚精准销售工夫序列

7.用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用

8.python机器学习：举荐零碎实现（以矩阵合成来协同过滤）

9.python中用pytorch机器学习分类预测银行客户散失

关于数据挖掘:Python基于SVM和RankGauss的低消费指数构建模型

全文链接：https://tecdat.cn/?p=32968

原文出处：拓端数据部落公众号

分析师：Wenyi Shen

模型假如与问题剖析

模型假如

数据荡涤

剔除工夫异样值

窗口与价位分类

窗口分类

价位分类

低生产指数模型

低生产指数模型

对于作者

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:Python基于SVM和RankGauss的低消费指数构建模型

全文链接：https://tecdat.cn/?p=32968

原文出处：拓端数据部落公众号

分析师：Wenyi Shen

模型假如与问题剖析

模型假如

数据荡涤

剔除工夫异样值

窗口与价位分类

窗口分类

价位分类

低生产指数模型

低生产指数模型

对于作者

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复