共计 1776 个字符,预计需要花费 5 分钟才能阅读完成。
全文链接:https://tecdat.cn/?p=32968
原文出处:拓端数据部落公众号
分析师:Wenyi Shen
校园的温情关心是智慧校园的一项重要内容。通过大数据与数据挖掘技术对学生日常校园内的生产信息进行疾速筛选和比对,建设大数据模型,对校园内须要帮忙的同学进行精准辨认,为高校温情关心提供无效的数据根据。
该我的项目解决的次要问题是如何通过数据挖掘技术筛选和比对学生生产信息,从而自动识别校园内须要帮忙的同学,为高校扶贫提供数据根据。
模型假如与问题剖析
模型假如
三点假如:
- 没有同学应用本人的账户为别人垫付,每一笔生产均为自己所为。
- 在全副数据的 60 天内,认为生产总次数小于 80 次的为常常点外卖的人,剔除他们,不认为属于低生产人群。
- 不存在免费谬误的状况。
数据荡涤
剔除工夫异样值
数据共计 260 多万条条,从 20 年 9 月 1 日 6 时始终继续到 20 年 10 月 30 日 19 时。但其中有“9 月 31 日”的数据,咱们将其删除。
为了缩小计算量,咱们从 200 万条数据里随机选取 20000 条进行训练,最终取得两个聚类簇,以及各个簇的最大最小值。思考到数据选取的随机性,本文将生产金额 80 作为异样值阈值,删除所有生产金额大于 80 的数据,保留下约 98% 的失常数据。
咱们察看生产价格后发现,有少部分生产金额数据在 1000 甚至 10000 以上,这部分数据是异样数据,咱们采纳密度聚类 (DBSCAN) 算法来寻找一个阈值进行划分。
窗口与价位分类
窗口分类
对数据进行了 Z -score 标准化,以打消数据中的量纲差别,使得每个特色在模型中的影响水平相等。
绘制出标准化后的数据的 SSE(Sum of Squared Errors)随分类个数变动的肘形图如下图所示:
应用簇为 4 的 k -means 聚类算法对标准化后的数据进行聚类,并失去各个分类核心的通过标准化后的均值和标准差及每个数据的所属的簇(即标签)
将标准化后的数据还原,并画出均匀生产价格和生产价格的方差与分类标签的关系图,如下图所示:
价位分类
最终的聚类成果如下。依据每个簇的最大最小值,将生产分为低、中、高三个价位,别离界定为小于 10.37 元,10.37 元到 24.67 元和大于 24.67 元。
低生产指数模型
咱们选取上面 7 个自变量参加模型训练: 夜宵次数,午饭金额,晚饭金额,下午茶金额,夜宵金额,中生产频率,高生产频率。而后,用户的生产分类 cluster 变量将作为 y 标签。
咱们以 70% 的数据做训练集,30% 做测试集,建设 SVM(反对向量机)分类模型,输入测试数据的准确率、准确率、召回率和 F1 值,以及混同矩阵热力求,成果如下所示:
训练 SVM 模型后,咱们取得了权重和偏置项,如下表所示,前面计算概率矩阵时会用到这些参数。
低生产指数模型
简略的说,RankGauss 首先将该特色依照大小排序,计算出每个值的排名(排名从 1 开始); 而后将排名除以 n +1,其中 n 是该特色的样本数量,失去一个 0 到 1 之间的比例因子; 最初将比例因子作为规范正态分布的累积散布函数(CDF)的输出,失去转换后的数据,如下表所示。
通过 RankGauss 标准化,能够看到,本来极小的数据也能转化到 10 个 (-3) 数量级及以上,在保留了模型可解释性和科学性的同时规范化了数据,便于数据参加二次运算。
相较于其余标准化算法,只有 RankGauss 能做到将任意散布的数据映射到高斯分布,并且保留原始特色的程序关系,同时标准减小数据的数量级差别。
对于作者
在此对 Wenyi Shen 对本文所作的奉献示意诚挚感激,他在南京理工大学实现了数据迷信与大数据技术业余的学位,专一数据挖掘、数据分析畛域。善于 Python、R、Excel、SPSSPRO。
最受欢迎的见解
1.PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和 KMEANS 聚类用户画像
2. R 语言基于树的办法:决策树,随机森林
3.python 中应用 scikit-learn 和 pandas 决策树
4.机器学习:在 SAS 中运行随机森林数据分析报告
5. R 语言用随机森林和文本开掘进步航空公司客户满意度
6.机器学习助推快时尚精准销售工夫序列
7.用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用
8.python 机器学习:举荐零碎实现(以矩阵合成来协同过滤)
9.python 中用 pytorch 机器学习分类预测银行客户散失