关于数据挖掘:SPSS用KMeans两阶段聚类RFM模型在P2P网络金融研究借款人出款人行为规律数据

全文链接:http://tecdat.cn/?p=27831 

随着P2P网络金融平台的交易量的激增,其交易数据不能失去充沛无效地利用。将聚类分析引入到P2P网络金融平台的治理之中,利用聚类分析技术对P2P网络金融平台的现存数据进行剖析,进而为借款人、出款人和管理人员提供服务就成为P2P网络金融平台在倒退过程中面临的新的课题。

鉴于上述呈现的问题和需要,本文冀望钻研将聚类分析技术利用于P2P网络金融平台来探讨借款人的行为法则和出款人的行为法则,从而有益于平台的建设和倒退。

聚类分析

聚类分析的定义

聚类分析,是常识发现中的一项重要钻研内容,又被称为群剖析类,简略来说就是具备类似特色的元素的汇合。聚类,就是将具备较高的相似性的元素集中起来,最终,造成几个子集。

聚类分析的算法及流程     

聚类算法是聚类技术优越性的次要体现,算法的可伸缩性、对不同属性的解决能力、对任意形态的聚类能力、对噪声数据的解决能力、对于输出记录的程序不敏感、高维性、基于束缚的聚类以及可解释性和可用性可掂量算法的好坏。

划分办法:划分办法是依照肯定的规定或不同的划分办法将给定的大量数据通过划分为成多个组或簇, 其中,每个组或簇中个别至多蕴含一组数据, 不同类型的数据只能属于不同的组,每个组之间具备显著的不同。

档次办法:档次办法进行聚类分析是通过将数据划分为若干组造成树形的构造,也可依据构建数形式的不同分为自顶向下的决裂算法和自底向上的凝聚算法两种。

基于密度的办法:该办法是指通过相邻局域的密度超过某个阂值而产生继续聚类的办法, 也就是说, 在每个给定的区域内都将蕴含肯定数目的点, 从而通过该办法来过滤掉一些异样点, 进步数据分析的效率。

典型的聚类分析过程个别次要包含数据(或称之为样本或模式)筹备、特征选择和特征提取、靠近度计算、聚类(或分组)、对聚类后果进行有效性评估等步骤。

聚类分析过程:

  1. 数据的筹备过程:也就是数据的预处理,包含特色标准化和降维。

  2. 特色的抉择过程:从最后的特色中抉择最无效的特色存储于向量中。

  3. 特色的提取过程:通过对所抉择的特色进行转换造成新的突出特色。

  4. 聚类(或分组):首先抉择适合特色类型的某种间隔函数(或结构新的间隔函数)进行靠近水平的度量;而后执行聚类或分组。

  5. 聚类后果评估:是指对聚类后果进行评估。若后果称心,可完结;如果不称心需调整上述“特征提取”环节,直至称心为止。

借款人行为聚类分析    

钻研数据阐明

本文数据来源于平台后盾数据库中历史交易信息,包含借款相干信息以及归还人信息等。

平台借款的状态分为:审核未通过、流标(指一个借款列表的招标期限已过,然而贷款没有足额筹集齐,即贷款失败)、借款胜利(指借款满标,借贷关系曾经成立)。

通过数据筛选梳理,最终钻研的样本包含999条借款列表。其中,248审核未通过的有条;209条是流标;542条胜利借款,169条已还完借款。胜利交易总额达3090.93万元。

 

图 :样本数据组成

就整体钻研数据来看,审核未通过的借款所占比例达到24.8%,流标所占比例达到20.9%,借款胜利仅有54.3%,能够看出借款成功率亟需进步。

聚类分析钻研目标

因为P2P网络借贷平台具备门槛低、限度少等特点,这往往加剧了P2P网络借贷的危险,所以,其信用体系建设至关重要。其信用体系是依据借款人的认证信息以及借还款状况来确定借款人的信用积分,依据信用积分分为AA、A、B、C、D、E、HR七个信用等级,其中AA类代表最高的信用等级,示意借款人在平台上借贷沉闷且信用良好,信用风险低;而后逐步递加,HR类示意信用等级最低、信用风险较大的借款人。

聚类分析的模型设计  

借款人总体数据统计

本文从借款人信息表中提取出923条不反复且无效条的借款人信息。923位借款人中AA级仅1位,而A级也仅1位,而B类与C类绝对较多,最多的是D、E、HR类占总人数的98%。

 

从表能够看出,借款人中AA、A、B、C、D、E、HR7类的人均借款胜利次数次数大于人均流标次数。从平均值总体上看,借款人信用等级越低,其均匀流标次数会逐步增大,均匀借款胜利次数会逐步缩小。由此能够看出,借款人的信用等级越高,其借款胜利的概率越高。但在E类借款人上,呈现非凡状况,其借款人均匀借款胜利次数大于D类借款人,而均匀流标次数小于D类借款人,由此,能够看出等级划分的不合理性。另一方面,从基数上来看,因为信用等级高的AA、A、B、C类借款人基数小,只管借款成功率很高,但总借款次数远小于E、HR类借款人。由此阐明,信用等级越高并不意味着借款胜利次数会越多,而信用等级越低也并不意味着借款胜利次数会越少。与丁婕信用等级越高,借款人的胜利与失败次数都会更高论断类似。

数据筹备与聚类变量选取

通过对数据源中借款人信息的整合,失去了用户流动数据,包含用户的借款次数、胜利借款次数、信用等级、借款总额等信息。为了理解平台用户的不同行为模式与特色,这里本文选取借款人ID号、均匀借款额度、借款总次数、借款胜利次数、信用等级、借出积分(借款人作为归还人进行借贷所取得的借出积分)作为聚类变量。

聚类分析的利用实现

本文应用SPSS对923位无效借款人的数据进行聚类分析。其中,抉择信用等级作为分类变量,因为样本数据既有连续变量也有分类变量,所以,本文应用两阶段聚类。与SPSS中提供的KMeans聚类法和档次聚类分析法不同的是,两阶段聚类法采纳对数极大似然估计值度量类间间隔,并能依据施瓦兹贝叶斯准则(BIC)或Akaike信息准则(AIC)等指标主动确定最佳聚类个数。

利用SPSS聚类过程如下:

  1. 将数据文件导入SPSS中。

点击“确认”按钮,失去后果,如下图。

图 二阶聚类分析后果图

通过SPSS两阶段聚类办法,借款人被分为了4类,后果如下:

各类别用户组成和特色如表:

从表中能够得出,两阶段聚类分析并没有齐全依照平台本身制订的信用等级对借款人进行划分,而是挖掘出借款人更为准确的行为信息。

第一类别中,HR等级借款人所占比重最大,D、E次之,该类借款人借款总次数在4类中最高,但均匀借款额度、借款胜利次数以及借出积分在4类中最低,能够看出此类别借款人尽管在平台上较为沉闷但其值得信赖水平很低,存在较为重大的欺骗危险。

第二类别中, D类信用级别借款人占100%,尽管均匀借款款额度与借款总次数都不是最高,然而其借款胜利次数与借出积分都是四类中最高程度,能够看出,此类借款人尽管以借款人身份在平台上不是很沉闷,然而其公布借款的满标比例很高,并且他们还常常以归还人的身份沉闷在平台上。

归还人行为聚类分析    

聚类分析钻研目标

本文借助聚类分析的办法,对P2P网络借贷平台中归还人进行客户细分,从而找出归还人的类别,最终使P2P网络借贷平台中对归还人有正当和精确的分类。

客户细分

基于RFM模型的客户分类原理剖析

客户细分的办法有许多,但最终掂量办法是否适宜的规范应该是细分后果的精确性以及与企业治理的匹配度。

RFM模型罕用的客户细分的办法之一,作为一种定量分析模型,个别用于执行营销流动之前的预测与剖析。其中,R(recenty)最近一次生产,是指最近一次生产与以后日期的工夫距离,实践上讲,客户上一次生产间隔当初越近,对即时提供的商品或者服务有反馈的几率越大;F(frequency)生产频率,是指某一时间段内,客户生产的次数,通常,客户生产次数越高,忠诚度就越高,也就意味着能够通过减少客户的生产次数来领有更多的市场占有率;M(monetary)生产金额,是指某一段时间内,客户生产的总金额,生产金额是所有数据率报告的支柱,也能够验证“帕雷托法令”——公司80%的支出来自20%的顾客,通过生产金额能够看出哪些是重点客户,为公司营业额奉献最大。

依据P2P网络借贷平台的特点,将RFM指标做相应扭转,如表。

基于K-Means聚类算法的客户分类

K-Means聚类法,也称K-均值聚类法广泛应用于基于划分的聚类算法。K-Means算法依据输出的分类个数k值,将聚类分析中的所有对象划分为k个分组,每个分组内对象之间有较高类似度。本文以K-Means聚类法为工具,以加权RFM为度量值,为P2P网络借贷平台中归还人进行分类,基本思路为:

1)将RFM中三指标标准化,在加权之前须要对数据进行标准化解决。用Ri、Fi、Mi别离示意标准化后的归还人i的R、F、M值。

并且,Ri=(RM-R)/(RM- RN),Fi=(F-FN)/(FM-FN),Mi=(M-MN)/(MM-MN) (1)

其中,RM、 RN别离为归还人中R的最大值与最小值,FM、FN别离为归还人中F的最大值与最小值,MM、MN分表为归还人M的最大值与最小值。

2)确定聚类分组的个数k。

3)对指标进行加权,并利用K-Means聚类法进行聚类失去k类归还人。

4)将每类归还人的RFM均值与总RFM均值进行比拟,最初确定每类归还人的客户类型。

聚类分析在归还人客户细分中的利用实现

本文从借款人信息表中提取出500不反复且无效条的借款人信息。相干重要数据如下表。

应用K-means均值进行聚类时,须要预先判断其聚类的类别数。RFM模型中,归还人客户分类是通过每个客户类别RFM平均值与总RFM平均值相比拟来决定,而单个指标的比拟只能有2种状况:大于(等于)或小于平均值,因而可能有2×2×2=8品种别,所以,本文将聚类的个数定为8个。首先,依据公式(1)对归还人的R、F、M值进行标准化,而后采纳SPSS19.0软件对标准化的归还人R、F、M值进行K-Means聚类分析。

最初失去8类归还人类型,并将8类归还人的R、F、M均值与总R、F、M均值比拟,其中“↑”示意大于平均值,“↓”示意小于平均值,后果如下表。

对于平台的用户造就策略探讨

现在,国内P2P网络借贷平台倒退迅速,然而大多数都疏忽了用户造就这部分,特地是对于归还人。平台在用户造就这个方面还未造成欠缺无效的机制与策略,短时间内,可能并不能体现出用户造就的重要性,然而长时间很有可能造成优质用户散失。

通过后面对借款人的聚类分析能够看出,借款人中存在一些重点倒退客户,可能信用等级不高然而在平台上借款次数较多且可能按时还款,能够将这类借款人作为重点倒退对象,提供给他们一些激励与优惠政策。对于平台上曾经存在的优质借款人,能够依据他们理论需要推出相应的借款我的项目。


最受欢迎的见解

1.R语言k-Shape算法股票价格工夫序列聚类

2.R语言基于温度对城市档次聚类、kmean聚类、主成分剖析和Voronoi图

3.R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的档次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本开掘聚类

7.R语言KMEANS均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化

8.PYTHON用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和KMEANS聚类用户画像

9.R语言基于Keras的小数据集深度学习图像分类

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理