关于数据挖掘:SPSS用KMeans两阶段聚类RFM模型在P2P网络金融研究借款人出款人行为规律数据

45次阅读

共计 4497 个字符,预计需要花费 12 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=27831 

随着 P2P 网络金融平台的交易量的激增,其交易数据不能失去充沛无效地利用。将聚类分析引入到 P2P 网络金融平台的治理之中,利用聚类分析技术对 P2P 网络金融平台的现存数据进行剖析,进而为借款人、出款人和管理人员提供服务就成为 P2P 网络金融平台在倒退过程中面临的新的课题。

鉴于上述呈现的问题和需要,本文冀望钻研将聚类分析技术利用于 P2P 网络金融平台来探讨借款人的行为法则和出款人的行为法则,从而有益于平台的建设和倒退。

聚类分析

聚类分析的定义

聚类分析,是常识发现中的一项重要钻研内容,又被称为群剖析类,简略来说就是具备类似特色的元素的汇合。聚类,就是将具备较高的相似性的元素集中起来,最终,造成几个子集。

聚类分析的算法及流程     

聚类算法是聚类技术优越性的次要体现,算法的可伸缩性、对不同属性的解决能力、对任意形态的聚类能力、对噪声数据的解决能力、对于输出记录的程序不敏感、高维性、基于束缚的聚类以及可解释性和可用性可掂量算法的好坏。

划分办法:划分办法是依照肯定的规定或不同的划分办法将给定的大量数据通过划分为成多个组或簇, 其中,每个组或簇中个别至多蕴含一组数据, 不同类型的数据只能属于不同的组,每个组之间具备显著的不同。

档次办法:档次办法进行聚类分析是通过将数据划分为若干组造成树形的构造, 也可依据构建数形式的不同分为自顶向下的决裂算法和自底向上的凝聚算法两种。

基于密度的办法:该办法是指通过相邻局域的密度超过某个阂值而产生继续聚类的办法, 也就是说, 在每个给定的区域内都将蕴含肯定数目的点, 从而通过该办法来过滤掉一些异样点, 进步数据分析的效率。

典型的聚类分析过程个别次要包含数据 (或称之为样本或模式) 筹备、特征选择和特征提取、靠近度计算、聚类(或分组)、对聚类后果进行有效性评估等步骤。

聚类分析过程:

  1. 数据的筹备过程:也就是数据的预处理,包含特色标准化和降维。

  2. 特色的抉择过程:从最后的特色中抉择最无效的特色存储于向量中。

  3. 特色的提取过程:通过对所抉择的特色进行转换造成新的突出特色。

  4. 聚类(或分组):首先抉择适合特色类型的某种间隔函数(或结构新的间隔函数)进行靠近水平的度量;而后执行聚类或分组。

  5. 聚类后果评估:是指对聚类后果进行评估。若后果称心,可完结;如果不称心需调整上述“特征提取”环节,直至称心为止。

借款人行为聚类分析    

钻研数据阐明

本文数据来源于平台后盾数据库中历史交易信息,包含借款相干信息以及归还人信息等。

平台借款的状态分为:审核未通过、流标(指一个借款列表的招标期限已过,然而贷款没有足额筹集齐,即贷款失败)、借款胜利(指借款满标,借贷关系曾经成立)。

通过数据筛选梳理,最终钻研的样本包含 999 条借款列表。其中,248 审核未通过的有条;209 条是流标;542 条胜利借款,169 条已还完借款。胜利交易总额达 3090.93 万元。

 

图:样本数据组成

就整体钻研数据来看,审核未通过的借款所占比例达到 24.8%,流标所占比例达到 20.9%,借款胜利仅有 54.3%,能够看出借款成功率亟需进步。

聚类分析钻研目标

因为 P2P 网络借贷平台具备门槛低、限度少等特点,这往往加剧了 P2P 网络借贷的危险,所以,其信用体系建设至关重要。其信用体系是依据借款人的认证信息以及借还款状况来确定借款人的信用积分,依据信用积分分为 AA、A、B、C、D、E、HR 七个信用等级,其中 AA 类代表最高的信用等级,示意借款人在平台上借贷沉闷且信用良好,信用风险低;而后逐步递加,HR 类示意信用等级最低、信用风险较大的借款人。

聚类分析的模型设计  

借款人总体数据统计

本文从借款人信息表中提取出 923 条不反复且无效条的借款人信息。923 位借款人中 AA 级仅 1 位,而 A 级也仅 1 位,而 B 类与 C 类绝对较多,最多的是 D、E、HR 类占总人数的 98%。

 

从表能够看出,借款人中 AA、A、B、C、D、E、HR7 类的人均借款胜利次数次数大于人均流标次数。从平均值总体上看,借款人信用等级越低,其均匀流标次数会逐步增大,均匀借款胜利次数会逐步缩小。由此能够看出,借款人的信用等级越高,其借款胜利的概率越高。但在 E 类借款人上,呈现非凡状况,其借款人均匀借款胜利次数大于 D 类借款人,而均匀流标次数小于 D 类借款人,由此,能够看出等级划分的不合理性。另一方面,从基数上来看,因为信用等级高的 AA、A、B、C 类借款人基数小,只管借款成功率很高,但总借款次数远小于 E、HR 类借款人。由此阐明,信用等级越高并不意味着借款胜利次数会越多,而信用等级越低也并不意味着借款胜利次数会越少。与丁婕信用等级越高,借款人的胜利与失败次数都会更高论断类似。

数据筹备与聚类变量选取

通过对数据源中借款人信息的整合,失去了用户流动数据,包含用户的借款次数、胜利借款次数、信用等级、借款总额等信息。为了理解平台用户的不同行为模式与特色,这里本文选取借款人 ID 号、均匀借款额度、借款总次数、借款胜利次数、信用等级、借出积分(借款人作为归还人进行借贷所取得的借出积分)作为聚类变量。

聚类分析的利用实现

本文应用 SPSS 对 923 位无效借款人的数据进行聚类分析。其中,抉择信用等级作为分类变量,因为样本数据既有连续变量也有分类变量,所以,本文应用两阶段聚类。与 SPSS 中提供的 KMeans 聚类法和档次聚类分析法不同的是,两阶段聚类法采纳对数极大似然估计值度量类间间隔,并能依据施瓦兹贝叶斯准则 (BIC) 或 Akaike 信息准则 (AIC) 等指标主动确定最佳聚类个数。

利用 SPSS 聚类过程如下:

  1. 将数据文件导入 SPSS 中。

点击“确认”按钮,失去后果,如下图。

图 二阶聚类分析后果图

通过 SPSS 两阶段聚类办法,借款人被分为了 4 类,后果如下:

各类别用户组成和特色如表:

从表中能够得出,两阶段聚类分析并没有齐全依照平台本身制订的信用等级对借款人进行划分,而是挖掘出借款人更为准确的行为信息。

第一类别中,HR 等级借款人所占比重最大,D、E 次之,该类借款人借款总次数在 4 类中最高,但均匀借款额度、借款胜利次数以及借出积分在 4 类中最低,能够看出此类别借款人尽管在平台上较为沉闷但其值得信赖水平很低,存在较为重大的欺骗危险。

第二类别中,D 类信用级别借款人占 100%,尽管均匀借款款额度与借款总次数都不是最高,然而其借款胜利次数与借出积分都是四类中最高程度,能够看出,此类借款人尽管以借款人身份在平台上不是很沉闷,然而其公布借款的满标比例很高,并且他们还常常以归还人的身份沉闷在平台上。

归还人行为聚类分析    

聚类分析钻研目标

本文借助聚类分析的办法,对 P2P 网络借贷平台中归还人进行客户细分,从而找出归还人的类别,最终使 P2P 网络借贷平台中对归还人有正当和精确的分类。

客户细分

基于 RFM 模型的客户分类原理剖析

客户细分的办法有许多,但最终掂量办法是否适宜的规范应该是细分后果的精确性以及与企业治理的匹配度。

RFM 模型罕用的客户细分的办法之一,作为一种定量分析模型,个别用于执行营销流动之前的预测与剖析。其中,R(recenty)最近一次生产,是指最近一次生产与以后日期的工夫距离,实践上讲,客户上一次生产间隔当初越近,对即时提供的商品或者服务有反馈的几率越大;F(frequency)生产频率,是指某一时间段内,客户生产的次数,通常,客户生产次数越高,忠诚度就越高,也就意味着能够通过减少客户的生产次数来领有更多的市场占有率;M(monetary)生产金额,是指某一段时间内,客户生产的总金额,生产金额是所有数据率报告的支柱,也能够验证“帕雷托法令”——公司 80% 的支出来自 20% 的顾客,通过生产金额能够看出哪些是重点客户,为公司营业额奉献最大。

依据 P2P 网络借贷平台的特点,将 RFM 指标做相应扭转,如表。

基于 K -Means 聚类算法的客户分类

K-Means 聚类法,也称 K - 均值聚类法广泛应用于基于划分的聚类算法。K-Means 算法依据输出的分类个数 k 值,将聚类分析中的所有对象划分为 k 个分组,每个分组内对象之间有较高类似度。本文以 K -Means 聚类法为工具,以加权 RFM 为度量值,为 P2P 网络借贷平台中归还人进行分类,基本思路为:

1)将 RFM 中三指标标准化,在加权之前须要对数据进行标准化解决。用 Ri、Fi、Mi 别离示意标准化后的归还人 i 的 R、F、M 值。

并且,Ri=(RM-R)/(RM- RN),Fi=(F-FN)/(FM-FN),Mi=(M-MN)/(MM-MN)(1)

其中,RM、RN 别离为归还人中 R 的最大值与最小值,FM、FN 别离为归还人中 F 的最大值与最小值,MM、MN 分表为归还人 M 的最大值与最小值。

2)确定聚类分组的个数 k。

3)对指标进行加权,并利用 K -Means 聚类法进行聚类失去 k 类归还人。

4)将每类归还人的 RFM 均值与总 RFM 均值进行比拟,最初确定每类归还人的客户类型。

聚类分析在归还人客户细分中的利用实现

本文从借款人信息表中提取出 500 不反复且无效条的借款人信息。相干重要数据如下表。

应用 K -means 均值进行聚类时,须要预先判断其聚类的类别数。RFM 模型中,归还人客户分类是通过每个客户类别 RFM 平均值与总 RFM 平均值相比拟来决定,而单个指标的比拟只能有 2 种状况:大于 (等于) 或小于平均值,因而可能有 2×2×2= 8 品种别,所以,本文将聚类的个数定为 8 个。首先,依据公式(1)对归还人的 R、F、M 值进行标准化,而后采纳 SPSS19.0 软件对标准化的归还人 R、F、M 值进行 K -Means 聚类分析。

最初失去 8 类归还人类型,并将 8 类归还人的 R、F、M 均值与总 R、F、M 均值比拟,其中“↑”示意大于平均值,“↓”示意小于平均值,后果如下表。

对于平台的用户造就策略探讨

现在,国内 P2P 网络借贷平台倒退迅速,然而大多数都疏忽了用户造就这部分,特地是对于归还人。平台在用户造就这个方面还未造成欠缺无效的机制与策略,短时间内,可能并不能体现出用户造就的重要性,然而长时间很有可能造成优质用户散失。

通过后面对借款人的聚类分析能够看出,借款人中存在一些重点倒退客户,可能信用等级不高然而在平台上借款次数较多且可能按时还款,能够将这类借款人作为重点倒退对象,提供给他们一些激励与优惠政策。对于平台上曾经存在的优质借款人,能够依据他们理论需要推出相应的借款我的项目。


最受欢迎的见解

1.R 语言 k -Shape 算法股票价格工夫序列聚类

2.R 语言基于温度对城市档次聚类、kmean 聚类、主成分剖析和 Voronoi 图

3.R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归

4.r 语言鸢尾花 iris 数据集的档次聚类

5.Python Monte Carlo K-Means 聚类实战

6. 用 R 进行网站评论文本开掘聚类

7.R 语言 KMEANS 均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化

8.PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和 KMEANS 聚类用户画像

9.R 语言基于 Keras 的小数据集深度学习图像分类

正文完
 0