关于数据挖掘:MATLAB改进模糊C均值聚类FCM在电子商务信用评价应用分析淘宝网店铺数据

38次阅读

共计 3771 个字符,预计需要花费 10 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=32794

原文出处:拓端数据部落公众号

近年来电子商务倒退迅速,随之而来的信用问题给消费者带来诸多困扰,造成电子商务网上各种交易问题产生的起因是多方面的,但总的来说是不足无效的信用评估体系。目前各电子商务网站尽管都建设了信用评估体系,然而各网站提出的信用评估零碎、流程以及指标体系大体雷同并曾经应用多年,并没有依据电子商务的事实倒退而进行翻新优化,也没有依据评估用户理论需要进行更精准的设计。

本文以淘宝网为例,帮忙客户改良了指标体系, 并通过含糊 C 均值聚类对卖家基于新的指标体系进行信用分类。

聚类算法是一种罕用的数据分析和模式识别办法,用于将数据集划分为若干个类似的子集,每个子集称为一个簇。含糊聚类算法是一种基于含糊实践的聚类办法,具备较好的鲁棒性和灵活性,因而在许多畛域失去了宽泛的利用。

传统的含糊 C 均值聚类算法

含糊 C 均值聚类算法是最早和最罕用的含糊聚类算法之一。该算法通过最小化指标函数来确定数据集中每个样本的附属度和聚类核心,从而实现聚类分析。然而,传统的含糊 C 均值聚类算法存在收敛速度慢、对初始聚类核心敏感等问题。

改良的含糊聚类算法

为了克服传统含糊 C 均值聚类算法的有余,研究者们提出了许多改良的含糊聚类算法。例如,基于遗传算法的含糊聚类算法、基于粒子群优化的含糊聚类算法等。这些改良算法在收敛速度、聚类成果等方面都有所晋升。

基于含糊聚类的其余应用领域

除了在数据分析和模式识别畛域,含糊聚类算法还被广泛应用于其余畛域。例如,在图像宰割、模式识别、生物信息学等畛域都有含糊聚类算法的利用。这些应用领域的钻研为含糊聚类算法的倒退提供了新的方向和挑战。

图形容了一个凝聚含糊聚类办法 AGENES 和一个决裂含糊聚类办法 DIANA 在一个包含五个对象的数据的汇合 {a,b,c,d,e} 上的解决的过程。初始时,AGENES 将每个样本点自为一簇,之后这样的簇按照某一种准则逐步合并,例如,例如簇 C1 中的某个样本点和簇 C2 中的一个样本点相隔的间隔是所有不同类簇的样本点间欧几里得间隔最近的,则认为簇 C1 和簇 C2 是类似可合并的。

试验及后果剖析

C2C 电子商务信用评估模型的基本原理是:确认收货之后,买方能够依据模型内的评估指标,如商品质量,物流速度,售后服务等方面,在肯定工夫内,依据本身交易实现状况为卖家评估,也能够单方互评以造成信用记录。交易单方的信用反馈都会按模型设定的计算形式累计,以反映该用户的信用情况,以便其余交易方做抉择时参考。

目前淘宝网所采纳的信用评估模型是累加模型,即原有的信用积分根底上间接进行加减,其模型表示如下:

其中:Rn、Rn- 1 别离示意淘宝用户截止到第 n、n-1 次交易之后所取得的信用得分,rn{-1,0,1}示意{差评,中评,好评},即当 rn 取得“差评”时在原来信用积分的根底上加上“-1”分,用户取得中评时,就在原来信用积分的根底上加“0”分,当用户获得好评时,在原来信用积分的根底上加“+1”分。累加模型可能简略直观的展示交易单方的信用积分,肯定水平上可作为交易单方的信用参考。

试验平台

MATLAB 是 matrix&laboratory 两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国 mathworks 公司公布的次要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值剖析、矩阵计算、迷信数据可视化以及非线性动静零碎的建模和仿真等诸多弱小性能集成在一个易于应用的视窗环境中,为科学研究、工程设计以及必须进行无效数值计算的泛滥迷信畛域提供了一种全面的解决方案,并在很大水平上解脱了传统非交互式程序设计语言(如 C、Fortran)的编辑模式,代表了当今国内科学计算软件的先进程度。

构建指标体系

因为本文次要是基于 C2C 电子商务交易过程中的信用问题,从交易主体的角度来对 C2C 电子商务信用风险进行评估,目前淘宝网的信用评估指标体系次要由三个指标形成,别离是:与图片相符水平、服务态度以及发货速度,如下图所示:

而在理论网购过程中能够发现这三个指标并不能让消费者对于物品的进行精确评估,消费者往往须要额定进行大片文字的叙述来评估商品以及服务。

故此,本文依据消费者评论文字中经常出现的关键词新增了评估指标,抉择了商品属性,卖家服务以及物流服务作为相应准则层,具体的指标体系如下:

数据集收集及预处理

本文以日常生活应用较多的淘宝网为例,依照指标体系中所列指标进行数据获取,其中与图片相符水平,服务态度以及发货速度三个指标在淘宝网上可能间接获取,其余指标因为淘宝网上没有间接数据,故抉择了 10 家自己及敌人购买过的淘宝服装店铺,针对其余指标给出本人的评分,将所有指标的评分原始数据汇总,计算平均值,所得数据汇总如下:

试验过程(要害参数设置)

一次聚类算法是一种无监督的档次聚类算法,须要当时给定档次聚类数 C。

% 计算样本点间隔聚类核心的间隔
% 输出:%   center     ---- 聚类核心
%   data       ---- 样本点
% 输入:%   out        ---- 间隔
out = zeros(size(center, 1), size(data, 1)); 
for k = 1:size(center, 1), % 对每一个聚类核心


f = U.^expo;       % 附属度矩阵进行指数运算后果

dist = distfcm(center, data);       % 计算间隔矩阵



% 将 options 中的重量别离赋值给四个变量; 
expo = options(1);          % 附属度矩阵 U 的指数
max_iter = options(2);  % 最大迭代次数
min_impro = options(3);  % 附属度最小变动量, 迭代终止条件
display = options(4);  % 每次迭代是否输入信息标记

objfcn = zeros(max_iter, 1); % 初始化输入参数 obj_fcn 

 

因为数据集各指标值的量纲雷同,因而不须要对相干指标值进行标准化解决,失去如图所示的后果

相应的档次聚类谱系图如图所示:

  plot(data(:,1), data(:,2),'o'); 
       hold on; 
       maxU = max(U); 
       index1 = find(U(1,:) == maxU); 
       index2 = find(U(2,:) == maxU); 
       line(data(index1,1),data(index1,2),'marker','*','color','g'); 
       line(data(index2,1),data(index2,2),'marker','*','color','r'); 
       plot([center([1 2],1)],[center([1 2],2)],'*','color','k') 

后果剖析

对于现有指标体系,减少了新的指标如:售后服务,送货速度,包装残缺度等,使得指标体系更齐全,通过淘宝 10 个卖家的指标数据的解决,得出最终的信用综合评分,由排名能够看见第四家得分最高,而第四家因为其商品质量高,价格却很便宜,在服务态度以及物流服务方面都深得买家的喜爱,排名最低的第一家买家其销量十分高,然而因为商品质量不过关,使得商品的品质与其价格不对称,而且卖家售后服务态度恶劣,由此能够看出淘宝现有的信用评估体系可能给买家提供肯定的参考,然而如果可能减少一些指标,将会对买家起到更好的参考作用。

总结

本文总结了简略介绍了档次聚类算法国内外钻研现状,重点介绍了档次聚类算法的基本原理与实现流程。同时,针对 C2C 电子商务中所呈现的信用风险问题,提出应用信用评估体系来升高信用风险。并简述了国内外在信用评估方面的钻研现状。基于现有的评估指标体系,增加新指标,给出了更为全面欠缺的指标体系。以淘宝网为例,采集数据,利用档次聚类对 10 家店铺进行聚类分析。比照最终后果和理论购买体验,证实了淘宝现有信用评估模型对于消费者抉择卖家时有肯定的指导意义,然而体系有显著晋升空间。

参考文献

[1] Pang-Ning Tan Michael Steinbach Vipin Kumar 著. 范明, 范宏建等译. 数据挖掘导论[M]. 北京: 人民邮电出版社,2006.

[2]J.Han,M.Kamber 著. 范明, 孟小峰等译. 数据挖掘概念与技术[M]. 北京:机械工业出版社,2001:1~262.

[6] 马晓艳,唐雁. 档次聚类算法钻研[J]. 计算机科学,2008,34(7):34~36.

[7] 魏桂英, 郑玄轩. 档次聚类办法的 CURE 算法钻研[J]. 科技和产业,2005,5(11):22~24.

[8] 蒋盛益, 李霞. 一种改良的 BIRCH 聚类算法[J]. 计算机利用,2009,29(1):293~296.


最受欢迎的见解

1. R 语言 k -Shape 算法股票价格工夫序列聚类

2. R 语言基于温度对城市档次聚类、kmean 聚类、主成分剖析和 Voronoi 图

3. R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归

4. r 语言鸢尾花 iris 数据集的档次聚类

5.Python Monte Carlo K-Means 聚类实战

6.用 R 进行网站评论文本开掘聚类

7. R 语言 KMEANS 均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化**

8.PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和 KMEANS 聚类用户画像

9. R 语言基于 Keras 的小数据集深度学习图像分类

正文完
 0