全文链接:http://tecdat.cn/?p=32785
原文出处:拓端数据部落公众号
本文的钻研目标是基于 R 语言的 k -prototype 算法,帮忙客户对新能源汽车行业上市公司进行混合型数据集的聚类分析。
通过对公司的财务数据、市场体现和倒退策略等多个方面的变量进行聚类分析,咱们能够将这些公司划分为不同的类别,并剖析不同类别的特点和发展趋势。
这样的钻研后果对于投资者、政策制定者和行业从业者都具备重要的参考价值,能够帮忙他们更好地理解新能源汽车行业上市公司的倒退情况和市场体现,从而做出更理智的决策。
剖析指标
本我的项目旨在应用聚类算法对不同城市的新能源汽车行业上市公司进行分类与排序,以寻找主观实在的城市分层办法、反对业务经营与决策。
方法论
首先,因为数据集出现分类变量与数值变量混合的特点,本次数据分析将采纳 K -prototype 算法:
K-prototype 算法:无需创立哑变量,将别离为分类变量计算汉明间隔、为数值型变量计算欧几里得间隔而后得出聚类后果。算法运行完结后将应用老本函数评估聚类成果。
其次,数值型变量 b、c、d 的量纲显著不等,为防止量纲影响间隔计算中不同变量的权重,须要对变量 b、c、d 进行解决。因为不晓得是否合乎正态分布,在这里应用归一化而非标准化。
查看数据
在进行聚类分析之前,首先须要查看数据集,理解数据的构造和特色。通过应用 R 语言中的相干函数和包,咱们能够读取数据集,并应用函数如 summary() 和 head() 来查看数据的概要和前几行。
data=read.csv("新能源汽车 汇总.csv")
求出相关系数
求出相关系数 在进行聚类分析之前,咱们须要理解数据中各个变量之间的相关性。通过计算相关系数,咱们能够失去一个对于变量之间关联水平的度量。R 语言中的 cor() 函数能够用来计算相关系数矩阵,并通过可视化工具如热图来展现相关系数的模式。
对数据进行 kp 聚类(k=3)
对数据进行聚类 在进行聚类分析之前,咱们须要抉择适当的聚类算法。对于混合型数据集,咱们能够应用 R 语言中的 k -prototype 算法。该算法能够同时解决数值型和分类型变量,并依据变量之间的相似性将样本划分为不同的聚类。
x=data[,-c(1:2)]
d <- dist(x)
pclust=function(k){n=nrow(data)
cut <- tocut(hc, k=k)
h <- hc$height[n - k]
clust(3)
lust(4)
st(5)
ust(6)
将数据应用算法分成 4 个类别后能够看到 每个类别之间散布呈不同的簇,交加较少,因而能够认为失去的聚类后果较好。
删除相关性变量
删除相关性变量 在进行聚类分析之前,咱们须要删除相关性较高的变量。高相关性的变量可能会导致冗余的信息,并且可能会对聚类后果产生负面影响。通过计算变量之间的相关系数,并抉择相关系数较低的变量进行保留,咱们能够缩小变量的维度,从而进步聚类的成果。
cor(data[,-c(1:2)])
找到高相关性变量 (相关系数大于 0.8)
找到高相关性变量 除了删除高相关性的变量外,咱们还能够找出相关系数较高的变量对。这些变量对可能蕴含一些重要的信息,能够帮忙咱们更好地了解数据。通过计算变量之间的相关系数,并抉择相关系数较高的变量对,咱们能够失去一组要害的变量对,用于进一步的剖析和解释。
highcor=which(abs(cor(data[,-c(1:2)]))>0.85,arr.ind = T)
clust(2)
lust(3)
lust(4)
ust(5)
lust(6)
将数据应用算法分成 4 个类别后能够看到 每个类别之间散布呈不同的簇,交加较少,因而能够认为失去的聚类后果较好。
数据标准化
在进行聚类分析之前,咱们须要对数据进行标准化。标准化能够将不同变量之间的尺度差别进行对立,从而防止某些变量对聚类后果的影响过大。通过应用 R 语言中的 scale() 函数,咱们能够对数据进行标准化解决。
x=scale(data2[,-c(1:2)])
d <- dist(x)
hc <- prolust(d)
lust(2)
st(3)
ust(4)
ust(5)
ust(6)
将数据应用算法分成 4 个类别后能够看到 每个类别之间散布呈不同的簇,交加较少,因而能够认为失去的聚类后果较好。
通过以上步骤,咱们能够应用 R 语言中的 k -prototype 算法对混合型数据集进行聚类分析,从而帮忙咱们更好地了解和解释新能源汽车行业上市公司的特色和模式。这对于业界和学术界的钻研人员来说,具备重要的理论和理论意义。
最受欢迎的见解
1. R 语言 k -Shape 算法股票价格工夫序列聚类
2. R 语言基于温度对城市档次聚类、kmean 聚类、主成分剖析和 Voronoi 图
3. R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归
4. r 语言鸢尾花 iris 数据集的档次聚类
5.Python Monte Carlo K-Means 聚类实战
6. 用 R 进行网站评论文本开掘聚类
7. R 语言 KMEANS 均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化 **
8.PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和 KMEANS 聚类用户画像
9. R 语言基于 Keras 的小数据集深度学习图像分类