关于数据挖掘:R语言主成分PCA因子分析聚类对地区经济研究分析重庆市经济指标附代码数据

2次阅读

共计 5484 个字符，预计需要花费 14 分钟才能阅读完成。

最近咱们被客户要求撰写对于重庆市经济指标的钻研报告，包含一些图形和统计输入。

建设重庆市经济指标倒退体系，以重庆市一小时经济圈作为样本，使用因子分析办法进行实证剖析，在借鉴了相干评估实践和评估办法的根底上，本文提取出经济规模、人均倒退程度、经济发展潜力、3 个主因子，从重庆市统计年鉴选取 8 个指标形成的指标体系数据对重庆市 38 个区县经济倒退根本状况的八项指标进行剖析，并基于主因子得分矩阵对重庆市 38 个区县进行聚类分析

结果表明：依据综合得分，能够看出各区县社会经济倒退程度排前三的是渝中区、渝北区、九龙坡区，得分最低的三个是巫山县、巫溪县、城口县，联合总体的剖析能够看出渝中区、九龙坡区在经济总体规模和建筑业方面较好，而重庆周边的地区经济实力较差，投资环境不好，特地是在修建方面的不足，以至于经济倒退相对而言单薄的地区，不管从哪方面来说重庆各区县中渝中区的经济实力是最好的。

评估地区的之间的经济倒退程度，必须建设适当的指标体系。思考到地区经济指标的复杂性、多样性和可操作性，本文在此基础上建设了一套较为残缺的易于定量分析的地区经济评价指标体系，别离从不同的角度反映地区经济倒退特色。

本文所建设的指标体系共包含 8 个指标，别离从经济规模、人均倒退程度、经济发展潜力等方面来反映地区经济倒退特色。具体指标如下：

地区生产总值（万元）（X1）

社会消费品零售总额（万元）（X2）

工业总产值（万元）(X3)

建筑业总产值（万元）(X4)

高技术生产总值（万元）（X5）

全社会固定资产投资（万元）（X6)

人均可摆布支出（元）（X7）

人均地区生产总值（元）(X8)

因子分析是一种数据简化的技术。它通过钻研泛滥变量之间的外部依赖关系，探究观测数据中的根本构造，并用少数几个假想变量来示意其根本的数据结构。这几个假想变量可能反映原来泛滥变量的次要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。设 p 个变量，则因子分析的数学模型可示意为：

称为公共因子，是不可观测的变量，他们的系数称为因子载荷。是非凡因子，是不能被前 m 个公共因子蕴含的局部。因子分析步骤如下：

（1）将原始数据标准化，仍记为 X；（2）建设相关系数矩阵 R；（3）解特征方程，计算特征值和特征向量，当累计贡献率不低于 85% 时，提取 k 个主成分代替原来的 m 个指标，计算因子载荷矩阵 A；（4）对 A 进行最大正交旋转替换；（5）对主因子进行命名和解释。如需进行排序，则计算各个主因子的得分，以贡献率为权重，对加权计算综合因子得分。

本文选取了重庆市 38 个区县作为样本进行剖析，目标在于摸索如何基于 R 统计软件的因子分析和聚类分析办法钻研地区经济倒退。具体数据如下：

将原始数据录入 R 软件中，选取地区生产总值（万元）（X1）、社会消费品零售总额（万元）（X2）、工业总产值（万元）(X3）、建筑业总产值（万元）(X4)、高技术生产总值（万元）（X5）、全社会固定资产投资（万元）（X6)、人均可摆布支出（元）（X7）、人均地区生产总值（元）(X8)。

在进行因子分析之前，咱们通过观察相关系数矩阵，并用 KMO and Bartlett’s Test 测验一下数据是否适宜作因子分析。再做描述性剖析 Analysis-factor-description 失去初始公因子方差、因子、特征值以及由每个因子解释的百分比和累计百分比。剖析后果如下：

coebaltt(COR,)#Bartlett 球形检

Bartlett 的球形度测验的 p 值（显著性概率值 sig）<0.05，表明通过测验，散布能够近似为正态分布，由此则能够进行因子分析。

sreeot(PCA,type="lines")

点击题目查阅往期内容

数据分享 | R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化

左右滑动查看更多

01

02

03

04

从表能够得出，提取 3 个因子的累计方差贡献率曾经达到 89.854%>86%，信息损失仅为 10.146%，从第 4 个因子开始方差贡献率都低于 5%，因而选取 3 个公因子进行因子分析成果较为理想；从图的碎石图能够看出从第 4 个因子开始，特征值差别变动很小，综上所述：在特征值大于 0.5 的条件下，所提取的三个因子能通过测验并能很好的形容 8 个指标，所以提取前 3 个特征值建设因子载荷矩阵。

表中为初始因子载荷矩阵表，F1、F2、F3 别离作为第一、第二、第三公共因子。建设了因子分析数学目标不仅仅要找出公共因子以及对变量进行分组，更重要的要晓得每个公共因子的意义，以便进行进一步的剖析，如果每个公共因子的含意不清，则不便于进行理论背景的解释。因为因子载荷阵是不惟一的，所以应该对因子载荷阵进行旋转。目标是使因子载荷阵的构造简化，使载荷矩阵每列或行的元素平方值向 0 和 1 两极分化。有三种次要的正交旋转法。四次方最大法、方差最大法和等量最大法。

因而需要进行因子旋转，使得因子对变量的奉献达到极化的成果。为此采纳方差最大化的正交旋转形式，使各变量在某个因子上产生较高载荷，而其余因子上载荷较小，从而失去旋转后的因子载荷矩阵，如下表所示：

由表和旋转后的因子图能够看出，通过旋转后的公共因子的解释原始数据的能力进步了，体现为公共因子 F1 在 X1(地区生产总值)，X6（全社会固定资产投资）和 X8（人均地区生产总值）上的载荷值都很大。因而咱们能够把第一公共因子确立为综合经济实力因子，宏观上反映了地区经济倒退规模的总体状况，在这个因子上的得分越高，阐明城市经济倒退的总体状况越好。

利用各公共因子方差贡献率计算综合得分，并计算综合得分 = 因子 1 的方差贡献率 因子 1 的得分 + 因子 2 的方差贡献率 因子 2 的得分 + 因子 3 的方差贡献率 * 因子 3 的得分。将数据按综合得分降序排列，失去局部因子得分和综合得分状况如下图所示：

基于上述因子得分，能够得出 2012 年重庆 38 个区县的经济倒退情况如下：

1、依据经济实力因子 F1 得分大于 1 的顺次有渝中区、渝北区、九龙坡区、江北区和万州区，分数别离为 4.4211、1.8967、1.7808、1.201、1.2804。阐明在经济总体规模和建筑业方面，渝中区、渝北区、九龙坡、江北区和万州区在重庆市的 38 个区县中是最好的，规模较大，经济实力最强，发展前景很好，经济倒退实力雄厚的地区。

2、依据经济发展潜力因子 F2 得分大于 1 的有沙坪坝区和渝北区，分数别离为 3.7052、3.4396。阐明在高技术科技和工业方面比较发达，固定资产投资最大，这两个地区都在主城，对外开放水平高，科技翻新方面比拟好，有本人的工业倒退，已根本造成了本人的产业结构，充分发挥了本人的天文劣势和资源环境劣势，发展潜力较大。

聚类分析又称群剖析，就是将数据分组成为多个类。在同一个类内对象之间具备较高的类似度，不同类之间的对象差异较大。在社会经济畛域中存在着大量分类问题，比方若对某些大城市的物价指数进行考查，而物价指数很多，有农用生产物价指数、服务项目价指数、食品生产物价指数、建材零售价格指数等等。因为要考查的物价指数很多，通常先对这些物价指数进行分类。总之，须要分类的问题很多，因而聚类分析这个有用的工具越来越受到人们的器重，它在许多畛域中都失去了宽泛的利用。
聚类分析内容十分丰盛，有零碎聚类法、有序样品聚类法、动静聚类法、含糊聚类法、图论聚类法、聚类预报法等；最罕用最胜利的聚类分析为零碎聚类法，零碎聚类法的根本思维为先将 n 个样品各自看成一类，而后规定样品之间的“间隔”和类与类之间的间隔。抉择间隔最近的两类合并成一个新类，计算新类和其余类（各以后类）的间隔，再将间隔最近的两类合并。这样，每次合并缩小一类，直至所有的样品都归成一类为止。
零碎聚类法的根本步骤：
1、计算 n 个样品两两间的间隔。
2、结构 n 个类，每个类只蕴含一个样品。
3、合并间隔最近的两类为一新类。
4、计算新类与各以后类的间隔。
5、反复步骤 3、4，合并间隔最近的两类为新类，直到所有的类并为一类为止。
6、画聚类谱系图。
7、决定类的个数和类。
零碎聚类办法：1、最短距离法；2、最长距离法；3、两头间隔法；4、重心法；5、类平均法；6、离差平方和法（Ward 法）。

基于主因子得分对重庆市 38 个区县经济倒退剖析，采纳聚类办法抉择组间链接法, 计算间隔抉择平方欧式间隔, 标准化数据才用规范正太数据化解决。失去如下后果：

rct.st(hc,k = 6, border = "red")

由树状图可知，能够将重庆各区县按经济中和实力理论状况分为六类：

第一类只包含渝中区，渝中区是重庆市的核心城市, 是重庆市的政治经济文化核心、基础教育洼地、具备非凡的区位劣势和突出的战略地位。产业结构的现状特色是第三产业占绝对优势, 其中金融业、商贸业以及中介服务业为主导行业, 属于经济倒退实力雄厚的地区。

第二类只包含渝北区，渝北区先后启动了总体规划近 65 平方公里的重庆科技产业园、重庆现代农业园区、渝东开发区等我的项目，被市政府命名为 ” 重庆农业科技园区 ”，所以该地区在高技术生产总值奉献很大，而且投资环境优越，且大部分地区有个本人核心商业地带，对外开放水平高，区位劣势很显著，产业结构合理，属于经济倒退较强的地区。

点击文末 “浏览原文”

获取全文残缺材料。

本文选自《R 语言主成分 PCA、因子分析、聚类对地区经济钻研剖析重庆市经济指标》。

点击题目查阅往期内容

数据分享 | R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R 语言逻辑回归 logistic 模型剖析泰坦尼克 titanic 数据集预测生还状况 R 语言是否对二分连续变量执行逻辑回归
R 语言用 lme4 多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据
R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
R 语言基于 Bagging 分类的逻辑回归 (Logistic Regression)、决策树、森林剖析心脏病患者
R 语言逻辑回归（Logistic 回归）模型分类预测病人冠心病危险
R 语言用部分加权回归(Lowess) 对 logistic 逻辑回归诊断和残差剖析 R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R 语言用线性模型进行臭氧预测：加权泊松回归，一般最小二乘，加权负二项式模型，多重插补缺失值 R 语言 Bootstrap 的岭回归和自适应 LASSO 回归可视化
R 语言中回归和分类模型抉择的性能指标
R 语言多元工夫序列滚动预测：ARIMA、回归、ARIMAX 模型剖析
R 语言用 lme4 多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据
R 语言计量经济学：虚构变量 (哑变量) 在线性回归模型中的利用
R 语言线性混合效应模型实战案例
R 语言混合效应逻辑回归（mixed effects logistic）模型剖析肺癌数据
R 语言如何用潜类别混合效应模型（LCMM）剖析抑郁症状
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言建设和可视化混合效应模型 mixed effect model
R 语言 LME4 混合效应模型钻研老师的受欢迎水平
R 语言线性混合效应模型实战案例
R 语言用 Rshiny 摸索 lme4 狭义线性混合模型（GLMM）和线性混合模型（LMM）
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言如何解决线性混合模型中畸形拟合 (Singular fit) 的问题
基于 R 语言的 lmer 混合线性回归模型
R 语言用 WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
R 语言分层线性模型案例
R 语言用 WinBUGS 软件对学术能力测验（SAT）建设分层模型
应用 SAS，Stata，HLM，R，SPSS 和 Mplus 的分层线性模型 HLM
R 语言用 WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
SPSS 中的多层（等级）线性模型 Multilevel linear models 钻研整容手术数据
用 SPSS 预计 HLM 多层（档次）线性模型模型 R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析案例报告
R 语言惩办 logistic 逻辑回归（LASSO, 岭回归）高维变量抉择的分类模型案例
R 语言有 RStan 的多维验证性因子分析（CFA）
主成分剖析 (PCA) 原理及 R 语言实现及剖析实例
R 语言无监督学习：PCA 主成分剖析可视化
R 语言应用 Metropolis- Hasting 抽样算法进行逻辑回归
R 语言多元 Logistic 逻辑回归利用案例
R 语言自适应 LASSO 多项式回归、二元逻辑回归和岭回归利用剖析
R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
R 语言基于树的办法：决策树，随机森林，Bagging，加强树
spss modeler 用决策树神经网络预测 ST 的股票
R 语言中自编基尼系数的 CART 回归决策树的实现
python 在 Scikit-learn 中用决策树和随机森林预测 NBA 获胜者
matlab 应用分位数随机森林（QRF）回归树检测异样值
基于随机森林、svm、CNN 机器学习的风控欺诈辨认模型
R 语言惩办 logistic 逻辑回归（LASSO, 岭回归）高维变量抉择的分类模型案例
R 语言用规范最小二乘 OLS，狭义相加模型 GAM，样条函数进行逻辑回归 LOGISTIC 分