关于数据挖掘:R语言SPSS基于主成分PCA的中国城镇居民消费结构研究可视化分析

21次阅读

共计 4157 个字符,预计需要花费 11 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=31563

原文出处:拓端数据部落公众号

以全国 31 个省、市、自治区的城镇居民家庭均匀每人全年消费性收入的食品、衣着、寓居、家庭设备用品及服务、医疗保健、交通与通信、娱乐教育文化服务、其它商品和服务等 8 个指标数据为根据,利用 SPSS 和 R 统计软件,采纳主成分分析法对以后城镇居民消费结构进行剖析,结果显示: 娱乐教育文化服务、交通通信、家庭设备用品、寓居、食品是影响生产大小变动的次要因素,而衣着、医疗保健、寓居、食品是影响消费结构变动的次要因素; 各省市城镇居民生产大小与其经济发达水平密切相关; 相邻省市消费结构比拟类似; 沿海地区与边疆消费结构有较大的差异

第一步:录入或调入数据

第二步:关上“因子分析”对话框。

沿着主菜单的“Analyze→Data Reduction→Factor”的门路(图 2)关上因子分析选项框

第三步:选项设置。

首先,在源变量框中选中须要进行剖析的变量,点击左边的箭头符号,将须要的变量调入变量(Variables)栏中(图 3)。在本例中,全副 8 个变量都要用上,故全副调入(图 4)。因无非凡须要,故不用理睬“Value”栏。上面逐项设置

 

⒈ 设置 Descriptives 选项。

单击 Descriptives 按钮(图 4),弹出 Descriptives 对话框(图 5)。

在 Statistics 栏中选中 Univariate descriptives 复选项,则输入后果中将会给出原始数据的抽样均值、方差和样本数目(这一栏后果可供测验参考);选中 Initial solution 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。

在 Correlation Matrix 栏中,选中 Coefficients 复选项,则会给出原始变量的相关系数矩阵(剖析时可参考);选中 Determinant 复选项,则会给出相关系数矩阵的行列式,如果心愿在 Excel 中对某些计算过程进行理解,可选此项,否则用处不大。其它复选项个别不必,但在非凡状况下能够用到(本例不选)。

设置实现当前,单击 Continue 按钮实现设置(图 5)。

设置 Extraction 选项。

关上 Extraction 对话框(图 6)。因子提取办法次要有 7 种,在 Method 栏中能够看到,零碎默认的提取办法是主成分(),因而对此栏不作变动,就是认可了主成分分析方法。

在 Analyze 栏中,选中 Correlation matirx 复选项,则因子分析基于数据的相关系数矩阵进行剖析;如果选中 Covariance matrix 复选项,则因子分析基于数据的协方差矩阵进行剖析。对于主成分剖析而言,因为数据标准化了,这两个后果没有别离,因而任选其一即可。

在 Display 栏中,选中 Unrotated factor solution(非旋转因子解)复选项,则在剖析后果中给出未经旋转的因子提取后果。对于主成分剖析而言,这一项抉择与否都一样;对于旋转因子分析,抉择此项,可将旋转前后的后果同时给出,以便比照。

选中 Scree Plot(“山麓”图),则在剖析后果中给出特色根按大小散布的折线图(形如山麓截面,故得名),以便咱们直观地断定因子的提取数量是否精确。

主成分计算是利用迭代(Iterations)办法,零碎默认的迭代次数是 25 次。然而,当数据量较大时,25 次迭代是不够的,须要改为 50 次、100 次乃至更多。对于本例而言,变量较少,25 次迭代足够,故无需改变。

 

设置 Scores 设置。

选中 Save as variables 栏,则剖析后果中给出标准化的主成分得分(在数据表的前面)。至于办法复选项,对主成分剖析而言

选中 Display factor score coefficient matrix,则在剖析后果中给出因子得分系数矩阵及其相关矩阵。

  

 

选中 Display factor score coefficient matrix,则在剖析后果中给出因子得分系数矩阵及其相关矩阵。

 其它。

对于主成分剖析而言,旋转项(Rotation)能够不用设置;对于数据没有缺失的状况下,Option 项能够不用理睬。

Correlation Matrixa
    生产收入 食品烟酒 衣著 寓居 生活用品及服务 交通通信 教育文化娱乐 医疗保健 其余用品及服务
Correlation 生产收入 1.000 .873 .499 .960 .838 .872 .860 .715 .906
食品烟酒 .873 1.000 .262 .811 .663 .755 .620 .396 .751
衣著 .499 .262 1.000 .377 .646 .424 .355 .606 .649
寓居 .960 .811 .377 1.000 .774 .761 .825 .657 .861
生活用品及服务 .838 .663 .646 .774 1.000 .685 .730 .608 .804
交通通信 .872 .755 .424 .761 .685 1.000 .774 .624 .727
教育文化娱乐 .860 .620 .355 .825 .730 .774 1.000 .735 .743
医疗保健 .715 .396 .606 .657 .608 .624 .735 1.000 .694
其余用品及服务 .906 .751 .649 .861 .804 .727 .743 .694 1.000
a. Determinant = 1.69E-014

Correlation Matrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中散布位置的因素还有数据的构造。相关系数矩阵对主成分剖析具备参考价值,毕竟主成分剖析是从计算相关系数矩阵的特色根开始的。

 

在 Communalities(公因子方差)中,给出了因子载荷阵的初始公因子方差(Initial)和提取公因子方差(Extraction)

Communalities
  Initial Extraction
生产收入 1.000 .975
食品烟酒 1.000 .659
衣著 1.000 .362
寓居 1.000 .860
生活用品及服务 1.000 .770
交通通信 1.000 .754
教育文化娱乐 1.000 .764
医疗保健 1.000 .605
其余用品及服务 1.000 .864
Extraction Method: Principal Component Analysis.

在 Total Variance Explained(全副解释方差) 表的 Initial Eigenvalues(初始特  7  征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特色根 λ,因而能够间接依据特色根计算每一个主成分的方差百分比(% of Variance)。

Total Variance Explained
Component Initial Eigenvalues Extraction Sums of Squared Loadings
Total % of Variance Cumulative % Total % of Variance Cumulative %
1 6.613 73.479 73.479 6.613 73.479 73.479
2 .992 11.027 84.506      
3 .555 6.162 90.668      
4 .298 3.313 93.980      
5 .259 2.879 96.859      
6 .131 1.454 98.314      
7 .088 .980 99.294      
8 .064 .706 100.000      
9 8.213E-11 9.125E-10 100.000      
Extraction Method: Principal Component Analysis.

主成分的数目能够依据相关系数矩阵的特色根来断定,如前所说,相关系数矩阵的特色根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。依据 λ 值决定主成分数目的准则有三:

i 只取 λ >1 的特色根对应的主成分 

从 Total Variance Explained 表中可见,第一、第二和第三个主成分对应的 λ 值都大于 1,这意味着这三个主成分得分的方差都大于 1。本例正是依据这条准则提取主成分的。

ii 累计百分比达到 80%~85% 以上的 λ 值对应的主成分 

在 Total Variance Explained 表能够看出,前三个主成分对应的 λ 值累计百分比达到 89.584%,这暗示只有选取三个主成分,信息量就够了。

iii 依据特色根变动的渐变点决定主成分的数量

从特色根散布的折线图(Scree Plot)上能够看到,第 4 个 λ 值是一个显著的折点,这暗示选取的主成分数目应有 p≤4(图 8)。那么,到底是 3 个还是 4 个呢?依据后面两条准则,选 3 个大抵适合(但小有问题)。

 

在 Component Matrix(成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与无关主成分的相关系数。以第一列为例,0.885 实际上是生产收入与第一个主成分的相关系数。

Component Matrixa
  Component
  1
生产收入 .987
食品烟酒 .812
衣著 .601
寓居 .928
生活用品及服务 .877
交通通信 .868
教育文化娱乐 .874
医疗保健 .778
其余用品及服务 .930
Extraction Method: Principal Component Analysis.
a. 1 components extracted.

R 语言按地区划分的主成分可视化

res.pca <- prcomp(data[, -1],  scale = TRUE)


最受欢迎的见解

1.matlab 偏最小二乘回归 (PLSR) 和主成分回归(PCR)

2. R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析

3.主成分剖析 (PCA) 基本原理及剖析实例

4. R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归

5.应用 LASSO 回归预测股票收益数据分析

6. r 语言中对 lasso 回归,ridge 岭回归和 elastic-net 模型

7. r 语言中的偏最小二乘回归 pls-da 数据分析

8. R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化

9. R 语言主成分剖析(PCA)葡萄酒可视化:主成分得分散点图和载荷图

正文完
 0