关于数据挖掘:R语言SPSS基于主成分PCA的中国城镇居民消费结构研究可视化分析

全文链接:http://tecdat.cn/?p=31563

原文出处:拓端数据部落公众号

以全国31个省、市、自治区的城镇居民家庭均匀每人全年消费性收入的食品、衣着、寓居、家庭设备用品及服务、医疗保健、交通与通信、娱乐教育文化服务、其它商品和服务等 8 个指标数据为根据, 利用SPSS和R统计软件, 采纳主成分分析法对以后城镇居民消费结构进行剖析, 结果显示: 娱乐教育文化服务、交通通信、家庭设备用品、寓居、食品是影响生产大小变动的次要因素, 而衣着、医疗保健、寓居、食品是影响消费结构变动的次要因素; 各省市城镇居民生产大小与其经济发达水平密切相关; 相邻省市消费结构比拟类似; 沿海地区与边疆消费结构有较大的差异

第一步:录入或调入数据

第二步:关上“因子分析”对话框。 

沿着主菜单的“Analyze→Data Reduction→Factor”的门路(图2)关上因子分析选项框

第三步:选项设置。 

首先,在源变量框中选中须要进行剖析的变量,点击左边的箭头符号,将须要的变量调入变量(Variables)栏中(图3)。在本例中,全副8个变量都要用上,故全副调入(图4)。因无非凡须要,故不用理睬“Value”栏。上面逐项设置

 

⒈ 设置Descriptives选项。 

单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。

在Statistics栏中选中Univariate descriptives复选项,则输入后果中将会给出原始数据的抽样均值、方差和样本数目(这一栏后果可供测验参考);选中Initial solution复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。 

在Correlation Matrix栏中,选中Coefficients复选项,则会给出原始变量的相关系数矩阵(剖析时可参考);选中Determinant复选项,则会给出相关系数矩阵的行列式,如果心愿在Excel中对某些计算过程进行理解,可选此项,否则用处不大。其它复选项个别不必,但在非凡状况下能够用到(本例不选)。 

设置实现当前,单击Continue按钮实现设置(图5)。

设置Extraction选项。 

关上Extraction对话框(图6)。因子提取办法次要有7种,在Method栏中能够看到,零碎默认的提取办法是主成分(),因而对此栏不作变动,就是认可了主成分分析方法。 

在Analyze栏中,选中Correlation matirx复选项,则因子分析基于数据的相关系数矩阵进行剖析;如果选中Covariance matrix复选项,则因子分析基于数据的协方差矩阵进行剖析。对于主成分剖析而言,因为数据标准化了,这两个后果没有别离,因而任选其一即可。 

在Display栏中,选中Unrotated factor solution(非旋转因子解)复选项,则在剖析后果中给出未经旋转的因子提取后果。对于主成分剖析而言,这一项抉择与否都一样;对于旋转因子分析,抉择此项,可将旋转前后的后果同时给出,以便比照。 

选中Scree Plot(“山麓”图),则在剖析后果中给出特色根按大小散布的折线图(形如山麓截面,故得名),以便咱们直观地断定因子的提取数量是否精确。

主成分计算是利用迭代(Iterations)办法,零碎默认的迭代次数是25次。然而,当数据量较大时,25次迭代是不够的,须要改为50次、100次乃至更多。对于本例而言,变量较少,25次迭代足够,故无需改变。

 

设置Scores设置。 

选中Save as variables栏,则剖析后果中给出标准化的主成分得分(在数据表的前面)。至于办法复选项,对主成分剖析而言

选中Display factor score coefficient matrix,则在剖析后果中给出因子得分系数矩阵及其相关矩阵。 

  

 

选中Display factor score coefficient matrix,则在剖析后果中给出因子得分系数矩阵及其相关矩阵。 

 其它。 

对于主成分剖析而言,旋转项(Rotation)能够不用设置;对于数据没有缺失的状况下,Option项能够不用理睬。

Correlation Matrixa
    生产收入 食品烟酒 衣著 寓居 生活用品及服务 交通通信 教育文化娱乐 医疗保健 其余用品及服务
Correlation 生产收入 1.000 .873 .499 .960 .838 .872 .860 .715 .906
食品烟酒 .873 1.000 .262 .811 .663 .755 .620 .396 .751
衣著 .499 .262 1.000 .377 .646 .424 .355 .606 .649
寓居 .960 .811 .377 1.000 .774 .761 .825 .657 .861
生活用品及服务 .838 .663 .646 .774 1.000 .685 .730 .608 .804
交通通信 .872 .755 .424 .761 .685 1.000 .774 .624 .727
教育文化娱乐 .860 .620 .355 .825 .730 .774 1.000 .735 .743
医疗保健 .715 .396 .606 .657 .608 .624 .735 1.000 .694
其余用品及服务 .906 .751 .649 .861 .804 .727 .743 .694 1.000
a. Determinant = 1.69E-014

Correlation Matrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中散布位置的因素还有数据的构造。相关系数矩阵对主成分剖析具备参考价值,毕竟主成分剖析是从计算相关系数矩阵的特色根开始的。

 

在Communalities(公因子方差)中,给出了因子载荷阵的初始公因子方差(Initial)和提取公因子方差(Extraction)

Communalities
  Initial Extraction
生产收入 1.000 .975
食品烟酒 1.000 .659
衣著 1.000 .362
寓居 1.000 .860
生活用品及服务 1.000 .770
交通通信 1.000 .754
教育文化娱乐 1.000 .764
医疗保健 1.000 .605
其余用品及服务 1.000 .864
Extraction Method: Principal Component Analysis.

在Total Variance Explained(全副解释方差) 表的Initial Eigenvalues(初始特  7  征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特色根λ,因而能够间接依据特色根计算每一个主成分的方差百分比(% of Variance)。

Total Variance Explained
Component Initial Eigenvalues Extraction Sums of Squared Loadings
Total % of Variance Cumulative % Total % of Variance Cumulative %
1 6.613 73.479 73.479 6.613 73.479 73.479
2 .992 11.027 84.506      
3 .555 6.162 90.668      
4 .298 3.313 93.980      
5 .259 2.879 96.859      
6 .131 1.454 98.314      
7 .088 .980 99.294      
8 .064 .706 100.000      
9 8.213E-11 9.125E-10 100.000      
Extraction Method: Principal Component Analysis.

主成分的数目能够依据相关系数矩阵的特色根来断定,如前所说,相关系数矩阵的特色根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。依据λ值决定主成分数目的准则有三:

i 只取λ>1的特色根对应的主成分 

从Total Variance Explained表中可见,第一、第二和第三个主成分对应的λ值都大于1,这意味着这三个主成分得分的方差都大于1。本例正是依据这条准则提取主成分的。 

ii 累计百分比达到80%~85%以上的λ值对应的主成分 

在Total Variance Explained表能够看出,前三个主成分对应的λ值累计百分比达到89.584%,这暗示只有选取三个主成分,信息量就够了。 

iii 依据特色根变动的渐变点决定主成分的数量

从特色根散布的折线图(Scree Plot)上能够看到,第4个λ值是一个显著的折点,这暗示选取的主成分数目应有p≤4(图8)。那么,到底是3个还是4个呢?依据后面两条准则,选3个大抵适合(但小有问题)。

 

在Component Matrix(成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与无关主成分的相关系数。以第一列为例,0.885实际上是生产收入与第一个主成分的相关系数。

Component Matrixa
  Component
  1
生产收入 .987
食品烟酒 .812
衣著 .601
寓居 .928
生活用品及服务 .877
交通通信 .868
教育文化娱乐 .874
医疗保健 .778
其余用品及服务 .930
Extraction Method: Principal Component Analysis.
a. 1 components extracted.

R语言按地区划分的主成分可视化

res.pca <- prcomp(data[, -1],  scale = TRUE)


最受欢迎的见解

1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)

2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化剖析

3.主成分剖析(PCA)基本原理及剖析实例

4.R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归

5.应用LASSO回归预测股票收益数据分析

6.r语言中对lasso回归,ridge岭回归和elastic-net模型

7.r语言中的偏最小二乘回归pls-da数据分析

8.R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化

9.R语言主成分剖析(PCA)葡萄酒可视化:主成分得分散点图和载荷图

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理