全文链接:http://tecdat.cn/?p=31563
原文出处:拓端数据部落公众号
以全国 31 个省、市、自治区的城镇居民家庭均匀每人全年消费性收入的食品、衣着、寓居、家庭设备用品及服务、医疗保健、交通与通信、娱乐教育文化服务、其它商品和服务等 8 个指标数据为根据,利用 SPSS 和 R 统计软件,采纳主成分分析法对以后城镇居民消费结构进行剖析,结果显示: 娱乐教育文化服务、交通通信、家庭设备用品、寓居、食品是影响生产大小变动的次要因素,而衣着、医疗保健、寓居、食品是影响消费结构变动的次要因素; 各省市城镇居民生产大小与其经济发达水平密切相关; 相邻省市消费结构比拟类似; 沿海地区与边疆消费结构有较大的差异
第一步:录入或调入数据
第二步:关上“因子分析”对话框。
沿着主菜单的“Analyze→Data Reduction→Factor”的门路(图 2)关上因子分析选项框
第三步:选项设置。
首先,在源变量框中选中须要进行剖析的变量,点击左边的箭头符号,将须要的变量调入变量(Variables)栏中(图 3)。在本例中,全副 8 个变量都要用上,故全副调入(图 4)。因无非凡须要,故不用理睬“Value”栏。上面逐项设置
⒈ 设置 Descriptives 选项。
单击 Descriptives 按钮(图 4),弹出 Descriptives 对话框(图 5)。
在 Statistics 栏中选中 Univariate descriptives 复选项,则输入后果中将会给出原始数据的抽样均值、方差和样本数目(这一栏后果可供测验参考);选中 Initial solution 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。
在 Correlation Matrix 栏中,选中 Coefficients 复选项,则会给出原始变量的相关系数矩阵(剖析时可参考);选中 Determinant 复选项,则会给出相关系数矩阵的行列式,如果心愿在 Excel 中对某些计算过程进行理解,可选此项,否则用处不大。其它复选项个别不必,但在非凡状况下能够用到(本例不选)。
设置实现当前,单击 Continue 按钮实现设置(图 5)。
设置 Extraction 选项。
关上 Extraction 对话框(图 6)。因子提取办法次要有 7 种,在 Method 栏中能够看到,零碎默认的提取办法是主成分(),因而对此栏不作变动,就是认可了主成分分析方法。
在 Analyze 栏中,选中 Correlation matirx 复选项,则因子分析基于数据的相关系数矩阵进行剖析;如果选中 Covariance matrix 复选项,则因子分析基于数据的协方差矩阵进行剖析。对于主成分剖析而言,因为数据标准化了,这两个后果没有别离,因而任选其一即可。
在 Display 栏中,选中 Unrotated factor solution(非旋转因子解)复选项,则在剖析后果中给出未经旋转的因子提取后果。对于主成分剖析而言,这一项抉择与否都一样;对于旋转因子分析,抉择此项,可将旋转前后的后果同时给出,以便比照。
选中 Scree Plot(“山麓”图),则在剖析后果中给出特色根按大小散布的折线图(形如山麓截面,故得名),以便咱们直观地断定因子的提取数量是否精确。
主成分计算是利用迭代(Iterations)办法,零碎默认的迭代次数是 25 次。然而,当数据量较大时,25 次迭代是不够的,须要改为 50 次、100 次乃至更多。对于本例而言,变量较少,25 次迭代足够,故无需改变。
设置 Scores 设置。
选中 Save as variables 栏,则剖析后果中给出标准化的主成分得分(在数据表的前面)。至于办法复选项,对主成分剖析而言
选中 Display factor score coefficient matrix,则在剖析后果中给出因子得分系数矩阵及其相关矩阵。
选中 Display factor score coefficient matrix,则在剖析后果中给出因子得分系数矩阵及其相关矩阵。
其它。
对于主成分剖析而言,旋转项(Rotation)能够不用设置;对于数据没有缺失的状况下,Option 项能够不用理睬。
Correlation Matrixa | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
生产收入 | 食品烟酒 | 衣著 | 寓居 | 生活用品及服务 | 交通通信 | 教育文化娱乐 | 医疗保健 | 其余用品及服务 | |||
Correlation | 生产收入 | 1.000 | .873 | .499 | .960 | .838 | .872 | .860 | .715 | .906 | |
食品烟酒 | .873 | 1.000 | .262 | .811 | .663 | .755 | .620 | .396 | .751 | ||
衣著 | .499 | .262 | 1.000 | .377 | .646 | .424 | .355 | .606 | .649 | ||
寓居 | .960 | .811 | .377 | 1.000 | .774 | .761 | .825 | .657 | .861 | ||
生活用品及服务 | .838 | .663 | .646 | .774 | 1.000 | .685 | .730 | .608 | .804 | ||
交通通信 | .872 | .755 | .424 | .761 | .685 | 1.000 | .774 | .624 | .727 | ||
教育文化娱乐 | .860 | .620 | .355 | .825 | .730 | .774 | 1.000 | .735 | .743 | ||
医疗保健 | .715 | .396 | .606 | .657 | .608 | .624 | .735 | 1.000 | .694 | ||
其余用品及服务 | .906 | .751 | .649 | .861 | .804 | .727 | .743 | .694 | 1.000 | ||
a. Determinant = 1.69E-014 |
Correlation Matrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中散布位置的因素还有数据的构造。相关系数矩阵对主成分剖析具备参考价值,毕竟主成分剖析是从计算相关系数矩阵的特色根开始的。
在 Communalities(公因子方差)中,给出了因子载荷阵的初始公因子方差(Initial)和提取公因子方差(Extraction)
Communalities | |||
---|---|---|---|
Initial | Extraction | ||
生产收入 | 1.000 | .975 | |
食品烟酒 | 1.000 | .659 | |
衣著 | 1.000 | .362 | |
寓居 | 1.000 | .860 | |
生活用品及服务 | 1.000 | .770 | |
交通通信 | 1.000 | .754 | |
教育文化娱乐 | 1.000 | .764 | |
医疗保健 | 1.000 | .605 | |
其余用品及服务 | 1.000 | .864 | |
Extraction Method: Principal Component Analysis. |
在 Total Variance Explained(全副解释方差) 表的 Initial Eigenvalues(初始特 7 征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特色根 λ,因而能够间接依据特色根计算每一个主成分的方差百分比(% of Variance)。
Total Variance Explained | |||||||
---|---|---|---|---|---|---|---|
Component | Initial Eigenvalues | Extraction Sums of Squared Loadings | |||||
Total | % of Variance | Cumulative % | Total | % of Variance | Cumulative % | ||
1 | 6.613 | 73.479 | 73.479 | 6.613 | 73.479 | 73.479 | |
2 | .992 | 11.027 | 84.506 | ||||
3 | .555 | 6.162 | 90.668 | ||||
4 | .298 | 3.313 | 93.980 | ||||
5 | .259 | 2.879 | 96.859 | ||||
6 | .131 | 1.454 | 98.314 | ||||
7 | .088 | .980 | 99.294 | ||||
8 | .064 | .706 | 100.000 | ||||
9 | 8.213E-11 | 9.125E-10 | 100.000 | ||||
Extraction Method: Principal Component Analysis. |
主成分的数目能够依据相关系数矩阵的特色根来断定,如前所说,相关系数矩阵的特色根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。依据 λ 值决定主成分数目的准则有三:
i 只取 λ >1 的特色根对应的主成分
从 Total Variance Explained 表中可见,第一、第二和第三个主成分对应的 λ 值都大于 1,这意味着这三个主成分得分的方差都大于 1。本例正是依据这条准则提取主成分的。
ii 累计百分比达到 80%~85% 以上的 λ 值对应的主成分
在 Total Variance Explained 表能够看出,前三个主成分对应的 λ 值累计百分比达到 89.584%,这暗示只有选取三个主成分,信息量就够了。
iii 依据特色根变动的渐变点决定主成分的数量
从特色根散布的折线图(Scree Plot)上能够看到,第 4 个 λ 值是一个显著的折点,这暗示选取的主成分数目应有 p≤4(图 8)。那么,到底是 3 个还是 4 个呢?依据后面两条准则,选 3 个大抵适合(但小有问题)。
在 Component Matrix(成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与无关主成分的相关系数。以第一列为例,0.885 实际上是生产收入与第一个主成分的相关系数。
Component Matrixa | ||
---|---|---|
Component | ||
1 | ||
生产收入 | .987 | |
食品烟酒 | .812 | |
衣著 | .601 | |
寓居 | .928 | |
生活用品及服务 | .877 | |
交通通信 | .868 | |
教育文化娱乐 | .874 | |
医疗保健 | .778 | |
其余用品及服务 | .930 | |
Extraction Method: Principal Component Analysis. | ||
a. 1 components extracted. |
R 语言按地区划分的主成分可视化
res.pca <- prcomp(data[, -1], scale = TRUE)
最受欢迎的见解
1.matlab 偏最小二乘回归 (PLSR) 和主成分回归(PCR)
2. R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析
3.主成分剖析 (PCA) 基本原理及剖析实例
4. R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归
5.应用 LASSO 回归预测股票收益数据分析
6. r 语言中对 lasso 回归,ridge 岭回归和 elastic-net 模型
7. r 语言中的偏最小二乘回归 pls-da 数据分析
8. R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
9. R 语言主成分剖析(PCA)葡萄酒可视化:主成分得分散点图和载荷图