原文链接:http://tecdat.cn/?p=22762
主成分分析法是数据挖掘中罕用的一种降维算法, 是 Pearson 在 1901 年提出的, 再起初由 hotelling 在 1933 年加以倒退提出的一种多变量的统计办法,其最次要的用处在于“降维”,通过析取主成分显出的最大的个别差异, 也能够用来削减回归剖析和聚类分析中变量的数目,与因子分析相似。
所谓降维,就是把具备相关性的变量数目缩小,用较少的变量来取代原先变量。如果原始变量相互正交,即没有相关性,则主成分剖析没有成果。
对应剖析(CA)是实用于剖析由两个定性变量(或分类数据)造成的大型应变表的主成分剖析的扩大。本文通过析取主成分来剖析夫妻职业的个别差异。
夫妻职业数据
思考以下数据,对应于一对夫妻中的职业。咱们有以下的频数表
read.table(data.csv",header=TRUE)
传统上,对于这种数据,咱们习惯于应用卡方测验,卡方间隔,以及卡方奉献来查看数据的差异性
chisq.test(M)
马赛克图
Mosaic plot 经常用来展现 Categorical data(分类数据)(对于不同的数据类别,mosaic plot 弱小的中央在于它可能很好的展现出 2 个或者多个分类型变量 (categorical variable) 的关系. 它也能够定义为用图像的形式展现分类型数据。
当变量是类别变量时,且数目多于三个的时候,可应用马赛克图。马赛克图中,嵌套矩阵面积反比于单元格频率,其中该频率即多维列联表中的频率。色彩和暗影可示意拟合模型的残差值。
咱们能够将其后果用马赛克图来形象化。
plot(tM)
丈夫在行中,妻子在列中。重要的分割是蓝色或红色,这两种色彩别离对应于 “ 正 “ 分割(比独立状况下的联结概率高)或 “ 负 “ 分割(比独立状况下的联结概率低)。
在另一个方向
plot(M)
但论断与之前一样:对角线上有很强的蓝色数值。
换句话说,这些夫妻在职业方面是绝对类似和繁多的。
主成分剖析和对应剖析
在对应剖析中,咱们查看概率表,在行或列中。例如,咱们能够定义行,它是概率向量
N/apply(N,1,sum)
留神到 ,咱们能够写出
咱们的线向量的重心在这里
同样,留神到 , 咱们能够用矩阵的形式来写, .
L0=(t(L)-Lbar)
对于每一个点,咱们都将(绝对)频率作为权重进行关联,这相当于应用矩阵。为了测量两点之间的间隔,咱们将通过概率的倒数对欧氏间隔进行加权,。两条线之间的间隔是
而后咱们将用这些不同的权重做主成分剖析。从矩阵的角度来看
咱们留神到特征向量,咱们定义了主成分
对线条的前两个成分的投影,在此给出了
PCA(L0,scal=FALSE
咱们的想法是将对应于行的个体进行可视化。在第二步中,咱们做雷同的事件,在列中
N/apply(N,2,sum))
核心:
C0=C-Cbar
主成分剖析
而后咱们能够做一个主成分剖析
PCA(matC0
看集体的可视化。
对应剖析
对应剖析的微妙之处在于,咱们 “ 能够 “ 在同一立体上示意集体的两个投影。
> plot(C\[,1:2\])
后果如下
> afc=CA(N)
最受欢迎的见解
1.matlab 偏最小二乘回归 (PLSR) 和主成分回归(PCR)
2. R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析
3.主成分剖析 (PCA) 基本原理及剖析实例
4.基于 R 语言实现 LASSO 回归剖析
5.应用 LASSO 回归预测股票收益数据分析
6. r 语言中对 lasso 回归,ridge 岭回归和 elastic-net 模型
7. r 语言中的偏最小二乘回归 pls-da 数据分析
8. r 语言中的偏最小二乘 pls 回归算法
9. R 语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)