原文链接:http://tecdat.cn/?p=22762 

主成分分析法是数据挖掘中罕用的一种降维算法,是Pearson在1901年提出的,再起初由hotelling在1933年加以倒退提出的一种多变量的统计办法,其最次要的用处在于“降维”,通过析取主成分显出的最大的个别差异,也能够用来削减回归剖析和聚类分析中变量的数目,与因子分析相似。

所谓降维,就是把具备相关性的变量数目缩小,用较少的变量来取代原先变量。如果原始变量相互正交,即没有相关性,则主成分剖析没有成果。

对应剖析(CA)是实用于剖析由两个定性变量(或分类数据)造成的大型应变表的主成分剖析的扩大。本文通过析取主成分来剖析夫妻职业的个别差异。

夫妻职业数据

思考以下数据,对应于一对夫妻中的职业。咱们有以下的频数表

read.table(data.csv",header=TRUE)

传统上,对于这种数据,咱们习惯于应用卡方测验,卡方间隔,以及卡方奉献来查看数据的差异性

chisq.test(M)

马赛克图

Mosaic plot经常用来展现Categorical data(分类数据)(对于不同的数据类别,mosaic plot 弱小的中央在于它可能很好的展现出2个或者多个分类型变量(categorical variable)的关系. 它也能够定义为用图像的形式展现分类型数据。

当变量是类别变量时,且数目多于三个的时候,可应用马赛克图。马赛克图中,嵌套矩阵面积反比于单元格频率,其中该频率即多维列联表中的频率。色彩和暗影可示意拟合模型的残差值。

咱们能够将其后果用马赛克图来形象化。

plot(tM)

丈夫在行中,妻子在列中。重要的分割是蓝色或红色,这两种色彩别离对应于 "正 "分割(比独立状况下的联结概率高)或 "负 "分割(比独立状况下的联结概率低)。

在另一个方向

plot(M)

但论断与之前一样:对角线上有很强的蓝色数值。

换句话说,这些夫妻在职业方面是绝对类似和繁多的。

主成分剖析和对应剖析

在对应剖析中,咱们查看概率表,在行或列中。例如,咱们能够定义行,它是概率向量

N/apply(N,1,sum)

留神到 ,咱们能够写出

咱们的线向量的重心在这里

同样,留神到 , 咱们能够用矩阵的形式来写, .

L0=(t(L)-Lbar)

对于每一个点,咱们都将(绝对)频率作为权重进行关联,这相当于应用矩阵 。为了测量两点之间的间隔,咱们将通过概率的倒数对欧氏间隔进行加权, 。两条线之间的间隔是

而后咱们将用这些不同的权重做主成分剖析。从矩阵的角度来看

咱们留神到特征向量,咱们定义了主成分

对线条的前两个成分的投影,在此给出了

PCA(L0,scal=FALSE

咱们的想法是将对应于行的个体进行可视化。在第二步中,咱们做雷同的事件,在列中

N/apply(N,2,sum))

核心:

C0=C-Cbar

主成分剖析

而后咱们能够做一个主成分剖析

PCA(matC0

看集体的可视化。

对应剖析

对应剖析的微妙之处在于,咱们 "能够 "在同一立体上示意集体的两个投影。

> plot(C\[,1:2\])

后果如下

> afc=CA(N)


 

最受欢迎的见解

1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)

2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化剖析

3.主成分剖析(PCA)基本原理及剖析实例

4.基于R语言实现LASSO回归剖析

5.应用LASSO回归预测股票收益数据分析

6.r语言中对lasso回归,ridge岭回归和elastic-net模型

7.r语言中的偏最小二乘回归pls-da数据分析

8.r语言中的偏最小二乘pls回归算法

9.R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)