乐趣区

关于算法:R语言-PCA主成分分析CA对应分析夫妻职业差异和马赛克图可视化

原文链接:http://tecdat.cn/?p=22762 

主成分分析法是数据挖掘中罕用的一种降维算法, 是 Pearson 在 1901 年提出的, 再起初由 hotelling 在 1933 年加以倒退提出的一种多变量的统计办法,其最次要的用处在于“降维”,通过析取主成分显出的最大的个别差异, 也能够用来削减回归剖析和聚类分析中变量的数目,与因子分析相似。

所谓降维,就是把具备相关性的变量数目缩小,用较少的变量来取代原先变量。如果原始变量相互正交,即没有相关性,则主成分剖析没有成果。

对应剖析(CA)是实用于剖析由两个定性变量(或分类数据)造成的大型应变表的主成分剖析的扩大。本文通过析取主成分来剖析夫妻职业的个别差异。

夫妻职业数据

思考以下数据,对应于一对夫妻中的职业。咱们有以下的频数表

read.table(data.csv",header=TRUE)

传统上,对于这种数据,咱们习惯于应用卡方测验,卡方间隔,以及卡方奉献来查看数据的差异性

chisq.test(M)

马赛克图

Mosaic plot 经常用来展现 Categorical data(分类数据)(对于不同的数据类别,mosaic plot 弱小的中央在于它可能很好的展现出 2 个或者多个分类型变量 (categorical variable) 的关系. 它也能够定义为用图像的形式展现分类型数据。

当变量是类别变量时,且数目多于三个的时候,可应用马赛克图。马赛克图中,嵌套矩阵面积反比于单元格频率,其中该频率即多维列联表中的频率。色彩和暗影可示意拟合模型的残差值。

咱们能够将其后果用马赛克图来形象化。

plot(tM)

丈夫在行中,妻子在列中。重要的分割是蓝色或红色,这两种色彩别离对应于 “ 正 “ 分割(比独立状况下的联结概率高)或 “ 负 “ 分割(比独立状况下的联结概率低)。

在另一个方向

plot(M)

但论断与之前一样:对角线上有很强的蓝色数值。

换句话说,这些夫妻在职业方面是绝对类似和繁多的。

主成分剖析和对应剖析

在对应剖析中,咱们查看概率表,在行或列中。例如,咱们能够定义行,它是概率向量

N/apply(N,1,sum)

留神到 ,咱们能够写出

咱们的线向量的重心在这里

同样,留神到 , 咱们能够用矩阵的形式来写, .

L0=(t(L)-Lbar)

对于每一个点,咱们都将(绝对)频率作为权重进行关联,这相当于应用矩阵。为了测量两点之间的间隔,咱们将通过概率的倒数对欧氏间隔进行加权,。两条线之间的间隔是

而后咱们将用这些不同的权重做主成分剖析。从矩阵的角度来看

咱们留神到特征向量,咱们定义了主成分

对线条的前两个成分的投影,在此给出了

PCA(L0,scal=FALSE

咱们的想法是将对应于行的个体进行可视化。在第二步中,咱们做雷同的事件,在列中

N/apply(N,2,sum))

核心:

C0=C-Cbar

主成分剖析

而后咱们能够做一个主成分剖析

PCA(matC0

看集体的可视化。

对应剖析

对应剖析的微妙之处在于,咱们 “ 能够 “ 在同一立体上示意集体的两个投影。

> plot(C\[,1:2\])

后果如下

> afc=CA(N)


 

最受欢迎的见解

1.matlab 偏最小二乘回归 (PLSR) 和主成分回归(PCR)

2. R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析

3.主成分剖析 (PCA) 基本原理及剖析实例

4.基于 R 语言实现 LASSO 回归剖析

5.应用 LASSO 回归预测股票收益数据分析

6. r 语言中对 lasso 回归,ridge 岭回归和 elastic-net 模型

7. r 语言中的偏最小二乘回归 pls-da 数据分析

8. r 语言中的偏最小二乘 pls 回归算法

9. R 语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)

退出移动版