关于后端:PCA主成分分析原理与基础知识

4次阅读

共计 1619 个字符,预计需要花费 5 分钟才能阅读完成。

笔记的次要内容是 PCA(主成分剖析) 原理和基本知识,相干数学原理和外围概念。

什么是 PCA 剖析?

主成分剖析 (PCA, principal component analysis) 是一种数学降维办法, 利用正交变换把一系列可能线性相关的变量转换为一组线性不相干的新变量也称为主成分 PC,用新变量在更小的维度下 展现数据的特色。下图展现了通过标准化之后数据的展现差别:

有几个问题值得思考,如果数据很简单而且具备很多个变量,应该如何抉择适合的主成分?PCA 剖析的劣势有哪些?PCA 的利用场景?

抉择主成分

PCA 的 外围 是抉择新的坐标系(主成分),坐标轴垂直(也就是正交,线性无关),方差足够大(为了使数据在坐标轴的投射点尽可能的广,显示出更多数据特色)

假如有很多个不同的数据,它们在坐标系散乱散布,先确定它们中最核心的点,通过该点的一条直线和所有点平方间隔最小时,即可确定 主成分 PC1,如下图所示过程,紫线地位。

因为 第二主成分 PC2与 PC1 正交(即垂直),所以依据这两条线为坐标轴,把所有的点别离投影到新的坐标轴,这样就实现了从二维到一维的转换。

投影的形式比拟多,目标是尽可能的保留数据的特色,使第一主成分具备最大的方差(var)同时利用正交非线性相关性实现去冗余。

PCA 剖析劣势

  • 简化数据

数据量十分大时,比方有 800 份小麦重测序数据,几万个不同的基因表白量有差别,导致剖析过程变的很麻烦,通过 PCA 剖析能够确定其中最次要的变动因子,简化运算过程。

  • 去除误差数值

PCA 剖析对数据降维解决时,过滤掉因为误差引起的变动,增大数据的可信度。

  • 数据可视化

在展现多个基因表白数据时,利用 PCA 抉择表白差别最显著的两个基因作为主成分,而后得出各个基因表白量的关系。

PCA 剖析利用场景

科研中常常会利用 PCA 分析方法,在浏览一些文献时,笔者发现 PCA 图频繁呈现在 paper 中,比方钻研肠道微生物的菌群形成、某种细胞的基因表白状况等。

这些场景下都具备很多变量,PCA 剖析通几个主成分来揭示多个变量之间的关系,且主成分间互不相干。将高维数据升高至二维或三维,同时放弃各方差奉献最大的特色,升高数据复杂度。

PCA 的数学原理

如果有一份原始数据蕴含多个变量,先将每个变量的方差和协方差计算出来,失去数据的 协方差矩阵

  • 方差
    var,单个变量的变异度。示意数据的离散水平
  • 协方差
    cov,两个变量的相关度,若为 0 示意没有相关性,如果为正,示意一组数据减少时另一组数据也随之减少

为了对立掂量的尺度,须要对协方差矩阵进行标准化解决(scale),艰深的说就是让数据的平均值为 0 并且方差为 1,这样所有数据的评估规范和尺度都一样。

原始变量的协方差矩阵蕴含以下两局部信息:

  • 原始变量本身的方差(协方差矩阵的主对角线地位)
  • 原始变量之间的相干水平(非主对角线地位)

PCA 剖析就是产生一组新的变量,使得新变量的协方差矩阵为对角阵。

特征值法合成协方差矩阵

参考资料:

https://blog.csdn.net/weixin_60737527/article/details/125144416
https://blog.csdn.net/Monica_428/article/details/117667137
https://zhuanlan.zhihu.com/p/37777074
https://www.aisoutu.com/a/1510739
https://blog.csdn.net/weixin_39747087/article/details/112455438
http://www.ehbio.com/Bioinfo_R_course/Rplots.html#pcaintroduc
https://blog.csdn.net/weixin_39837727/article/details/110160387
http://blog.genesino.com/2016/10/PCA/

˙

本文由 mdnice 多平台公布

正文完
 0