关于后端:PCA主成分分析原理与基础知识

笔记的次要内容是 PCA（主成分剖析） 原理和基本知识，相干数学原理和外围概念。

什么是PCA剖析？

主成分剖析(PCA, principal component analysis)是一种数学降维办法,利用正交变换把一系列可能线性相关的变量转换为一组线性不相干的新变量也称为主成分PC，用新变量在更小的维度下展现数据的特色。下图展现了通过标准化之后数据的展现差别：

有几个问题值得思考，如果数据很简单而且具备很多个变量，应该如何抉择适合的主成分？PCA剖析的劣势有哪些？PCA的利用场景？

抉择主成分

PCA的外围是抉择新的坐标系（主成分），坐标轴垂直（也就是正交，线性无关），方差足够大（为了使数据在坐标轴的投射点尽可能的广，显示出更多数据特色）

假如有很多个不同的数据，它们在坐标系散乱散布，先确定它们中最核心的点，通过该点的一条直线和所有点平方间隔最小时，即可确定主成分PC1，如下图所示过程，紫线地位。

因为第二主成分PC2与PC1正交（即垂直），所以依据这两条线为坐标轴，把所有的点别离投影到新的坐标轴，这样就实现了从二维到一维的转换。

投影的形式比拟多，目标是尽可能的保留数据的特色，使第一主成分具备最大的方差（var）同时利用正交非线性相关性实现去冗余。

PCA剖析劣势

简化数据

数据量十分大时，比方有800份小麦重测序数据，几万个不同的基因表白量有差别，导致剖析过程变的很麻烦，通过PCA剖析能够确定其中最次要的变动因子，简化运算过程。

去除误差数值

PCA剖析对数据降维解决时，过滤掉因为误差引起的变动，增大数据的可信度。

数据可视化

在展现多个基因表白数据时，利用PCA抉择表白差别最显著的两个基因作为主成分，而后得出各个基因表白量的关系。

PCA剖析利用场景

科研中常常会利用PCA分析方法，在浏览一些文献时，笔者发现PCA图频繁呈现在paper中，比方钻研肠道微生物的菌群形成、某种细胞的基因表白状况等。

这些场景下都具备很多变量，PCA剖析通几个主成分来揭示多个变量之间的关系，且主成分间互不相干。将高维数据升高至二维或三维，同时放弃各方差奉献最大的特色，升高数据复杂度。

PCA的数学原理

如果有一份原始数据蕴含多个变量，先将每个变量的方差和协方差计算出来，失去数据的协方差矩阵。

方差
var，单个变量的变异度。示意数据的离散水平
协方差
cov，两个变量的相关度，若为0示意没有相关性，如果为正，示意一组数据减少时另一组数据也随之减少

为了对立掂量的尺度，须要对协方差矩阵进行标准化解决（scale），艰深的说就是让数据的平均值为0并且方差为1，这样所有数据的评估规范和尺度都一样。

原始变量的协方差矩阵蕴含以下两局部信息：

原始变量本身的方差（协方差矩阵的主对角线地位）
原始变量之间的相干水平(非主对角线地位)

PCA剖析就是产生一组新的变量，使得新变量的协方差矩阵为对角阵。

特征值法合成协方差矩阵

参考资料：

https://blog.csdn.net/weixin_60737527/article/details/125144416
https://blog.csdn.net/Monica_428/article/details/117667137
https://zhuanlan.zhihu.com/p/37777074
https://www.aisoutu.com/a/1510739
https://blog.csdn.net/weixin_39747087/article/details/112455438
http://www.ehbio.com/Bioinfo_R_course/Rplots.html#pcaintroduc
https://blog.csdn.net/weixin_39837727/article/details/110160387
http://blog.genesino.com/2016/10/PCA/

本文由mdnice多平台公布

关于后端:PCA主成分分析原理与基础知识

什么是PCA剖析？

抉择主成分

PCA剖析劣势

PCA剖析利用场景

PCA的数学原理

特征值法合成协方差矩阵

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于后端:PCA主成分分析原理与基础知识

什么是PCA剖析？

抉择主成分

PCA剖析劣势

PCA剖析利用场景

PCA的数学原理

特征值法合成协方差矩阵

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复