参考原文:http://tecdat.cn/?p=4550
从海量数据中发现潜在标记指标, 须要借助多变量模式识别办法. 无监督的模式识别办法包含主成分剖析(PCA、聚类分析(HCE)等,依据模式识别模型抽提出对分类有重要奉献的指标后, 如果还须要进一步验证这些指标的差异性,那么能够在r语言中应用PLSDA模型进行剖析。
本文应用几组患者对不同指标进行评分的数据,最初应用PLS—DA模型挖掘出不同西医分组形式下存在差别的指标。
数据1 (少分组数据)
通过plsda建模之后,咱们对失去的主成分进行画图,并且对不同分组的样本进行标识。 从后果中能够看到不同组别别离有哪些指标,以及哪些指标之间存在显著的差别?
# plsda.breast <- plsda(X, Y, ncomp = 2)
# col.breast <- as.numeric(as.factor(Y))
# plotIndiv(plsda.breast, ind.names = TRUE, col = col.breast ,ellipse = TRUE)
从图中能够看到,分组a和分组b之间存在显著的差别,分组cdef之间的差别较小,分组a分组b和分组cdef间均存在显著差别。
同时,为了咱们能够从数值的角度来对这些分组的差异性进行剖析。
计算他们的相关矩阵:
间隔矩阵
从批示变量矩阵的后果来看,a的特征向量和b的特征向量之间存在显著差别,而cdef之间的差别较小
数据2 (多分组数据)
为了测试模型的拓展性,咱们测试了更多分组数据。相似能够失去如下的成分散点图:
同样计算间隔矩阵
dd
从后果中能够看到不同组别别离有哪些指标,以及哪些指标之间存在显著的差别?
从图中能够看到,分组GHEC之间的差别较小,分组ABDFIJK之间差别较小,这两类间均存在显著差别
从批示变量矩阵的后果来看,, GHEC特征向量之间的差别较小间隔也较小,分组ABDFIJK之间差别较小间隔也较小,这两类间均存在显著差别