关于机器学习:机器学习中7种常用的线性降维技术总结

33次阅读

共计 3887 个字符,预计需要花费 10 分钟才能阅读完成。

上篇文章中咱们次要总结了非线性的降维技术,本文咱们来总结一下常见的线性降维技术。

1、Principal Component Analysis (PCA)

Principal Component Analysis (PCA) 是一种罕用的降维技术,用于将高维数据集转换为低维示意,同时保留数据集的次要特色。PCA 的指标是通过找到数据中最大方差的方向(主成分),将数据投影到这些方向上,从而实现降维。

PCA 的次要思维是通过线性变换将原始数据映射到一个新的坐标系下,使得在新的坐标系下数据的方差最大化。这些新的坐标轴称为主成分,它们是原始特色的线性组合。通过保留最大方差的主成分,能够保留数据中最重要的信息,而抛弃方差较小的主成分能够达到降维的成果。

PCA 的步骤如下:

  1. 标准化数据:对原始数据进行标准化解决,使得每个特色的均值为 0,方差为 1。
  2. 计算协方差矩阵:计算标准化后的数据的协方差矩阵。
  3. 计算特征值和特征向量:对协方差矩阵进行特征值合成,失去特征值和对应的特征向量。
  4. 抉择主成分:依照特征值的大小抉择前 k 个特征向量作为主成分,其中 k 是降维后的维度。
  5. 投影数据:将原始数据投影到选定的主成分上,失去降维后的数据集。

PCA 能够用于数据可视化、去除乐音、缩小计算量等。然而,须要留神的是,PCA 假如数据是线性可分的,因而在利用 PCA 之前须要对数据进行肯定的预处理和了解。

2、Factor Analysis (FA)

Factor Analysis (FA) 是一种统计办法,用于摸索察看到的变量之间的潜在构造或因素。它试图找到可能解释察看到的变量之间独特变异的潜在因素,并将这些变量演绎为较少数量的无关变量。

FA 和 PCA 有些类似,但也有一些重要的区别:

  1. 指标:PCA 旨在找到最大方差的方向,而 FA 旨在找到潜在的变量(因素),这些变量可能解释察看到的变量之间的独特变异。
  2. 假如:PCA 假如察看到的变量是察看到的原始特色,而 FA 假如察看到的变量是潜在因素的线性组合和随机误差的总和。
  3. 解释性:PCA 往往更间接,因为它的主成分是原始特色的线性组合。而 FA 的因素可能不太容易解释,因为它们是察看到的变量的线性组合,而非原始特色。
  4. 旋转:在 FA 中,因素通常会进行旋转,以使它们更易于解释。

FA 在许多畛域都有利用,包含心理学、社会科学、市场钻研等。它可用于简化数据集、辨认潜在构造、缩小测量误差等。然而须要审慎抉择适当的因素数目和因素旋转办法,以确保后果的可解释性和有效性。

3、Linear Discriminant Analysis,LDA

线性判别分析(Linear Discriminant Analysis,LDA)是一种用于降维和特征提取的监督学习技术。它与主成分剖析(PCA)不同,因为它不仅思考了数据的方差构造,还思考了数据的类别信息。LDA 旨在找到一个投影方向,最大化不同类别之间的间隔(类间分布),同时最小化同一类别外部的间隔(类内分布)。

LDA 的次要步骤如下:

  1. 计算类别的均值向量:对于每个类别,计算该类别下所有样本的均值向量。
  2. 计算类内分布矩阵(Within-class scatter matrix):对于每个类别,计算该类别下所有样本与其均值向量之间的分布矩阵,并将它们求和。
  3. 计算类间分布矩阵(Between-class scatter matrix):计算所有类别的均值向量与总体均值向量之间的分布矩阵。
  4. 计算特征值和特征向量:对于矩阵的逆矩阵乘以类间分布矩阵,失去的矩阵进行特征值合成,失去特征值和特征向量。
  5. 抉择投影方向:抉择特征值最大的前 k 个特征向量作为投影方向,其中 k 是降维后的维度。
  6. 投影数据:将原始数据投影到选定的投影方向上,失去降维后的数据。

LDA 的长处在于它思考了数据的类别信息,因而生成的投影能更好地区分不同类别之间的差别。它在模式识别、人脸识别、语音辨认等畛域中有着宽泛的利用。LDA 在解决多类别和类别不均衡的状况下可能会遇到一些问题,须要特地留神。

4、Eigendecomposition

Eigendecomposition(特征值合成)是一种用于对方阵进行合成的数学技术。它将一个方阵合成为一组特征向量和特征值的乘积模式。特征向量示意了在转换中不改变方向的方向,而特征值示意了在转换中沿着这些方向的缩放比例。

给定一个方阵 A,其特征值合成示意为:

其中,Q 是由 A 的特征向量组成的矩阵,Λ 是对角矩阵,其对角线上的元素是 A 的特征值。

特征值合成有许多利用,包含主成分剖析(PCA)、特色脸辨认、谱聚类等。在 PCA 中,特征值合成用于找到数据协方差矩阵的特征向量,从而找到数据的主成分。在谱聚类中,特征值合成用于找到相似性图的特征向量,从而进行聚类。特色脸辨认利用了特征值合成来辨认人脸图像中的重要特色。

尽管特征值合成在许多利用中十分有用,但并非所有的方阵都能进行特征值合成。例如,奇怪矩阵(singular matrix)或非方阵就不能进行特征值合成。特征值合成在大型矩阵计算上可能是十分耗时的。

5、Singular value decomposition (SVD)

奇怪值合成(Singular Value Decomposition,SVD)是一种用于矩阵合成的重要技术。它将一个矩阵合成为三个矩阵的乘积模式,这三个矩阵别离是一个正交矩阵、一个对角矩阵和另一个正交矩阵的转置。

给定一个 m × n 的矩阵 AA,其奇怪值合成示意为:

其中,U 是一个 m × m 的正交矩阵,称为左奇怪向量矩阵;Σ 是一个 m × n 的对角矩阵,其对角线上的元素称为奇怪值;VT 是一个 n × n 的正交矩阵的转置,称为右奇怪向量矩阵。

奇怪值合成具备宽泛的利用,包含数据压缩、降维、矩阵逆求解、举荐零碎等。在降维中,只保留奇怪值较大的项,能够实现对数据的无效压缩和示意。在举荐零碎中,通过奇怪值合成能够对用户和我的项目之间的关系进行建模,从而提供个性化的举荐。

奇怪值合成还能够用于矩阵逆求解,特地是对于奇怪矩阵。通过保留奇怪值较大的项,能够近似求解逆矩阵,从而防止了对奇怪矩阵求逆的问题。

6、Truncated Singular Value Decomposition (TSVD)

截断奇怪值合成(Truncated Singular Value Decomposition,TSVD)是奇怪值合成(SVD)的一种变体,它在计算中只保留最重要的奇怪值和对应的奇怪向量,从而实现数据的降维和压缩。

给定一个 m × n 的矩阵 AA,其截断奇怪值合成示意为:

其中,Uk 是一个 m × k 的正交矩阵,Σk 是一个 k × k 的对角矩阵,VkT 是一个 k × n 的正交矩阵的转置,这些矩阵对应于保留最重要的 k 个奇怪值和对应的奇怪向量。

TSVD 的次要长处在于它能够通过保留最重要的奇怪值和奇怪向量来实现数据的降维和压缩,从而缩小了存储和计算成本。这在解决大规模数据集时尤其有用,因为能够显著缩小所需的存储空间和计算工夫。

TSVD 在许多畛域都有利用,包含图像处理、信号处理、举荐零碎等。在这些利用中,TSVD 能够用于升高数据的维度、去除噪声、提取要害特色等。

7、Non-Negative Matrix Factorization (NMF)

Non-Negative Matrix Factorization (NMF) 是一种用于数据合成和降维的技术,其特点是合成失去的矩阵和向量都是非负的。这使得 NMF 在许多利用中都很有用,特地是在文本开掘、图像处理和举荐零碎等畛域。

给定一个非负矩阵 VV,NMF 将其合成为两个非负矩阵 WW 和 HH 的乘积模式:

其中,W 是一个 m × k 的非负矩阵,称为基矩阵(basis matrix)或者特色矩阵(feature matrix),H 是一个 k × n 的非负矩阵,称为系数矩阵(coefficient matrix)。这里的 k 是降维后的维度。

NMF 的长处在于它可能失去具备物理含意的合成后果,因为所有的元素都是非负的。这使得 NMF 在文本开掘中可能发现潜在的主题,而在图像处理中可能提取出图像的特色。此外,NMF 还具备数据降维的性能,能够缩小数据的维度和存储空间。

NMF 的利用包含文本主题建模、图像宰割与压缩、音频信号处理、举荐零碎等。在这些畛域中,NMF 被广泛应用于数据分析和特征提取,以及信息检索和分类等工作中。

总结

线性降维技术是一类用于将高维数据集映射到低维空间的技术,其核心思想是通过线性变换来保留数据集的次要特色。这些线性降维技术在不同的利用场景中有其独特的劣势和适用性,能够依据数据的性质和工作的要求抉择适合的办法。例如,PCA 实用于无监督的数据降维,而 LDA 实用于监督学习工作。

联合前一篇文章,咱们介绍了 10 种非线性降维技术核 7 种线性降维技术,上面咱们来做个总结

线性降维技术: 基于线性变换将数据映射到低维空间,实用于线性可分的数据集;例如数据点散布在一个线性子空间上的状况;因为其算法简略,所以计算效率高,易于了解和实现;通常不能捕获数据中的非线性构造,可能会导致信息失落。

非线性降维技术: 通过非线性变换将数据映射到低维空间;实用于非线性构造的数据集,例如数据点散布在流形上的状况;可能更好地保留数据中的非线性构造和部分关系,提供更好的可视化成果;计算复杂度较高,通常须要更多的计算资源和工夫。

如果数据是线性可分的或者计算资源无限,能够抉择线性降维技术。而如果数据蕴含简单的非线性构造或者须要更好的可视化成果,能够思考应用非线性降维技术。在实践中,也能够尝试不同的办法,并依据实际效果来抉择最合适的降维技术。

https://avoid.overfit.cn/post/8e5b22f48f3e4b68afc9e30e6d7c329e

正文完
 0