关于机器学习:降维和特征选择的对比介绍

48次阅读

共计 1564 个字符,预计需要花费 4 分钟才能阅读完成。

在 machine learning 中,特色降维和特征选择是两个常见的概念,在利用 machine learning 来解决问题的论文中常常会呈现。特色降维和特征选择的目标都是使数据的维数升高,使数据维度降小。但实际上两者的区别是很大,他们的实质是齐全不同的。

降维?

升高数据集中特色的维数,同时放弃尽可能多的信息的技术被称为降维。它是机器学习和数据挖掘中罕用的技术,能够最大限度地升高数据复杂性并进步模型性能。

降维能够通过多种形式实现,包含:

主成分剖析 (PCA):PCA 是一种统计办法,可辨认一组不相干的变量,将原始变量进行线性组合,称为主成分。

第一个主成分解释了数据中最大的方差,而后每个后续成分解释主键变少。PCA 常常用作机器学习算法的数据预处理步骤,因为它有助于升高数据复杂性并进步模型性能。

LDA(线性判别分析):LDA 是一种用于分类工作的统计工具。它的工作原理是确定数据属性的线性组合,最大限度地拆散不同类别。为了进步模型性能,LDA 常常与其余分类技术 (如逻辑回归或反对向量机) 联合应用。

t-SNE: t- 散布随机街坊嵌入 (t-SNE) 是一种非线性降维办法,特地实用于显示高维数据集。它保留数据的部分构造来,也就是说在原始空间中凑近的点在低维空间中也会凑近。t-SNE 常常用于数据可视化,因为它能够帮忙辨认数据中的模式和关系。

独立重量剖析(Independent Component Analysis)ICA 实际上也是对数据在原有特色空间中做的一个线性变换。绝对于 PCA 这种降秩操作,ICA 并不是通过在不同方向上方差的大小,即数据在该方向上的扩散水平来判断那些是次要成分,那些是不须要到特色。而 ICA 并没有设定一个所谓次要成分和主要成分的概念,ICA 认为所有的成分等同重要,而咱们的指标并非将重要特征提取进去,而是找到一个线性变换,使得变换后的后果具备最强的独立性。PCA 中的不相干太弱,咱们心愿数据的各阶统计量都能利用,即咱们利用大于 2 的统计量来表征。而 ICA 并不要求特色是正交的。如下图所示:

还有许多其余技术能够用于降维,包含多维缩放、自编码器等。技术的抉择将取决于数据的具体特色和剖析的指标。

特征选择?

在数据集中抉择一个特色子集 (也称为预测因子或自变量) 用于机器学习模型的过程被称为特征选择。特征选择的目标是发现对预测指标变量 (也称为响应变量或因变量) 最相干和最重要的特色。

应用特征选择有很多长处:

  • 改良的模型可解释性: 通过升高模型中的特色量,能够更容易地把握和解释变量和模型预测之间的关系。
  • 升高过拟合的危险: 当一个模型蕴含太多特色时,它更有可能过拟合,这意味着它在训练数据上体现良好,但在新的未知数据上体现不佳。通过抉择最相干特色的子集,能够帮忙限度过拟合的危险。
  • 改良模型性能: 通过从模型中删除不相干或多余的特色,能够进步模型的性能和准确性。

有许多可用的特征选择办法:

  • 过滤办法: 这些办法基于相干或互相信息等统计测量来抉择特色。
  • 包装器办法: 这些办法利用机器学习算法来评估各种特色子集的性能,并抉择最佳的一个。
  • 嵌入办法: 这些办法将特征选择作为机器学习算法训练过程的一部分。

所应用的特征选择办法将由数据的品质和钻研的指标决定。为了为模型抉择最优的特色子集,通常是尝试各种办法并比拟后果。

降维与特征选择的区别

特征选择从数据集中抉择最重要特色的子集,特征选择不会扭转原始特色的含意和数值,只是对原始特色进行筛选。而降维将数据转换为低维空间,会扭转原始特色中特色的含意和数值,能够了解为低维的特色映射。这两种策略都能够用来进步机器学习模型的性能和可解释性,但它们的运作形式是截然不同的。

https://avoid.overfit.cn/post/080bfade8cd046d5ad0523311d3b86ce

作者:Ankit Sanjyal

正文完
 0