共计 2652 个字符,预计需要花费 7 分钟才能阅读完成。
一周未见,,甚是惦记!明天小 Mi 带大家学习如何降维,这是咱们遇到的第二种类型的无监督学习问题!废话不多说,咱们开始吧~
1 降维示例
首先,什么是降维呢?这个问题应该最先搞清楚,因为数据集通常有许多特色,咱们能够举一个简略的例子来剖析:
假如有未知两个的特色:长度,用厘米示意;是用英寸示意同一物体的长度。
而特色和都是根本的长度度量,其实只须要有一个特色示意就能够了,因而咱们能够将数据缩小到一维。尽管可能是采纳两种不同的仪器来测量一些货色的尺寸,其中一个仪器测量后果的单位是英寸,另一个仪器测量的后果是厘米,然而将两者都作为特色的确有些反复。
而在上图中是一个对于钻研直升飞机主动驾驶的实例,如果做一个针对不同飞行员的考察,特色示意飞行员的技能,示意飞行员的喜好,兴许这两个特色高度相干,而咱们真正关怀的可能是图中红线的方向,这个时候就能够将二维数据降为一维数据,如下图所示。
当然咱们还能够将数据从三维降至二维:将三维向量投射到一个二维的立体上,使得所有的数据都在同一个立体上,降至二维的特征向量,如下图所示。
相似于上述的处理过程能够被用于把任何维度的数据降到任何想要的维度,例如将 1000 维的特色降至 100 维。这样的做法进行了数据压缩后,只会占用较少的计算机内存或磁盘空间,同时也放慢了学习算法的运行速度。
同时在许多学习问题中,如果咱们将数据可视化,说不定能够寻找到一个更好的解决方案,降维也是其中惯例采纳的伎俩之一。
倘若咱们有对于许多不同国家的数据,每一个特征向量都有 50 个特色(如 GDP,人均 GDP,平均寿命等)。如果要将这个 50 维的数据可视化是不可能的,因而应用降维的办法将其降至 2 维,咱们便能够将其可视化了。
这样做的问题在于,降维的算法只负责缩小维数,产生的新特色有什么样的意义就须要咱们本人去摸索啦。
2 主成分剖析问题
而在降维算法中,主成分剖析 (PCA) 是最常见的。
在 PCA 中,咱们要做的是找到一个方向向量(Vector direction),把所有的数据都投射到该向量上时,咱们心愿投射的均匀均方误差能尽可能地小。方向向量是一个通过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度。
上面给出主成分剖析问题的形容:
问题是要将维数据降至维,指标是找到向量,使得总的投射误差最小。
须要留神的是,主成分剖析与线性回归是两种不同的算法。主成分剖析是要最小化投射误差(Projected Error),而线性回归则是须要最小化预测误差。线性回归的目标是预测后果,而主成分剖析不作任何预测。
上图中,右边是线性回归的误差(垂直于横轴投影),左边则是次要成分剖析的误差(垂直于红线投影)。
PCA 将个特色降维到个,比方 100 维的向量最初能够用 10 维来示意,那么数据的压缩率为 90%。图像处理畛域的 KL 变换就是应用 PCA 进行图像压缩,同时确保降维后数据的个性损失最小。
PCA 技术的益处:
1. 对数据进行降维的解决时,能够对新求出的“主元”向量的重要性进行排序,依据须要取后面最重要的局部,将前面的维数省去,能够达到降维从而简化模型或是对数据进行压缩的成果,同时最大水平的放弃了原有数据的信息。
2. 齐全无参数限度的。在 PCA 的计算过程中齐全不须要人为的设定参数或是依据任何教训模型对计算进行干涉,最初的后果只与数据相干,与用户是独立的;
3. 然而这同时也是个毛病,如果用户对观测对象有肯定的先验常识,把握了数据的一些特色,却无奈通过参数化等办法对处理过程进行干涉,可能会得不到预期的成果,效率也不高。
3 主成分剖析算法
PCA 缩小维到维:
第一步是均值归一化。计算出所有特色的均值,而后令,如果特色是在不同的数量级上,还须要将其除以标准差。
第二步是计算协方差矩阵(covariance matrix):
第三步是计算协方差矩阵的特征向量(eigenvectors)。
能够利用奇怪值合成(singular value decomposition)来求解:
对于一个维度的矩阵,上式中的是一个具备与数据之间最小投射误差的方向向量形成的矩阵。将数据从维降至维,只须要从中选取前个向量,取得一个维度的矩阵,用示意,而后通过如下计算取得要求的新特征向量
其中是维的。
4 抉择主成分的数量
次要成分剖析是缩小投射的均匀均方误差:
训练集的方差为:
咱们心愿在均匀均方误差与训练集方差的比例尽可能小的状况下抉择尽可能小的值。
如果心愿这个比例小于 1%,就意味着本来数据的偏差有 99% 都保留下来了,如果抉择保留 95% 的偏差,便能十分显著地升高模型中特色的维度了。
咱们能够先令,而后进行次要成分剖析,取得和,而后计算比例是否小于 1%。如果不是的话再令,如此类推,直到找到能够使得比例小于 1% 的最小值(起因是各个特色之间通常状况存在某种相关性)。
当然还有一些更好的形式来抉择,能够调用“svd”函数:
其中的是一个的矩阵,只有对角线上有值,而其它单元都是 0,能够应用这个矩阵来计算均匀均方误差与训练集方差的比。例:
也就是:
在压缩过数据后,能够采纳如下办法来近似地取得原有的特色:
5 重建的压缩示意
PCA 作为压缩算法通常会把 1000 维的数据压缩 100 维特色,那么如何回到原有的高维数据呢?
如图中样本,把这些样本投射到图中一维立体上,会当初只须要应用一个实数,比方。而给定一个点,如何复原到原始的二维空间呢?为 2 维,为 1 维,,相同的方程为:。如图:
从低维数据回到未压缩的的原始数据,咱们把这个过程称为重建原始数据。
当试图重建初始值时,给定未标记的数据集,应用 PCA,高维特色映射低维,反之,低维映射到原有的高维数据。
6 主成分分析法的利用倡议
倘若针对一张 100×100 像素的图片进行某个计算机视觉的机器学习,即总共有 10000 个特色,步骤如下:
1. 首先使用次要成分剖析将数据进行压缩
2. 而后对训练集运行学习算法
3. 在预测时,采纳将输出的特色转换成特征向量,而后再进行预测
注:如果有穿插验证汇合测试集,也采纳。
应用次要成分剖析的常见谬误:
1. 将其用于缩小过拟合(缩小了特色的数量)。次要成分剖析只是近似地抛弃掉一些特色,它并不思考任何与后果变量无关的信息,因而可能会失落十分重要的特色。然而当咱们进行正则化解决时,会思考到后果变量,不会丢掉重要的数据。
2. 默认次要成分剖析为学习过程中的一部分,最好还是从所有原始特色开始,只在有必要的时候(算法运行太慢或者占用太多内存)才间接采纳次要成分剖析。
好啦,明天的介绍就完结啦~ 下期小 Mi 带大家学习异样检测!咱们下期再见呦(挥手十分钟)~~