集成学习
集成学习正是应用多个个体学习器来取得比每个独自学习器更好的预测性能。
性能优劣不一的个体学习器放在一块儿可能产生的是更加中庸的成果,即比最差的要好,也比最好的要差。那么集成学习如何实现“1 + 1 > 2”呢?这其实是对个体学习器提出了一些要求。
一方面,个体学习器的性能要有肯定的保障。如果每个个体学习器的分类精度都不高,在集成时谬误的分类后果就可能占据少数,导致集成学习的成果甚至会劣于原始的个体学习器。
另一方面,个体学习器的性能要有肯定的差别,和而不同能力获得提高。多样性(diversity)是不同的个体学习器性能互补的前提。
因为个体学习器是为了解决雷同问题训练进去的,要让它们的性能齐全独立着实是勉为其难。尤其是当个体学习器的准确性较高时,要取得多样性就不得不以就义准确性作为代价。由此,集成学习的外围问题在于在多样性和准确性间做出折中,进而产生并联合各具劣势的个体学习器。
个体学习器的生成形式很大水平上取决于数据的应用策略。依据训练数据应用办法的不同,集成学习办法能够分为两类:个体学习器间存在强依赖关系因此必须串行生成的序列化办法,和个体学习器之间不存在强依赖关系因此能够同时生成的并行化办法。
典型的序列化学习算法是自适应晋升办法(Adaptive Boosting),人送绰号 AdaBoost。在解决分类问题时,晋升办法遵循的是循序渐进的准则。先通过扭转训练数据的权重散布,训练出一系列具备毛糙规定的弱个体分类器,再基于这些弱分类器进行重复学习和组合,结构出具备精密规定的强分类器。从以上的思维中不难看出,AdaBoost 要解决两个次要问题:训练数据权重调整的策略和弱分类器后果的组合策略。
典型的并行化学习办法是随机森林办法。正所谓“独木不成林”,随机森林就是对多个决策树模型的集成。“随机”的含意体现在两方面:一是每个数据子集中的样本是在原始的训练数据集中随机抽取的;二是在决策树生成的过程中引入了随机的属性抉择。在随机森林中,每棵决策树在抉择划分属性时,首先从结点的属性汇合中随机抽取出蕴含 k 个属性的一个子集,再在这个子集中抉择最优的划分属性生成决策树。
聚类分析
聚类分析是一种无监督学习办法,其指标是学习没有分类标记的训练样本,以揭示数据的外在性质和法则。具体来说,聚类分析要将数据集划分为若干个互不相交的子集,每个子集中的元素在某种度量之下都与本子集内的元素具备更高的类似度。
分类和聚类的区别于此:分类是先确定类别再划分数据;聚类则是先划分数据再确定类别。
聚类分析这项工作的两个外围问题:一是如何断定哪些样本属于同一“类”,二是怎么让同一类的样本“聚”在一起。
解决哪些样本属于同一“类”的问题须要对相似性进行度量。无论采纳何种划定规范,聚类分析的准则都是让类内样本之间的差异尽可能小,而类间样本之间的差异尽可能大。度量相似性最简略的办法就是引入间隔测度,聚类分析正是通过计算样本之间的间隔来断定它们是否属于同一个“类”。
确定了“类”的规范之后,接下来就要思考如何让同一类的样本“聚”起来,也就是聚类算法的设计。最次要的聚类算法如下:
档次聚类又被称为基于连贯的聚类,其核心思想源于样本该当与左近而非远离的样本具备更强的相关性。因为聚类生成的根据是样本之间的间隔,因此聚类的个性能够用聚类外部样本之间的间隔尺度来刻画。聚类的划分是在不同的间隔程度上实现的,划分过程就能够用树状图来形容,这也解释了 ” 档次聚类 ” 这个名称的起源。
原型聚类又被称为基于质心的聚类,其核心思想是每个聚类都能够用一个质心示意。原型聚类将给定的数据集初始决裂为若干聚类,每个聚类都用一个核心向量来刻画,而后通过重复迭代来调整聚类核心和聚类成员,直到每个聚类不再变动为止。
散布聚类又被称为基于概率模型的聚类,其核心思想是假设暗藏的类别是数据空间上的一个散布。在散布聚类中,每个聚类都是最可能属于同一散布的对象的汇合。这种聚类形式相似于数理统计中取得样本的形式,也就是每个聚类都由在总体中随机抽取独立同散布的样本组成。其毛病则在于无奈确定隐含的概率模型是否真的存在,因此经常导致过拟合的产生。
密度聚类又被称为基于密度的聚类,其核心思想是样本分布的密度可能决定聚类构造。每个样本集中散布的区域都能够看作一个聚类,聚类之间由扩散的噪声点辨别。密度聚类算法依据样本密度考查样本间的可连接性,再基于可连贯样本一直扩大聚类以取得最终后果。
降维学习
依据凡事抓主要矛盾的准则,对无足轻重的属性要给予足够的器重,无关紧要的属性则能够忽略不计,这在机器学习中就体现为降维的操作。
主成分剖析是一种次要的降维办法,它利用正交变换将一组可能存在相关性的变量转换成一组线性无关的变量,这些线性无关的变量就是主成分。
主成分剖析遵循如下的步骤:
数据规范化:对 m 个样本的雷同属性值求出算术平均数,再用原始数据减去平均数,失去规范化后的数据;
协方差矩阵计算:对规范化后的新样本计算不同属性之间的协方差矩阵,如果每个样本有 n 个属性,失去的协方差矩阵就是 n 维方阵;
特征值合成:求解协方差矩阵的特征值和特征向量,并将特征向量归一化为单位向量;
降维解决:将特征值依照降序排序,保留其中最大的 k 个,再将其对应的 k 个特征向量别离作为列向量组成特征向量矩阵;
数据投影:将减去均值后的 m×n 维数据矩阵和由 k 个特征向量组成的 n×k 维特征向量矩阵相乘,失去的 m×k 维矩阵就是原始数据的投影。
主成分剖析中降维的实现并不是简略地在原始特色中抉择一些保留,而是利用原始特色之间的相关性从新结构出新的特色。
为什么简略的数学运算可能带来良好的成果呢?
从线性空间的角度了解,主成分剖析能够看成将正交空间中的样本点以最小误差映射到一个超平面上。如果这样的超平面存在,那它应该具备以下的性质:一方面,不同样本点在这个超平面上的投影要尽可能地扩散;另一方面,所有样本点到这个超平面的间隔都应该尽可能小。