Bagging 和 Boosting
集成学习的两个代表作
1.Bagging
算法过程:通过对训练样本中从新采样的办法失去不同的训练样本集,失去 k 个训练集(k 个训练集之间是互相独立的);训练每一个训练集失去 k 个模型,分类问题采纳 votes 形式,回归模型采纳 mean 形式失去最初的后果。
2.Boosting
算法流程:将一个弱分类器一直强化成一个强分类器。初始时每个样本的权重是相等的,首先第一个学习器依据全量样本集进行学习,第二个学习器增大分错样本的权重,缩小分对样本的权重,顺次进行训练,最终对 k 个模型进行加权的组合。
bagging 和 boosting 的区别
- 1)样本抉择和权重
bagging:有放回的抽样,各训练集之间互相独立
boosting:全量样本集,只是权重产生了变动,分错样本权重更大
- 2)弱模型组合
bagging:弱模型权重相等
boosting:误差分类小的模型会有更大的权重
- 3)并行计算
bagging:并行生成
boosting:只能是串行生成
- 4)侧重点
bagging:缩小方差(variance)
boosting:缩小偏差(bias)