共计 1428 个字符,预计需要花费 4 分钟才能阅读完成。
Micro-Outlier Removal:这个词听起来不错。然而这个术语是本文的作者独创的。所以应该找不到其余相干的材料,然而看完本篇文章你就能够理解这个词的含意。
在 Kaggle 的《Titanic》排行榜中,作者应用这项技术取得了微小排名飞跃 -
在应用这个技术之前排名是 12616
应用这个技术后排名是 4057
Micro-Outlier Removal 的动机
有许多改善机器学习模型的技术:超参数优化,网格搜寻,甚至主动 ML,那么当初还短少什么呢?作者感觉缺啥一种基于直觉的可视化办法。因为 通过基于直觉的可视化办法能够超过目前所有机器学习优化技术,因为当初人工智能的技术还是在模仿人类。
当初让咱们看看 Micro-Outlier Removal 是什么样子的
Micro-Outlier 定位办法
这是作者应用的泰坦尼克数据模型训练的一些信息:
- 只应用了以下特色:PClass, Sex, SibSp, Parch, Fare, Embarked.
- 没有应用年龄,因为它蕴含很多缺失的值。
- 没有进行其余的工程
- 应用的机器学习算法是根本的 5 级决策树,应用 30-70 的拆分策略
这里显示的是基于训练数据集和决策树算法的决策边界。下图中的图例示意下图中色彩的含意。
上图中能够看到以下几个观点:预测生存的决策面 (绿色区域) 大多位于两头。预测非存活的决策面 (红色区域) 次要位于两侧。一般来说,没有幸存下来的乘客 (蓝点) 被分组在一起。相似地,幸存的乘客 (绿点) 被分组在一起。
Micro-Outlier 定位办法如下:
- 一群非幸存者中的幸存者
- 一群幸存者中的非幸存者
下图显示了带有红色箭头的小异样值。
剖析 micro-outliers
为了更好地了解离群点,让咱们剖析一下位于左上角的 micro-outliers。可视化的分析方法如上面的动画图像所示。当咱们悬停在每个点上时,它显示了每个点的柱的雷达图。
你会发现所有的点都与男性乘客无关,他们的 PCLass(即三等)很高,而且是从 s 港登程的乘客。所有这些乘客都没有幸存,除了这几个小的异样点。
这里的小异样是乘客尤金·帕特里克·戴利。他是一名三等舱乘客,坐在上层甲板上,他跳进了寒冷的水里。他没有活下来的机会。然而报道中说,他活了下来的起因是他的大衣很厚,他把这件大衣保留了很多年,并把它称为“侥幸大衣”。
尽管咱们为他可能活下来感到高兴,但他并不适宜机器学习! 因为一些含糊的起因 (如大衣的厚度) 幸存下来对咱们来说就是异样值,这会烦扰咱们的机器学习模型。咱们并不知道每个乘客的外套厚度。所以最好的方法就是把它从训练数据中去掉。
通过这种技术来辨认泰坦尼克号数据中这些“侥幸”的人! 因为这是任何经典的异样值检测算法都无奈做到这一点。
作者移除了 6 小的异样点而后训练模型,与没有删除异常值的相比,排名有了很大的晋升。
总结
这是一种很好的基于直觉的办法,在不须要大量简单编码的状况下进步机器学习模型的准确性。在某种程度上,咱们正在移除那些可能使模型不必要地复杂化的数据点,从而取得整体模型的准确性。
之所以称这个办法为小技巧是因为他可能只针对于某些特定的数据集,并且这个办法也阐明了:80% 的数据 +20% 的模型 = 更好的机器学习,明天这篇文章的目标其实很简略,就是想阐明有时 kaggle 上的高排名并不是因为模型,而是因为非凡的数据处理办法。
https://avoid.overfit.cn/post/36a2d8369c6241f0aa7c5331e110336c
作者:Pranay Dave