关于人工智能:MicroOutlier-Removal-一种Kaggle快速提分的小技巧

Micro-Outlier Removal：这个词听起来不错。然而这个术语是本文的作者独创的。所以应该找不到其余相干的材料，然而看完本篇文章你就能够理解这个词的含意。

在Kaggle 的《Titanic》排行榜中，作者应用这项技术取得了微小排名飞跃-

在应用这个技术之前排名是12616

应用这个技术后排名是4057

Micro-Outlier Removal的动机

有许多改善机器学习模型的技术：超参数优化，网格搜寻，甚至主动ML，那么当初还短少什么呢？作者感觉缺啥一种基于直觉的可视化办法。因为通过基于直觉的可视化办法能够超过目前所有机器学习优化技术，因为当初人工智能的技术还是在模仿人类。

当初让咱们看看Micro-Outlier Removal是什么样子的

Micro-Outlier 定位办法

这是作者应用的泰坦尼克数据模型训练的一些信息：

只应用了以下特色:PClass, Sex, SibSp, Parch, Fare, Embarked.
没有应用年龄，因为它蕴含很多缺失的值。
没有进行其余的工程
应用的机器学习算法是根本的5级决策树，应用30-70的拆分策略

这里显示的是基于训练数据集和决策树算法的决策边界。下图中的图例示意下图中色彩的含意。

上图中能够看到以下几个观点：预测生存的决策面(绿色区域)大多位于两头。预测非存活的决策面(红色区域)次要位于两侧。一般来说，没有幸存下来的乘客(蓝点)被分组在一起。相似地，幸存的乘客(绿点)被分组在一起。

Micro-Outlier 定位办法如下:

一群非幸存者中的幸存者
一群幸存者中的非幸存者

下图显示了带有红色箭头的小异样值。

剖析micro-outliers

为了更好地了解离群点，让咱们剖析一下位于左上角的micro-outliers。可视化的分析方法如上面的动画图像所示。当咱们悬停在每个点上时，它显示了每个点的柱的雷达图。

你会发现所有的点都与男性乘客无关，他们的PCLass(即三等)很高，而且是从s港登程的乘客。所有这些乘客都没有幸存，除了这几个小的异样点。

这里的小异样是乘客尤金·帕特里克·戴利。他是一名三等舱乘客，坐在上层甲板上，他跳进了寒冷的水里。他没有活下来的机会。然而报道中说，他活了下来的起因是他的大衣很厚，他把这件大衣保留了很多年，并把它称为“侥幸大衣”。

尽管咱们为他可能活下来感到高兴，但他并不适宜机器学习!因为一些含糊的起因(如大衣的厚度)幸存下来对咱们来说就是异样值，这会烦扰咱们的机器学习模型。咱们并不知道每个乘客的外套厚度。所以最好的方法就是把它从训练数据中去掉。

通过这种技术来辨认泰坦尼克号数据中这些“侥幸”的人!因为这是任何经典的异样值检测算法都无奈做到这一点。

作者移除了6小的异样点而后训练模型，与没有删除异常值的相比，排名有了很大的晋升。

总结

这是一种很好的基于直觉的办法，在不须要大量简单编码的状况下进步机器学习模型的准确性。在某种程度上，咱们正在移除那些可能使模型不必要地复杂化的数据点，从而取得整体模型的准确性。

之所以称这个办法为小技巧是因为他可能只针对于某些特定的数据集，并且这个办法也阐明了：80%的数据+20%的模型=更好的机器学习，明天这篇文章的目标其实很简略，就是想阐明有时kaggle上的高排名并不是因为模型，而是因为非凡的数据处理办法。

https://avoid.overfit.cn/post/36a2d8369c6241f0aa7c5331e110336c

作者：Pranay Dave

关于人工智能:MicroOutlier-Removal-一种Kaggle快速提分的小技巧

Micro-Outlier Removal的动机

Micro-Outlier 定位办法

剖析micro-outliers

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:MicroOutlier-Removal-一种Kaggle快速提分的小技巧

Micro-Outlier Removal的动机

Micro-Outlier 定位办法

剖析micro-outliers

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复