关于人工智能:小白学AI八种应对样本不均衡的策略

文章来自：微信公众号【机器学习炼丹术】

1 什么是非均衡

分类(classification)问题是数据挖掘畛域中十分重要的一类问题，目前有目不暇接的办法来实现分类。然而在实在的应用环境中，分类器(classifier)表演的角色通常是辨认数据中的“少数派”，比方：

银行辨认信用卡异样交易记录
垃圾邮件辨认
检测流水线辨认残次品
病情监测与辨认等等

在这样的应用环境下，作为少数派的群组在数据总体中往往占了极少的比例：绝大多数的信用卡交易都是失常交易，八成以上的邮件都是失常邮件，大多数的流水线产品是合格产品，在进行查看的人群中特定疾病的发病率通常非常低。

如果这样的话，假如99%的正样本+1%的负样本形成了数据集，那么假如模型的预测后果全是正，这样的齐全没有分辨能力的模型也能够失去99%的准确率。这个依照样本个数计算准确率的评估指标叫做——Accuracy.

因而咱们为了防止这种状况，最罕用的评估指标就是F-score,Precision&Recal，Kappa系数。

【F-Score和Kappa系数曾经在历史文章中解说过啦】

2 8种解决办法

解决办法次要有上面10种不同的办法。

重采样resampling
- 上采样：简略上采样，SMOT，ADASYN
- 下采样：简略下采样，聚类Cluter，Tomek links
调整损失函数
异样值检测框架
二分类变成多分类
EasyEnsemble

2.1 重采样（四种办法）

重采样的目标就是让少的样本变多，或者是让多的样本变少。下图很形象的展现出这个过程：

【简略上采样】

就是有放回的随机抽取少数量的样本，饭后一直复制抽取的随机样本，直到少数量的样本与多数量的样本处于同一数量级。然而这样容易造成过拟合问题。

为什么会造成过拟合呢？ 最极其的例子就是把一个样本复制100次，这样就有了一个100样本的数据库。模型训练进去很可能失去100%的正确率，然而这模型真的学到货色了吗？

【SMOTE】

SMOT:Synthetic Minority Over-sampling Technique.(翻译成中文，合成起码个体上采样技术？)

核心思想是根据现有的少数类样本人为制作一些新的少数类样本 SMOTE在先用K近邻算法找到K个近邻，利用这个K个近邻的各项指标，乘上一个0~1之间的随机数就能够组成一个新的少数类样本。容易发现的是，就是SMOTE永远不会生成离群样本

【ADASYN】

ADASYN：Adaptive Synthetic Sampling Approach（自适应合成样本办法）

ADASYN其实是SMOTE的一种衍生技术，相比SMOT在每一个少数类样本的四周随机的创立样本，ADASYN给每一个少数类的样本调配了权重，在学习难度较高的少数类样本四周创立更多的样本。在K近邻分类器分类谬误的那些样本四周生成更多的样本，也就是给他们更大的权重，而并不是随机0~1的权重。

这样的话，就如同，一个负样本四周有正样本，通过这样的解决后，这个负样本四周会产生一些相近的负样本。这样的弊病也是不言而喻的，就是对离群点异样敏感。

【简略下采样】
这个很简略，就是随机删除一些少数的样本。弊病天然是，样本数量的缩小，删除了数据的信息

【聚类】
这个是一个十分有意思的办法。咱们先选取样本之间类似度的评估函数，比方说就用欧氏间隔（可能须要对样本的数据做归一化来保障不同特色的同一量纲）。

办法1：假如有10个负样本和100个正样本，对100个正样本做kmeans聚类，总共聚10个类进去，而后每一个类核心作为一个正样本。

办法2：应用K近邻，而后用K个样本的核心来代替原来K个样本。始终这样做，直到正样本的数量等于负样本的数量。

【Tomek links】

这个不晓得咋翻译

Tomek links是指相同类样本的配对，这样的配对间隔十分近，也就是说这样的配对中两个样本的各项指标都十分靠近，然而属于不同的类。如图所示，这一办法可能找到这样的配对，并删除配对中的少数类样本。通过这样的解决，两类样本之间的分界线变得更加清晰，使少数类的存在更加显著。

下图是操作的过程。

2.2 调整损失函数

调整损失函数的目标自身是为了使模型对少数量样本更加敏感。训练任何一个机器学习模型的最终目标是损失函数(loss function)的最小化，如果可能在损失函数中加大错判少数类样本的损失，那么模型自然而然可能更好地辨认出少数类样本。

比拟驰名的损失函数就是指标检测工作中的focal loss。不过在解决其余工作的时候，也能够人为的减少多数样本错判的损失。

2.3 异样值检测框架

将分类问题转换成为一个异样值监测框架

这个异样值检测框架又是一个十分大的体系，有很多不同的模型，比方说：异样森立等。之后会专门讲讲这个体系的模型的。

（小伙伴关注下公众号呗，不迷路呀）

2.4 二分类变成多分类

对于不平衡水平较低的数据，能够将多数量样本进一步分为多个组，尽管二分类问题被转化成了一个多分类问题，然而数据的不均衡问题被解决，接下来就能够应用多分类中的一对多(OVA)或一对一(OVO)的分类形式进行分类。

就是把少数类的样本通过聚类等办法，划分成不同的类别。这样2分类工作就变成了多分类工作。

2.5 EasyEnsemble

另外一种欠采样的改良办法是 EasyEnsemble ，它将少数样本划分成若 N个汇合，而后将划分过后的汇合与多数样本组合，这样就造成了N个训练汇合，而且每个训练都正负样本平衡，并且从全局来看却没有信息失落。

关于人工智能:小白学AI八种应对样本不均衡的策略

1 什么是非均衡

2 8种解决办法

2.1 重采样（四种办法）

2.2 调整损失函数

2.3 异样值检测框架

2.4 二分类变成多分类

2.5 EasyEnsemble

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:小白学AI八种应对样本不均衡的策略

1 什么是非均衡

2 8种解决办法

2.1 重采样（四种办法）

2.2 调整损失函数

2.3 异样值检测框架

2.4 二分类变成多分类

2.5 EasyEnsemble

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复