关于人工智能:小白学AI八种应对样本不均衡的策略

48次阅读

共计 2214 个字符，预计需要花费 6 分钟才能阅读完成。

文章来自：微信公众号【机器学习炼丹术】

分类 (classification) 问题是数据挖掘畛域中十分重要的一类问题，目前有目不暇接的办法来实现分类。然而在实在的应用环境中，分类器 (classifier) 表演的角色通常是辨认数据中的“少数派”，比方：

银行辨认信用卡异样交易记录
垃圾邮件辨认
检测流水线辨认残次品
病情监测与辨认等等

在这样的应用环境下，作为少数派的群组在数据总体中往往占了极少的比例：绝大多数的信用卡交易都是失常交易，八成以上的邮件都是失常邮件，大多数的流水线产品是合格产品，在进行查看的人群中特定疾病的发病率通常非常低。

如果这样的话，假如 99% 的正样本 +1% 的负样本形成了数据集，那么假如模型的预测后果全是正，这样的齐全没有分辨能力的模型也能够失去 99% 的准确率。这个依照样本个数计算准确率的评估指标叫做——Accuracy.

因而咱们为了防止这种状况，最罕用的评估指标就是 F -score,Precision&Recal，Kappa 系数。

【F-Score 和 Kappa 系数曾经在历史文章中解说过啦】

解决办法次要有上面 10 种不同的办法。

重采样 resampling
- 上采样：简略上采样，SMOT，ADASYN
- 下采样：简略下采样，聚类 Cluter，Tomek links
调整损失函数
异样值检测框架
二分类变成多分类
EasyEnsemble

重采样的目标就是让少的样本变多，或者是让多的样本变少。下图很形象的展现出这个过程：

【简略上采样】

就是 有放回的随机抽取少数量的样本，饭后一直复制抽取的随机样本，直到少数量的样本与多数量的样本处于同一数量级。然而这样容易造成过拟合问题。

为什么会造成过拟合呢？ 最极其的例子就是把一个样本复制 100 次，这样就有了一个 100 样本的数据库。模型训练进去很可能失去 100% 的正确率，然而这模型真的学到货色了吗？

【SMOTE】

SMOT:Synthetic Minority Over-sampling Technique.(翻译成中文，合成起码个体上采样技术？)

核心思想是 根据现有的少数类样本人为制作一些新的少数类样本 SMOTE 在先用 K 近邻算法找到 K 个近邻，利用这个 K 个近邻的各项指标，乘上一个 0~1 之间的随机数就能够组成一个新的少数类样本。容易发现的是，就是SMOTE 永远不会生成离群样本

【ADASYN】

ADASYN：Adaptive Synthetic Sampling Approach（自适应合成样本办法）

ADASYN 其实是 SMOTE 的一种衍生技术，相比 SMOT 在每一个少数类样本的四周随机的创立样本，ADASYN 给每一个少数类的样本调配了权重，在 学习难度较高的少数类样本四周创立更多的样本 。在 K 近邻分类器分类谬误的那些样本 四周生成更多的样本，也就是给他们更大的权重，而并不是随机 0~1 的权重。

这样的话，就如同，一个负样本四周有正样本，通过这样的解决后，这个负样本四周会产生一些相近的负样本。这样的弊病也是不言而喻的，就是对离群点异样敏感。

【简略下采样】
这个很简略，就是随机删除一些少数的样本。弊病天然是，样本数量的缩小，删除了数据的信息

【聚类】
这个是一个十分有意思的办法。咱们先选取样本之间 类似度的评估函数，比方说就用欧氏间隔（可能须要对样本的数据做归一化来保障不同特色的同一量纲）。

办法 1：假如有 10 个负样本和 100 个正样本，对 100 个正样本做 kmeans 聚类，总共聚 10 个类进去，而后每一个类核心作为一个正样本。

办法 2：应用 K 近邻，而后用 K 个样本的核心来代替原来 K 个样本。始终这样做，直到正样本的数量等于负样本的数量。

【Tomek links】

这个不晓得咋翻译

Tomek links 是指相同类样本的配对，这样的配对间隔十分近，也就是说这样的配对中两个样本的各项指标都十分靠近，然而属于不同的类。如图所示，这一办法可能找到这样的配对，并删除配对中的少数类样本。通过这样的解决，两类样本之间的分界线变得更加清晰，使少数类的存在更加显著。

下图是操作的过程。

调整损失函数的目标自身是为了使模型对少数量样本更加敏感。训练任何一个机器学习模型的最终目标是损失函数 (loss function) 的最小化，如果可能在损失函数中加大错判少数类样本的损失，那么模型自然而然可能更好地辨认出少数类样本。

比拟驰名的损失函数就是指标检测工作中的 focal loss。不过在解决其余工作的时候，也能够人为的减少多数样本错判的损失。

将分类问题转换成为一个异样值监测框架

这个异样值检测框架又是一个十分大的体系，有很多不同的模型，比方说：异样森立等。之后会专门讲讲这个体系的模型的。

（小伙伴关注下公众号呗，不迷路呀）

对于不平衡水平较低的数据，能够将多数量样本进一步分为多个组，尽管二分类问题被转化成了一个多分类问题，然而数据的不均衡问题被解决，接下来就能够应用多分类中的一对多 (OVA) 或一对一 (OVO) 的分类形式进行分类。

就是把少数类的样本通过聚类等办法，划分成不同的类别。这样 2 分类工作就变成了多分类工作。

另外一种欠采样的改良办法是 EasyEnsemble，它将少数样本划分成若 N 个汇合，而后将划分过后的汇合与多数样本组合，这样就造成了 N 个训练汇合，而且每个训练都正负样本平衡，并且从全局来看却没有信息失落。

正文完

人工智能

发表至：人工智能

2020-08-01

0

关于人工智能:22-继承与多态

关于人工智能:第三届-Apache-Flink-极客挑战赛暨-AAIG-CUP-报名开始

关于人工智能:Attention机制与算子学习

关于人工智能:阿里云低代码行业智能开放平台开拓行业AI应用新方法

关于golang:Go语言系列三之数组和切片

关于人工智能:小白学AI八种应对样本不均衡的策略

1 什么是非均衡

2 8 种解决办法

2.1 重采样（四种办法）

2.2 调整损失函数

2.3 异样值检测框架

2.4 二分类变成多分类

2.5 EasyEnsemble

Just My Socks（注册教程内含优惠码）

关于人工智能:小白学AI八种应对样本不均衡的策略

1 什么是非均衡

2 8 种解决办法

2.1 重采样（四种办法）

2.2 调整损失函数

2.3 异样值检测框架

2.4 二分类变成多分类

2.5 EasyEnsemble

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）