关于深度学习:如何解决回归任务数据不均衡的问题

摘要：现有的解决不均衡数据 / 长尾散布的办法绝大多数都是针对分类问题，而回归问题中呈现的数据不平衡问题确极少被钻研。

本文分享自华为云社区《如何解决回归工作数据不平衡的问题？》，原文作者：PG13。

现有的解决不均衡数据 / 长尾散布的办法绝大多数都是针对分类问题，而回归问题中呈现的数据不平衡问题确极少被钻研。然而，事实很多的工业预测场景都是须要解决回归的问题，也就是波及到间断的，甚至是有限多的目标值，如何解决回归问题中呈现的数据不平衡问题呢？ICML2021 一篇被接管为 Long oral presentation 的论文：Delving into Deep Imbalanced Regression，推广了传统不平衡分类问题的范式，将数据不均衡问题从离散值域推广到了间断值域，并提出了两种解决深度不平衡回归问题的办法。

次要的奉献是三个方面：1）提出了一个深度不平衡回归（Deep Imbalanced Regression, DIR）工作，定义为从具备间断指标的不均衡数据中学习，并能泛化到整个指标范畴；2）提出了两种解决 DIR 的新办法，标签散布平滑（label distribution smoothing, LDS）和特色散布平滑（feature distribution smoothing, FDS），来解决具备间断指标的不均衡数据的学习问题；3）建设了 5 个新的 DIR 数据集，包含了 CV、NLP、healthcare 上的不均衡回归工作，致力于帮忙将来在不均衡数据上的钻研。

事实世界的数据通常不会每个类别都具备现实的均匀分布，而是呈现出长尾的偏斜散布，其中某些目标值的观测值显著较少，这对于深度学习模型有较大的挑战。传统的解决办法能够分为基于数据和基于模型两种：基于数据的解决方案无非对多数群体进行过采样和对少数群体进行下采样，比方 SMOTE 算法；基于模型的解决方案包含对损失函数的重加权（re-weighting）或利用相干的学习技巧，如迁徙学习、元学习、两阶段训练等。

然而现有的数据不均衡解决方案，次要是针对具备 categorical index 的目标值，也就是离散的类别标签数据。其目标值属于不同的类别，并且具备严格的硬边界，不同类别之间没有重叠。事实世界很多的预测场景可能波及到间断目标值的标签数据。比方，依据人脸视觉图片预测年龄，年龄便是一个间断的目标值，并且在指标范畴内可能会高度失衡。在工业畛域中，也会产生相似的问题，比方在水泥畛域，水泥熟料的品质，个别都是间断的目标值；在配煤畛域，焦炭的热强指标也是间断的目标值。这些利用中须要预测的指标变量往往存在许多罕见和极其值。在间断域的不均衡问题在线性模型和深度模型中都是存在的，在深度模型中甚至更为严重，这是因为深度学习模型的预测往往都是 over-confident 的，会导致这种不均衡问题被重大的放大。

因而，这篇文章定义了深度不均衡回归问题（DIR），即从具备间断目标值的不均衡数据中学习，同时须要解决某些指标区域的潜在的确数据，并使最终模型可能泛化到整个反对所有目标值的范畴上。

解决 DIR 问题的三个挑战如下：

对于间断的目标值（标签），不同目标值之间的硬边界不再存在，无奈间接采纳不均衡分类的解决办法。
间断标签实质上阐明在不同的目标值之间的间隔是有意义的。这些目标值间接通知了哪些数据之间相隔更近，领导咱们该如何了解这个间断区间上的数据不平衡的水平。
对于 DIR，某些目标值可能基本没有数据，这为对目标值做 extrapolation 和 interpolation 提供了需要。

首先通过一个例子展现一下当数据呈现不平衡的时候，分类和回归问题之间的区别。作者在两个不同的数据集：（1）CIFAR-100，一个 100 类的图像分类数据集；（2）IMDB-WIKI，一个用于依据人像估算年龄（回归）的图像数据集，进行了比拟。通过采样解决来模仿数据不均衡，保障两个数据集具备完全相同的标签密度散布，如下图所示：

而后，别离在两个数据集上训练一个 ResNet-50 模型，并画出它们的测试误差的散布。从图中能够看出，在不均衡的分类数据集 CIFAR-100 上，测试误差的散布与标签密度的散布是高度负相关的，这很好了解，因为领有更多样本的类别更容易学好。然而，间断标签空间的 IMDB-WIKI 的测试误差散布更加平滑，且不再与标签密度散布很好地相干。这阐明了对于间断标签，其教训标签密度并不能精确地反映模型所看到的不平衡。这是因为相临标签的数据样本之间是相干的，相互依赖的。

标签散布平滑 ：基于这些发现，作者提出了一种在统计学习畛域中的核密度估计（LDS）办法，给定间断的教训标签密度散布，LDS 应用了一个对称核函数 k，用教训密度散布与之卷积，失去一个 kernel-smoothed 的无效标签密度散布，用来直观 体现邻近标签的数据样本具备的信息重叠问题，通过 LDS 计算出的无效标签密度散布后果与误差散布的相关性明显增强。有了 LDS 预计出的无效标签密度，就能够用解决类别不均衡问题的办法，间接利用于解决 DIR 问题。比方，最简略地一种 make sence 形式是利用重加权的办法，通过将损失函数乘以每个目标值的 LDS 预计标签密度的倒数来对其进行加权。

如果模型预测失常且数据是平衡的，那么 label 相近的 samples，它们对应的 feature 的统计信息应该也是彼此靠近的。这里作者也举了一个实例验证了这个直觉。作者同样应用对 IMDB-WIKI 上训练的 ResNet-50 模型。次要 focus 在模型学习到的特色空间，不是标签空间。咱们关注的最小年龄差是 1 岁，因而咱们将标签空间分为了等距离的区间，将具备雷同指标区间的因素分到同一组。而后，针对每个区间中的数据计算其相应的特色统计量（均值、方差）。特色的统计量之间的相似性可视化为如下图：

红色区间代表 anchor 区间，计算这个 anchor label 与其余所有 label 的特色统计量（即均值、方差）的余弦类似度。此外，不同色彩区域（紫色，黄色，粉红色）示意不同的数据密度。从图中能够失去两个论断：

anchor label 和其邻近的区间的特色统计量是高度类似的。而 anchor label = 30 刚好是在训练数据量十分多的区域。这阐明了，当有足够多的数据时，特色的统计量在邻近点是类似的。
此外，在数据量很少的区域，如 0 - 6 岁的年龄范畴，与 30 岁年龄段的特色统计量高度类似。这种不合理的相似性是因为数据不平衡造成的。因为，0- 6 岁的数据很少，该范畴的特色会从具备最大数据量的范畴继承其先验。

特色散布平滑：受到这些启发，作者提出了特色散布平滑（FDS）。FDS 是对特色空间进行散布的平滑，实质上是在邻近的区间之间传递特色的统计信息。此过程的次要作用是去校准特色散布的潜在的有偏差的预计，尤其是对那些样本很少的目标值而言。

具体来说，有一个模型，f 代表一个 encoder 将输出数据映射到隐层的特色，g 作为一个 predictor 来输入间断的预测目标值。FDS 会首先预计每个区间特色的统计信息。这里用特色的协方差代替方差，来反映特色 z 外部元素之间的关系。给定特色统计量，再次应用对称核函数 k 来 smooth 特色均值和协方差的散布，这样能够拿到统计信息的平滑版本。利用预计和平滑统计量，遵循规范的 whitening and re-coloring 过程来校准每个输出样本的特色示意。那么整个 FDS 过程能够通过在最终特色图之后插入一个特色的校准层，实现将 FDS 集成到深度网络中。最初，在每个 epoch 采纳了动量更新，来取得对训练过程中特色统计信息的一个更稳固和更精确的预计。

IMDB-WIKI-DIR(vision, age)：基于 IMDB-WIKI 数据集，从蕴含人面部的图像来推断预计相应的年龄。
AgeDB-DIR(vision, age)：基于 AgeDB 数据集，同样是依据输出图像进行年龄预计。
NYUD2-DIR(vision, depth)：基于 NYU2 数据集，用于构建 depth estimation 的 DIR 工作。
STS-B-DIR(NLP, test similarity score)：基于 STS- B 数据集，工作是推断两个输出句子之间的语义文本的类似度得分。
SHHS-DIR(Healthcare, health condition score)：基于 SHHS 数据集，该工作是推断一个人的总体衰弱评分。

具体的试验能够查看该论文，这里附上论文原文以及代码地址：

[论文]：https://arxiv.org/abs/2102.09554

[代码]：https://github.com/YyzHarry/i…

点击关注，第一工夫理解华为云陈腐技术~

关于深度学习:如何解决回归任务数据不均衡的问题

数据不均衡问题背景

不均衡回归问题的挑战

解决办法一：标签散布平滑（LDS）

解决办法二：特色散布平滑（FDS）

基准 DIR 数据集