乐趣区

关于人工智能:Curriculum-Labeling重新审视半监督学习的伪标签

Curriculum Labeling (CL),在每个自训练周期之前重新启动模型参数,优于伪标签 (PL)

Pseudo-Labeling (PL) 通过将伪标签利用于未标记集中的样本以在自训练周期中进行模型训练。Curriculum Labeling (CL)中,利用相似课程学习的准则,通过在每个自学习周期之前重新启动模型参数来防止概念漂移。该论文公布在 2021 AAAI。

伪标签 (PL) 简要回顾

伪标签能够认为是未标记数据的指标类,就如同它们是真正的标签一样。伪标签是通过选取网络为每个未标记样本预测的最大预测概率的类来实现的。伪标签应用带有 Dropout 的微调阶段,能够将预训练的网络以有监督的形式同时应用标记和未标记的数据进行训练。

Curriculum Labeling (CL)

模型在标记样本上进行训练。而后该模型用于预测和调配未标记样本的伪标签。预测概率分数的散布用于抉择伪标记样本的子集。应用标记和伪标记样本从新训练新模型。通过应用这个新模型从新标记未标记的样本来反复这个过程。当训练期间应用数据集中的所有样本时,该过程进行。

具体来说,百分位分数用于决定增加哪些样本。下面的算法显示了模型的残缺流程,其中 percentile (X, Tr)返回第 r 个百分位的值。r 的值从 0% 到 100% 以 20 为单位递增。当伪标记集蕴含整个训练数据样本 (r=100%) 时,反复过程终止。

数据由 N 个有标记的样例 (Xi, Yi) 和 M 个无标记的样例 Xj 组成。设 H 是一组假如 H θ,其中 H θ∈H,其中 H θ∈H 示意一个映射 X 到 Y 的函数。设 Lθ(Xi)示意给定例子 Xi 的损失。为了抉择具备最低可能误差的最佳预测器,公式能够用正则化教训危险最小化 (ERM) 框架解释。

上面,L(θ)定义为伪标记正则化教训损失:

上图的 cee 为穿插熵 cross entropy

试验后果

下图为基于 WideResNet-28 在 CIFAR-10 和 SVHN 上的测试错误率

下图为应用 CNN-13 在 CIFAR-10 和 SVHN 上的测试错误率

CL 在 CIFAR-10 上出乎意料地超过了之前基于伪标记的办法和一致性正则化办法。

CL 的数据加强是以齐全随机的形式进行的转换,称为随机加强(RA)。在 SVHN 上,CL 办法与以前所有依赖中高度数据加强的办法相比,具备竞争性的测试误差。

测试 SSL 算法的一种常见做法是,应用每个类的 50、100 和 200 个样本来扭转标记数据的大小。当解决较小的标签集时 CL 也不会显著升高。

在 ImageNet 上,CL 以最先进的技术获得了具备竞争力的后果,得分十分靠近目前的顶级体现办法。模型为 ResNet-50, 应用已标记 / 未标记数据的 10%/90% 的训练宰割。

对于标记样本分布外的实在评估后果如下:

在 Oliver NeurIPS’18 更事实的 SSL 设置中,未标记数据可能与标记数据不共享同一类集。该试验是通过综合扭转 CIFAR-10 上的类重叠来复制的,这里只抉择动物类来执行分类(鸟、猫、鹿、狗、青蛙、马)。

CL 对散布外的类具备鲁棒性,而以前办法的性能显着降落。据揣测,所提出的自定进度是 CL 中体现良好的要害,其中自适应阈值计划能够帮忙在训练期间过滤散布外的未标记样本。

融化钻研

标签的有效性

不同的数据加强,如混同和 SWA,在利用传统的伪标记时,没有进度,也没有特定的阈值(即 0.0)。只有在对伪标注进行重数据加强时,该办法能力在不应用任何数据裁减的状况下匹配所提出的进度设计。

在伪标记 (PL) 中应用的固定阈值,这些阈值用于蕴含伪标记的未标记数据。CL 可能产生比传统的伪标记办法,即便在利用重数据加强时应用固定阈值显著的收益。

只有最有把握的样本在 CL 中被从新标记。相信阈值为 0.9 和 0.9995。应用精心筛选的阈值是次优的。

从新初始化与微调的有效性后果如下:

从新初始化模型会产生至多 1% 的晋升,并且不会给倡议的自定进度办法减少显着的开销。与微调相同,从新初始化模型的确显着进步了准确性,展现了一种代替且可能更简略的解决方案来缓解确认偏差问题。

论文地址:https://avoid.overfit.cn/post…

作者:Sik-Ho Tsang

退出移动版