明天我将探讨一些在过来十年中呈现的次要的半监督学习模型。首先让咱们谈谈什么是半监督学习以及咱们为什么对它感兴趣!
假如咱们有一个大的标记图像数据集。咱们想应用这些数据来构建一个模型,进行图像分类的工作,解决这个问题的规范办法是构建卷积神经网络 (CNN)。CNN 已被证实在应用大型数据集进行训练时能够提供最先进的后果。
上面就是一个十分重要的问题,如果咱们没有大型标记数据集怎么办?例如咱们工作中的分类与当初的预训练的数据集例如imagenet没有交加,或者说咱们解决的具体的畛域没有大量公共标记数据。这样,咱们标记数据通常就需是手工实现的——但这个过程很低廉,而且也很耗时。
这就是半监督的劣势,咱们正在构建一个生成标签作为输入的模型,然而如果咱们不须要人工手动标记所有数据,而是只须要标记其中的一小部分,而后将其留给模型来确定其余的标签应该是什么,这样能够吗?事实证明,这个想法十分无效,并且多年来曾经开发了许多相似的计划。咱们明天要探讨的计划是Noisy student, π-Model,和Temporal Ensembling
Noisy Student Model
Noisy Student是2019 年由 Xie 等人提出的 。该模型的工作原理如下:
首先,在手动标记的图像子集上训练“老师”模型。论文中形容的老师模型应用了 EfficientNet 架构。老师模型通过最小化穿插熵损失进行训练,并用于为每个未标记的图像推断“伪标签”。这些伪标签能够是软标签或硬标签的模式保留。(软标签示意为间断散布,而硬标签是独热编码)。
接下来,应用手动标记和伪标记数据训练“学生”模型。通过数据加强(特地是 RandAugment)用于向输出增加噪声;dropout 和stochastic depth用于向模。
而后,再应用最新的学生模型作为新老师,此过程会反复几次(通常为 3 次)。
嘈杂的学生模型产生了过后最先进的后果。它的性能优于它所基于的 EfficientNet 架构(88.4% 对 85.5%)以及之前最先进的 FixRes ResNeXt-101 WSL。
π-Model
该模型由 Laine 等人在2016 年提出。该模型的工作原理如下:
遍历每个输出(标记和未标记的输出混合在一起)。对于每个输出,咱们计算该图像的两个随机加强。将这两个加强图像输出到咱们的卷积神经网络中,该网络产生两个输入向量。
π-model 的核心思想是,为了标准模型并使其对噪声有弹性,咱们应该惩办它对同一图像的加强给出不同的预测。因而,除了通常用于此类图像分类工作的规范穿插熵损失(只为标记数据计算)外,咱们还依据两个输入向量之间的平方差在损失中增加了一个被称为样本的“一致性损失”的损失项。
数据点的最终损失是穿插熵损失(如果数据点被标记)和一致性损失的加权和。权重 w(t) 决定了一致性损失绝对于穿插熵损失的权重。在第一个 epoch 期间,w(t) = 0,因为咱们没有来自之前 epoch 的数据能够用来对未标记的点进行有意义的分类。随着模型的停顿,w(t) 遵循高斯曲线减少。
Temporal Ensembling
Temporal Ensembling与 π-model 密切相关——事实上,它们是在同一篇论文中提出的。
π-model 的一个问题是训练指标十分嘈杂,因为它们基于随机加强和单个模型评估。Temporal Ensembling不是对每个图像进行两次加强并比拟两次加强的预测,而是让跟踪指数挪动平均值并将其用作训练指标。为其计算单个加强和单个预测向量,而后将其与该挪动平均值进行比拟以取得最终的一致性损失。
Temporal Ensembling的工作形式与π-model大致相同。以雷同的形式思考穿插熵损失,并且 w(t) 再次遵循高斯曲线。然而Temporal Ensembling的训练速度更快(因为咱们只须要对每个输出评估一次模型而不是两次),并且训练指标的噪声较小。
CIFAR-10上的 π-model 和Temporal Ensembling比照
SVHN 上的π-model 和Temporal Ensembling比照
π-model 和Temporal Ensembling在他们的时代产生了最先进的后果。并且在无限数据上训练时,特地优于其余模型。
该论文还测试了这些模型在接管到虚伪信息时的性能——也就是说,当相当大比例的标签齐全随机调配时。该模型的性能随着虚伪信息的增加而好转,而Temporal Ensembling对不正确的标签具备很强的健壮性。
援用:
Temporal Ensembling for Semi-Supervised Learning 1610.02242
Self-training with Noisy Student improves ImageNet classification 1911.04252
https://www.overfit.cn/post/c292cf69a9194b859c0d0b51be96ce88
作者:Jacob Alexander Yatvitskiy
发表回复