关于数据:拯救深度学习标注数据不足下的深度学习方法

摘要：解决深度学习对数据的依赖问题和缩小数据标注老本成为了业界的钻研热点。本文将介绍以下几个钻研方向：半监督/弱监督学习、数据合成、被动学习、自监督。

1. 引言

得益于深度学习的倒退，许多计算机视觉工作在近几年获得了不错的成果。然而，现有的深度学习算法多是有监督学习算法，依赖大量人工标记的训练数据，而标注数据非常消耗人力老本。因而，解决深度学习对数据的依赖问题和缩小数据标注老本成为了业界的钻研热点。本文选取了相干畛域的局部论文，将介绍以下几个方向：半监督/弱监督学习；数据合成；被动学习；自监督。

2. 半监督/弱监督学习

半监督学习是监督学习和无监督学习相结合的一种学习办法。半监督/弱监督学习应用大量的未标注数据/弱标注数据，同时应用小局部已标注数据，来训练机器学习模型。它预期的后果是通过对大部分未标注数据/弱标注数据的利用，失去的模型优于单纯只用已标注数据训练的模型。弱标注数据的数据标签信息量较少且标注难度小，比方在指标检测工作中，通常须要标注指标的类别和坐标，弱标注数据则只标注出图像中的指标类别，没有坐标信息。

论文[1] 是半监督方向的图像分类论文，试验次要在手写体图像数据集上进行，包含MNIST、CIFAR等，图1是该论文办法的架构。如图所示，图中左上角和左下角别离是未标注数据集U和已标注L，两头的橘红色模块是论文的神经网络，右侧是数据的筛选模块。流程如下：先应用已标注数据集L训练失去初始模型M1，而后应用M1在未标注数据集U上进行推理，U中的每张图像都会失去一个分类后果和对应的置信度S。基于S对U中的样本进行筛选，将分类置信度较高的样本U1和对应的推理后果当作GT，退出已标注样本中L=L+U1，持续训练模型失去M2。之后反复上述流程，训练集数量一直减少，模型性能也逐步变好。最终失去的模型M性能要远远优于只应用L训练失去的模型M1。

图1

论文[2]使半监督和弱监督学习在字符级别的文本检测畛域的一篇论文，思维跟[1]相似，也是通过增量学习的形式来boost模型。如图2所示，应用预训练的字符集检测模型对左侧的未标注数据集U进行推理，失去检测后果D。图2两头高低模块别离示意半监督和弱监督筛选模块。半监督模块通过置信度阈值剔除掉D中检测不规范的检测框，弱监督模块带有“单词级”的标注框信息，所以将不在“单词级”标注框内的字符检测框剔除掉。之后用两个模块的输入后果从新训练模型。

图2

论文[3]是应用检测框标注信息做宰割工作的GAN（generative adversarial network）文章。如图[3]所示，左侧为带有检测框信息的图像，两头为生成器generator，右侧为鉴别器discriminator。图3两头的上支路在原始图像标注框外裁剪出背景区域，下支路从原始图像裁剪出标注框的指标区域，两头的生成器在原图标注框内生成mask，之后将mask和高低支路的两张图像联合成fake image，鉴别器须要甄别图像是实在的还是合成的。通过生成反抗的形式，最初训练出一个良好的生成器宰割网络，而全过程只应用了检测框标注信息监督，没有宰割标注信息参加。

图3

3. 数据合成

既然有监督学习无奈防止模型对标注数据的依赖，那么主动生成数据也是缩小人工成本的一个形式。数据合成的形式很多，包含人工设计规定，应用GAN网络生成等。论文[4]针对文本辨认工作提出了基于人工设计规定的合成数据办法。合成的图像样本由前景图像层、背景图像层、边缘/暗影层组成，合成步骤分为六步：

font rendering：随机抉择字体并将文本出现入前景层；

border/shadow rendering：从前景层的文字中产生边缘暗影等；

base coloring：给三个图层填色；

projective distortion：对前景和暗影进行随机扭曲变换；

natural data blending：将图像跟实在场景图像进行混合；

noise：退出高斯噪声等。

图4

利用GAN进行domain adaptation，合成数据也是一个钻研方向。次要关注点包含source domain和target domain的appearance和geometry的类似水平。论文[5]则同时思考两种类似来做生成反抗。

图5

4. 被动学习

不同样本对现有模型的晋升帮忙是不同的，正如人类的学习过程一样，只学习小学常识的人很难冲破初中常识的瓶颈。被动学习的出发点与此相似，就是心愿从未标注数据集中筛选对模型晋升帮忙最大的子集交给人工标注。因而在标注同样数据量的样本的状况下（同样的标注老本），采纳被动学习策略筛选样本训练的模型是靠近最优的。被动学习的流程如图6所示，左侧的已标注数据集训练失去模型，模型在未标注数据集上推理，并将标注意义较大的样本推给人工标注，再将新标注的数据集从新训练和晋升模型。

图6

被动学习畛域定义未标注数据对模型晋升帮忙的指标包含不确定性、差异性和多样性等。不确定性指现有模型对该样本的推理置信度不够高，差异性指新样本跟已标注数据集的样本差别，多样性则是强调新样本外部足够多样化。在分类问题中，论文[6]是分类工作中的被动学习过程，依据模型对输出图像的生成patch预测的差异性和不确定度来掂量。论文[7]则强调检测工作中检测框的置信度只代表分类置信度，不具备地位置信度，因而提出地位置信度补充评估检测框的优劣：二阶段检测器中RPN和最终输入框的差别（图7），数据裁减后的检测框与原图检测框的差别。

图7

论文[8]则指出现有被动学习模型大多是task-specific，因而提出了task-agnostic的筛选样本策略，并在分类、检测等工作中验证了试验。如图8所示，论文提出了可旁加在骨干工作学习网络的loss预测分支，对未标注数据集进行loss预测，预测loss大的样本外表模型对它的不确定性高。Loss预测分支在训练阶段时的监督信息是骨干工作学习网络的loss。

图8

5. 自监督

自监督学习是无监督学习的一种，近期是学术界的钻研热点。它通过利用无标签的数据自身的构造或者个性，人为结构标签进去监督网络学习。通常自监督学习的模型并不间接利用在指标工作上，而是作为上游工作的预训练模型。论文[9]是自监督学习的一个新进展，应用该论文办法失去的无监督模型，作为预训练模型在许多上游工作fine-tune后的成果优于应用有监督学习的预训练模型fine-tune的。图9（c）是MoCo的算法图，（a）（b）示意之前的相干办法。

Contrastive learning是MoCo的出发点，即对输出样本做数据裁减失去裁减集，之后在图中左侧encoder输出，右侧encoder输出或中的样本，其中是不同于的其余样本，通过contrastive loss优化网络对雷同样本源的输出编码出类似特色，对不同样根源的输出编码出差别特色。在该过程中，有两个关键点：计算量不能太大，否则计算资源不容许；右侧的encoder提取的特色k应尽可能是由最新的encoder失去的。图9（a）别离是应用mini-batch中的一个样本作为，残余样本作为，益处是每个mini-batch中的k都是最新的，害处是k的数量太少，受mini-batch限度。图9（b）则是对所有样本进行编码存入memory bank中，并定期更新，益处是k的数量能够不受限制，害处是的特色不肯定是最新的。MoCo则应用了队列存储的特色，将最新的样本特色送入队列，队尾的特色剔除，队列大小可控，且k根本是最近期间的encoder提取的。

图9

6. 总结

缩小数据标注老本曾经成为深度学习畛域一个不可回避的研究课题，一方面，合成数据，让机器主动标注数据是值得深挖的方向，另一方面，缩小神经网络的数据依赖或者能模型意识数据自身的外在构造也尤为重要。更有业界权威人士认为，数据提炼或是人工智能的下一个突破口。

[1] Yuliang Liu, et al. Automatic labeling of large amounts of handwritten characters with gate-guided dynamic deep learning . PR letters, 2017

[2] Shangxuan Tian1 ,et al. WeText: Scene Text Detection under Weak Supervision.ICCV 2017.

[3] Tal Remez,et al. Learning to Segment via Cut-and-Paste. ECCV, 2018

[4] Tal Remez,et al. Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition. CVPR,2014

[5] Fangneng Zhan,et al. Spatial Fusion GAN for Image Synthesis. CVPR, 2019

[6] Zongwei Zhou,et al. Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally. CVPR, 2017

[7] Chieh-Chi Kao,et al. Localization-Aware Active Learning for Object Detection. ACCV, 2018

[8] Donggeun Yoo,et al. Learning Loss for Active Learning. CVPR, 2019

[9] Kaiming He, et al. Momentum Contrast for Unsupervised Visual Representation Learning.CVPR 2020

点击关注，第一工夫理解华为云陈腐技术~