共计 2100 个字符,预计需要花费 6 分钟才能阅读完成。
背景
深度神经网络通常对离线采集的图像(标记的源数据)进行训练,而后嵌入到边缘设施中,以测试从新场景中采集的图像(未标记的指标数据)。在实践中,这种模式因为域转移而升高了网络性能。近年来,越来越多的研究者对无监督畛域适应(UDA)进行了深入研究,以解决这一问题。
Vanilla UDA 旨在将源数据和指标数据对齐到联结示意空间中,以便依据源数据训练的模型能够很好地推广到指标数据。然而,学术研究与工业需要之间依然存在差距:大多数现有的 UDA 办法仅应用固定的神经构造进行权重自适应,但无奈无效地满足事实世界利用中各种设施的要求。
以图 1 所示的宽泛应用的利用场景为例,在这种状况下,一般 UDA 办法必须重复训练一系列具备不同容量和体系结构的模型,以满足具备不同计算估算的设施的需要,这既低廉又耗时。
为了解决上述问题,作者提出了 Slimmable Domain Adaption(SlimDA),即只对模型进行一次训练,这样就能够灵便地从中抽取具备不同容量和体系结构的定制模型,以满足不同计算估算的设施的需要。
图 1 SlimDA
当细微的神经网络满足无监督畛域自适应时,依然存在两个挑战:
1)权重自适应:如何同时进步模型库中所有模型的自适应性能。
2)架构适应:给定特定的计算估算,如何在未标记的指标数据上搜寻适当的模型。
对于第一个挑战,作者提出了随机集成蒸馏(SEED)来交互模型库中的模型,以克制模型内自适应对未标记指标数据的不确定性。表 1 显示了 SEED 和传统常识蒸馏之间的差别。
表 1 传统常识蒸馏(CKD)与随机集成蒸馏(SEED)
对于第二个挑战,作者提出了一种无监督的绩效评估指标,能够缓解候选模型和锚模型之间的输入差别。度量值越小,假如性能越好。
奉献
1. 提出了 SlimDA,一个“一劳永逸”的框架,以独特适应资源无限设施的适应性能和计算估算。
2. 提出了 SEED,可能同时进步模型库中所有模型的适应性能。
3. 设计了一个优化拆散的三分类器来调节模型内适应和模型间交互之间的优化。
4. 提出了一种无监督的性能评估指标,以促成架构适应。
相干办法
1. 无监督域自适应(UDA)
现有的 UDA 办法旨在进步模型在未标记指标域上的性能。在过来几年中,提出了基于差别的办法和对抗性优化办法,通过域对齐来解决这个问题。SymNet 开发了一种双分类器体系结构,以促成类别级畛域混同。最近,Li 等人试图学习最佳架构,以进一步提高指标域的性能,这证实了网络架构对 UDA 的重要性。这些 UDA 办法侧重于实现在指标域上具备更好性能的特定模型。
- 神经架构搜寻(NAS)
NAS 办法旨在通过强化学习、进化办法、基于梯度的办法等主动搜寻最优架构。最近,一次性办法十分风行,因为只须要训练一个超级网络,并且同时优化了各种架构的多个权重共享子网络。这样,就能够从模型库中搜寻最优的网络结构。在本文中,作者强调 UDA 对于 NAS 来说是一个未被留神到但意义重大的场景,因为它们能够在无监督的状况下单干优化特定于场景的轻量级体系结构。
3. 跨域网络压缩
Chen 等人提出了一种跨域非结构化剪枝办法。Y u 等人采纳 MMD 来最小化域差别,并在基于泰勒的策略中修剪过滤器,Yang 等人专一于压缩图神经网络。Feng 等人在通道修剪网络和全尺寸网络之间进行对抗性训练。然而,现有办法的性能仍有很大的改良空间。此外,他们的办法不够灵便,无奈在不同的资源束缚下取得泛滥的最优模型。
办法 - SlimDA 框架
在可精简的神经网络中曾经证实,具备不同宽度(即层通道)的泛滥网络能够耦合到权重共享模型库中,并同时进行优化。从一个基线开始,在此基线中,SymNet 间接与细微的神经网络合并。
为了简略起见,SymNet 的总体目标对立为 Ldc。在每次训练迭代中,能够从模型库 {(Fj,Csj,Ctj)}mj= 1 中随机抽样几个模型∈(F,Cs,Ct),命名为模型批次,其中 m 示意模型批次大小。此处(F、Cs、Ct)可被视为最大模型,其余模型可通过权重共享的形式从中采样。
为了确保模型库可能失去充沛的训练,应在每次训练迭代中对最大和最小的模型进行采样,并将其形成模型批的一部分。
该基线可被视为 Eqn 的两个交替过程。为了激励上述基线中的模型间交互,作者提出了 SlimDA 框架,如图 2 所示。该框架由随机集成蒸馏(SEED)和优化拆散三分类器(OSTC)设计组成。
SEED 旨在利用模型库中的互补常识进行多模型交互。Cs 和 Ct 分类器上的红色箭头示意畛域混同训练 Ldc 和模型库中的常识聚合。Ca 分类器上的紫色箭头示意种子优化 Lseed。
图 2 SlimDA 框架 - 随机集成蒸馏(SEED)
SEED 旨在利用模型库中的互补常识进行多模型交互。模型库中的不同模型能够直观地学习无关未标记指标数据的补充常识。受带有模型扰动的贝叶斯学习的启发,作者通过蒙特卡罗采样利用模型库中的模型来克制未标记指标数据的不确定性。
模型置信度定义:
锐化函数以诱导种子训练期间的隐式熵最小化:
- 优化拆散三分类器(OSTC)
其中前两个用于域混同训练,最初一个用于接管随机聚合的常识以进行蒸馏。蒸馏损失公式如下:
- 无监督性能评估指标
无监督绩效评估指标(UPEM):