原文链接
论文地址:https://arxiv.org/pdf/1901.01...
摘要
目前在孪生网络追踪器中应用的骨干网络绝对较浅,例AlexNet。本文钻研如何利用更深和更广的卷积神经网络来加强跟踪的鲁棒性和准确性。应用改良后的网络间接替换,例如ResNet和Inception,并没有带来改良。次要起因是 1)神经元感触野的大幅减少导致特色可辨性和定位精度升高; 2)卷积的网络 padding 在学习中引起地位偏差。
为了解决这些问题,咱们提出了新的残差模块,以打消padding的负面影响,并进一步设计应用这些模块的新架构,具备受控的感触野大小和步长。设计的架构利用于SiamFC+和SiamRPN时保障了实时跟踪速度。试验表明,仅仅因为所提出的网络架构,咱们的 SiamFC+和 SiamRPN+别离在OTB-15,VOT-16和VOT-17数据集上,绝对于原始版本取得了高达9.8%/ 5.7%(AUC),23.3%/ 8.8%(EAO)和 24.4%/ 25.0%(EAO)的绝对改良。
1.介绍
1.1 相干钻研
RPN具体介绍:https://mp.weixin.qq.com/s/VX...
SiamFC具体介绍:https://mp.weixin.qq.com/s/kS...
SiamRPN具体介绍:https://mp.weixin.qq.com/s/pm...
1.2 本文介绍
咱们用更深更广的网络取代VGG,Inception和ResNet等网络的浅层主干网。但这种简略的替换并没有带来太大的改良,甚至可能在网络深度或宽度减少时导致性能大幅降落,如图1所示。
图1:胜利图的AUC与网络深度和宽度。宽度width是指模块中分支的数量。通过对 OTB-13 的评估,应用具备不同骨干网络的 SiamFC取得了这个后果。
剖析了Siamese网络架构,确定神经元的感触野大小、卷积步长、padding是影响跟踪精度的三个重要因素。感触野确定用于计算特色的图像区域。较大的感触野提供更大的图像上下文,而较小的感触野可能无奈捕获指标对象的构造。stride影响定位精度,同时管制输入特色图的大小。padding在模型训练中引起潜在的地位偏差。
在本文中,咱们通过设计新的残差模块和网络架构来解决这些问题。首先,咱们提出了一组基于“瓶颈(bottleneck)”的残差块的外部裁剪(cropping-inside residual,CIR)单元。CIR单元在块外部裁剪出受填充 padding 影响的特色(即接管填充信号的特色),从而避免卷积滤波器学习地位偏差。其次,咱们通过重叠 CIR单元设计了两种网络架构,即更深和更宽的网络。为了进步定位精度,咱们设计了特定的步幅和感触野。
2. 性能进化剖析
性能降落能够间接归因于网络结构,是图1试验中惟一扭转的设置。因而,咱们首先确定这些网络架构之间的构造差别。如表格2所示,除了深度和宽度之外,网络中还有其余几个不同的外部网络因素,包含步幅(STR),填充(PAD),最初一层神经元的感触野(RF)和输入特色尺寸(OFS)。
咱们批改了 AlexNet,VGG,Inception 和 ResNet 的构造,并揭示了外部因素的影响。如表格1所示,Siamese更喜爱中级特色(步幅4或8),这些特色在物体定位方面比高级特色更准确(步幅≥16)。对于感触野(RF),最佳感触野大小笼罩输出样本图像z的约60%~80%。对于输入特色尺寸,察看到小尺寸(OFS≤3)不利于跟踪精度。
表1:AlexNet,VGG 10,Inception -22和ResNet-33上的网络外部因素剖析。数字①- ⑩代表不同的版本,其中批改卷积内核大小,下采样层和填充以显示趋势。因为空间无限,补充资料中给出了无关批改的详细信息。
1.为了更好地显示趋势,咱们将±0示意为网络的原始RF大小。+和-示意绝对于原来的增大和减小尺寸。Max(127)示意最大无效RF,其与示例图像的大小雷同,即127x127像素。
2.对于Inception网络,其RF大小位于一个范畴内。这里咱们只列出实践上的最大尺寸,与ResNet对齐进行比拟。
表2:不同网络的外部因素:最初一层网络中的神经元的感触野(RF),步幅(STR),输入特色尺寸(OFS),填充(PAD)和宽度(W)。因为Inception在一个块中蕴含多个分支,因而其 RF位于一个范畴内。
Siamese 框架将核心裁剪的图像对作为训练数据传入,其中指标对象始终存在于图像核心。如果输入单元的感触野延长超出图像边界(受padding影响),网络模型学习地位产生偏差。图2给出了测试阶段中这种学习偏差的可视化示例。它显示当指标对象挪动到图像边界时,其峰值不能准确批示指标的地位。这是由跟踪器漂移引起的常见状况。
图2:模型中学习的地位偏差的可视化
3. 方针
1.将步幅设定为4或8。
2.最佳感触野大小笼罩输出样本图像 z的约 60%~80%
3.在设计网络架构时,应将stride,感触野和输入特色尺寸视为一个整体。这三个因素并不是彼此独立的。如果一个扭转,其他人将相应扭转。将它们联合在一起能够帮忙设计的网络在Siamese框架中提取更多的有判断力的特色。
4.对于全卷积的Siamese网络,删除padding操作重要。padding引起的地位偏差会升高孪生跟踪器的准确性和鲁棒性。
4. 外部裁剪残差(CIR)单元
残差单元(residual unit)是网络架构设计中的要害模块。它由3个重叠的卷积层和绕过它们的快捷连贯(shortcut connection)组成,如图3(a)所示。这三层是1×1,3×3和1×1个卷积,其中1×1层负责缩小或复原尺寸,使3×3层成为具备较小输出和输入尺寸的瓶颈(bottleneck)。此瓶颈卷积包含大小为1的zero-padding,以确保在增加之前兼容的输入大小。
图3:拟议的外部残余单位。(a)和(b)是残差单元和下采样单元(down sampling unit),而(a‘)和(b’)是咱们提出的单位。(c)和(d)是倡议的宽残差单元。灰色箭头示意便于信息流传的shortcut paths,而蓝色方框则突出显示与原始单位的差别。字母'p'和's'别离示意padding大小和步长。
CIR单元。如第3节所述,padding可能会在Siamese框架中引入地位偏差。为此咱们减少残差单位进行裁剪操作,如图 3(a’)所示。裁剪操作会删除计算受zero-padding信号影响的特色,打消了残差单元中的padding影响特色。
下采样CIR(CIR-D)单元。它用于缩小特色图的空间大小,同时使特色通道的数量加倍。下采样单元蕴含padding操作,如图 3(b)所示。因而,咱们还批改其构造以打消由padding引起的负面影响。如图 3(b’)所示,咱们在瓶颈层和shortcut connection中将卷积步幅从2改为1。插入裁剪以移除受padding影响的特色。最初,应用最大池化层来执行特色图的空间下采样。这些批改的要害思维是确保仅删除受填充影响的特色,同时放弃外部块构造不变。
CIR-Inception和CIR-NeXt单元。依据Inception和ResNeXt,通过多个特色变换扩大CIR单元,生成CIR-Inception和CIR-NeXt 模块,如图 3(c-d)所示。具体来说,在CIR-Inception构造中,咱们在shortcut connection中插入一个1x1卷积,并合并两个分支的特色。在CIR-ResNeXt中,咱们将瓶颈层拆分为32个转换分支,并通过增加进行聚合。此外,对于CIR-Inception 和CIR-NeXt的下采样单元,批改与CIR-D(图 3(b’))中的批改雷同,其中卷积步幅减小并且减少了最大池化层。
5. 网络架构 Network Architectures
通过重叠上述CIR单元,咱们构建了更深更宽的网络。首先确定stride,步幅8用于构建3级网络,而步幅4用于构建2级网络。而后,咱们重叠CIR单位。咱们管制每个阶段的unit数量和下采样unit的地位。指标是确保最初一层神经元的感触野大小位于无效范畴内,即样本图像大小的 60%-80%。另外,当网络深度减少时,感触野可能超过该范畴。因而,咱们将步幅减半,以管制感触野。
更深的网络。咱们应用CIR和CIR-D单元构建更深的网络。这些构造相似于ResNet,但具备不同的stride,感触野和结构单元(building blocks)。
CIResNet-22有3个局部(stride=8),22个卷积层。除了第一个7×7卷积,其余都是CIR单位。在7×7卷积之后进行裁剪操作(大小为2)以移除受padding影响的特色。前两个阶段的特色下采样是通过原来ResNet的卷积和步幅2的最大池化来执行的。在第三阶段,通过所提出的CIR-D单元执行下采样,该CIR-D单元位于该阶段的第一个块(共四个)。当feature map大小被下采样时,卷积核的数量加倍以减少特色可分别性。输入feature map大小是5×5,每个feature感触野的相应大小93×93。
构建CIResNet-43时进一步将网络深度减少到43层,设计为2个阶段,在 CIResNet-43的第二阶段,有14个块,其中第四个块具备用于特色下采样的 CIR-D 单元。
更宽的网络。咱们别离应用CIR-Inception和CIR-NeXt单元构建两种类型的宽网络体系结构。咱们提供一个22层构造作为示例。正如表3所示,CIResInception-22和CIResNeXt-22具备与CIResNet-22相似的构造。然而通过多分支构建块,网络宽度别离减少了2倍和32倍。而且,因为多分支级联,在CIResInception-22中感触野大小变得多样化(即13~93)。
表3:用于连体跟踪器的设计骨干网络的架构。CIResNet-43中CIR-D位于'conv3'阶段的第四个块中,其余网络用于第一个块。
6. 试验
咱们首先将咱们更深更宽的网络与SiamFC和SiamRPN中的骨干AlexNet进行比拟。正如表4中所示,在OTB-13,OTB-15和VOT-17数据集上,咱们提出的网络优于基线AlexNet。特地是,装备CIResIncep-22网络的 SiamFC 别离在OTB-2013和VOT-1上取得了比原始AlexNet高9.5%(AUC)和14.3%(EAO)的绝对改良。同时,装备CIResNet-22的SiamRPN实现了4.4%和23.3%的绝对改善。这验证了咱们设计的体系结构解决了图1中所示的性能降落问题。此外,它还显示了咱们提出的CIR单元对于连体网络的有效性。
学习更多编程常识,请关注我的公众号:
代码的路