关于神经网络:DWSiam更宽更深的孪生网络

48次阅读

共计 4394 个字符,预计需要花费 11 分钟才能阅读完成。

原文链接

论文地址:https://arxiv.org/pdf/1901.01…

摘要

目前在孪生网络追踪器中应用的骨干网络绝对较浅,例 AlexNet。本文钻研如何利用更深和更广的卷积神经网络来加强跟踪的鲁棒性和准确性。应用改良后的网络间接替换,例如 ResNet 和 Inception,并没有带来改良。次要起因是 1)神经元感触野的大幅减少导致特色可辨性和定位精度升高; 2)卷积的网络 padding 在学习中引起地位偏差。

为了解决这些问题,咱们提出了新的残差模块,以打消 padding 的负面影响,并进一步设计应用这些模块的新架构,具备受控的感触野大小和步长。设计的架构利用于 SiamFC+ 和 SiamRPN 时保障了实时跟踪速度。试验表明,仅仅因为所提出的网络架构,咱们的 SiamFC+ 和 SiamRPN+ 别离在 OTB-15,VOT-16 和 VOT-17 数据集上,绝对于原始版本取得了高达 9.8%/ 5.7%(AUC),23.3%/ 8.8%(EAO)和 24.4%/ 25.0%(EAO)的绝对改良。

1. 介绍

1.1 相干钻研

RPN 具体介绍:https://mp.weixin.qq.com/s/VX…

SiamFC 具体介绍:https://mp.weixin.qq.com/s/kS…

SiamRPN 具体介绍:https://mp.weixin.qq.com/s/pm…

1.2 本文介绍

咱们用更深更广的网络取代 VGG,Inception 和 ResNet 等网络的浅层主干网。但这种简略的替换并没有带来太大的改良,甚至可能在网络深度或宽度减少时导致性能大幅降落,如图 1 所示。

图 1:胜利图的 AUC 与网络深度和宽度。宽度 width 是指模块中分支的数量。通过对 OTB-13 的评估,应用具备不同骨干网络的 SiamFC 取得了这个后果。

剖析了 Siamese 网络架构,确定神经元的感触野大小、卷积步长、padding 是影响跟踪精度的三个重要因素。感触野确定用于计算特色的图像区域。较大的感触野提供更大的图像上下文,而较小的感触野可能无奈捕获指标对象的构造。stride 影响定位精度,同时管制输入特色图的大小。padding 在模型训练中引起潜在的地位偏差。

在本文中,咱们通过设计新的残差模块和网络架构来解决这些问题。首先,咱们提出了一组基于“瓶颈(bottleneck)”的残差块的外部裁剪(cropping-inside residual,CIR)单元。CIR 单元在块外部裁剪出受填充 padding 影响的特色(即接管填充信号的特色),从而避免卷积滤波器学习地位偏差。其次,咱们通过重叠 CIR 单元设计了两种网络架构,即更深和更宽的网络。为了进步定位精度,咱们设计了特定的步幅和感触野。

2. 性能进化剖析

性能降落能够间接归因于网络结构,是图 1 试验中惟一扭转的设置。因而,咱们首先确定这些网络架构之间的构造差别。如表格 2 所示,除了深度和宽度之外,网络中还有其余几个不同的外部网络因素,包含步幅(STR),填充(PAD),最初一层神经元的感触野(RF)和输入特色尺寸(OFS)。

咱们批改了 AlexNet,VGG,Inception 和 ResNet 的构造,并揭示了外部因素的影响。如表格 1 所示,Siamese 更喜爱中级特色(步幅 4 或 8),这些特色在物体定位方面比高级特色更准确(步幅≥16)。对于感触野(RF),最佳感触野大小笼罩输出样本图像 z 的约 60%~80%。对于输入特色尺寸,察看到小尺寸(OFS≤3)不利于跟踪精度。

表 1:AlexNet,VGG 10,Inception -22 和 ResNet-33 上的网络外部因素剖析。数字①- ⑩代表不同的版本,其中批改卷积内核大小,下采样层和填充以显示趋势。因为空间无限,补充资料中给出了无关批改的详细信息。

1. 为了更好地显示趋势,咱们将±0 示意为网络的原始 RF 大小。+ 和 - 示意绝对于原来的增大和减小尺寸。Max(127)示意最大无效 RF,其与示例图像的大小雷同,即 127×127 像素。

2. 对于 Inception 网络,其 RF 大小位于一个范畴内。这里咱们只列出实践上的最大尺寸,与 ResNet 对齐进行比拟。

表 2:不同网络的外部因素:最初一层网络中的神经元的感触野(RF),步幅(STR),输入特色尺寸(OFS),填充(PAD)和宽度(W)。因为 Inception 在一个块中蕴含多个分支,因而其 RF 位于一个范畴内。

Siamese 框架将核心裁剪的图像对作为训练数据传入,其中指标对象始终存在于图像核心。如果输入单元的感触野延长超出图像边界(受 padding 影响),网络模型学习地位产生偏差。图 2 给出了测试阶段中这种学习偏差的可视化示例。它显示当指标对象挪动到图像边界时,其峰值不能准确批示指标的地位。这是由跟踪器漂移引起的常见状况。

图 2:模型中学习的地位偏差的可视化

3. 方针

1. 将步幅设定为 4 或 8。

2. 最佳感触野大小笼罩输出样本图像 z 的约 60%~80%

3. 在设计网络架构时,应将 stride,感触野和输入特色尺寸视为一个整体。这三个因素并不是彼此独立的。如果一个扭转,其他人将相应扭转。将它们联合在一起能够帮忙设计的网络在 Siamese 框架中提取更多的有判断力的特色。

4. 对于全卷积的 Siamese 网络,删除 padding 操作重要。padding 引起的地位偏差会升高孪生跟踪器的准确性和鲁棒性。

4. 外部裁剪残差(CIR)单元

残差单元(residual unit)是网络架构设计中的要害模块。它由 3 个重叠的卷积层和绕过它们的快捷连贯(shortcut connection)组成,如图 3(a)所示。这三层是 1×1,3×3 和 1×1 个卷积,其中 1×1 层负责缩小或复原尺寸,使 3×3 层成为具备较小输出和输入尺寸的瓶颈(bottleneck)。此瓶颈卷积包含大小为 1 的 zero-padding,以确保在增加之前兼容的输入大小。

图 3:拟议的外部残余单位。(a)和(b)是残差单元和下采样单元(down sampling unit),而(a‘)和(b’)是咱们提出的单位。(c)和(d)是倡议的宽残差单元。灰色箭头示意便于信息流传的 shortcut paths,而蓝色方框则突出显示与原始单位的差别。字母 ’p’ 和 ’s’ 别离示意 padding 大小和步长。

CIR 单元。如第 3 节所述,padding 可能会在 Siamese 框架中引入地位偏差。为此咱们减少残差单位进行裁剪操作,如图 3(a’)所示。裁剪操作会删除计算受 zero-padding 信号影响的特色,打消了残差单元中的 padding 影响特色。

下采样 CIR(CIR-D)单元。它用于缩小特色图的空间大小,同时使特色通道的数量加倍。下采样单元蕴含 padding 操作,如图 3(b)所示。因而,咱们还批改其构造以打消由 padding 引起的负面影响。如图 3(b’)所示,咱们在瓶颈层和 shortcut connection 中将卷积步幅从 2 改为 1。插入裁剪以移除受 padding 影响的特色。最初,应用最大池化层来执行特色图的空间下采样。这些批改的要害思维是确保仅删除受填充影响的特色,同时放弃外部块构造不变。

CIR-Inception 和 CIR-NeXt 单元。依据 Inception 和 ResNeXt,通过多个特色变换扩大 CIR 单元,生成 CIR-Inception 和 CIR-NeXt 模块,如图 3(c-d)所示。具体来说,在 CIR-Inception 构造中,咱们在 shortcut connection 中插入一个 1 ×1 卷积,并合并两个分支的特色。在 CIR-ResNeXt 中,咱们将瓶颈层拆分为 32 个转换分支,并通过增加进行聚合。此外,对于 CIR-Inception 和 CIR-NeXt 的下采样单元,批改与 CIR-D(图 3(b’))中的批改雷同,其中卷积步幅减小并且减少了最大池化层。

5. 网络架构 Network Architectures

通过重叠上述 CIR 单元,咱们构建了更深更宽的网络。首先确定 stride,步幅 8 用于构建 3 级网络,而步幅 4 用于构建 2 级网络。而后,咱们重叠 CIR 单位。咱们管制每个阶段的 unit 数量和下采样 unit 的地位。 指标是确保最初一层神经元的感触野大小位于无效范畴内 ,即样本图像大小的 60%-80%。另外,当网络深度减少时,感触野可能超过该范畴。因而,咱们将步幅减半,以管制感触野。

更深的网络 。咱们应用 CIR 和 CIR- D 单元构建更深的网络。这些构造相似于 ResNet,但具备不同的 stride,感触野和结构单元(building blocks)。

CIResNet-22 有 3 个局部(stride=8),22 个卷积层。除了第一个 7×7 卷积,其余都是 CIR 单位。在 7×7 卷积之后进行裁剪操作(大小为 2)以移除受 padding 影响的特色。前两个阶段的特色下采样是通过原来 ResNet 的卷积和步幅 2 的最大池化来执行的。在第三阶段,通过所提出的 CIR- D 单元执行下采样,该 CIR- D 单元位于该阶段的第一个块(共四个)。当 feature map 大小被下采样时,卷积核的数量加倍以减少特色可分别性。输入 feature map 大小是 5×5,每个 feature 感触野的相应大小 93×93。

构建 CIResNet-43 时进一步将网络深度减少到 43 层,设计为 2 个阶段,在 CIResNet-43 的第二阶段,有 14 个块,其中第四个块具备用于特色下采样的 CIR-D 单元。

更宽的网络 。咱们别离应用 CIR-Inception 和 CIR-NeXt 单元构建两种类型的宽网络体系结构。咱们提供一个 22 层构造作为示例。正如表 3 所示,CIResInception-22 和 CIResNeXt-22 具备与 CIResNet-22 相似的构造。然而通过多分支构建块,网络宽度别离减少了 2 倍和 32 倍。而且,因为多分支级联,在 CIResInception-22 中感触野大小变得多样化(即 13~93)。

表 3:用于连体跟踪器的设计骨干网络的架构。CIResNet-43 中 CIR- D 位于 ’conv3’ 阶段的第四个块中,其余网络用于第一个块。

6. 试验

咱们首先将咱们更深更宽的网络与 SiamFC 和 SiamRPN 中的骨干 AlexNet 进行比拟。正如表 4 中所示,在 OTB-13,OTB-15 和 VOT-17 数据集上,咱们提出的网络优于基线 AlexNet。特地是,装备 CIResIncep-22 网络的 SiamFC 别离在 OTB-2013 和 VOT- 1 上取得了比原始 AlexNet 高 9.5%(AUC)和 14.3%(EAO)的绝对改良。同时,装备 CIResNet-22 的 SiamRPN 实现了 4.4%和 23.3%的绝对改善。这验证了咱们设计的体系结构解决了图 1 中所示的性能降落问题。此外,它还显示了咱们提出的 CIR 单元对于连体网络的有效性。

学习更多编程常识,请关注我的公众号:

代码的路

正文完
 0