关于人工智能:SiamRPN深层网络连体视觉跟踪的演变

6次阅读

共计 7128 个字符,预计需要花费 18 分钟才能阅读完成。

原文地址

论文:https://arxiv.org/pdf/1812.11…

程序:https://github.com/PengBoXian…

摘要

基于孪生网络的跟踪器将跟踪表述为指标模板和搜寻区域之间的卷积特色相互关。然而孪生网络的算法不能利用来自深层网络(如 resnet-50 或更深层)的特色,与先进的算法相比依然有差距。

在文章中咱们证实了外围起因是孪生网络不足严格的平移不变性。咱们冲破了这一限度,通过一个简略而无效的空间感知采样策略,胜利地训练了一个具备显著性能晋升的基于 ResNet 网络的孪生跟踪器。此外,咱们还提出了一种新的模型体系结构来执行分层和深度聚合,这不仅进一步提高了计算的准确性,而且还减小了模型的尺寸。咱们在五个大型跟踪基准上取得了后果,包含 OTB2015、VOT2018、UAV123、LASOT 和 TrackingNet。

该论文次要解决的问题是将深层基准网络 ResNet、Inception 等网络应用到基于孪生网络的跟踪网络中。在 SiameseFC 算法之后,很多的基于孪生网络的跟踪算法都应用浅层的类 AlexNet 作为基准特征提取器,间接应用预训练好的深层网络反而会导致跟踪算法精度的降落。

1. 介绍

在均衡精度和速度方面,即便是性能好的孪生跟踪器,如 SiamRPN,在 OTB2015 等跟踪基准上仍与现有技术有显著差距。所有这些跟踪都在相似于 AlexNet 的架构上构建了本人的网络,并屡次尝试训练具备更简单架构(如 ResNet)的孪生网络,但没有性能晋升。在这种察看的启发下,咱们对现有的孪生追踪器进行了剖析,发现其外围起因是相对平移不变性 (strict translation invariance) 的毁坏。因为指标可能呈现在搜寻区域的任何地位,因而指标模板的学习特色示意应该放弃空间不变性,并且咱们进一步从实践上发现,在新的深层体系结构中,只有 AlexNet 的 zero-padding 能力满足这种空间不变性要求。

咱们引入了一种采样策略来突破孪生跟踪器的空间不变性限度。咱们胜利地训练了一个基于 SiamRPN 的跟踪器,应用 ResNet 作为骨干网络。利用 ResNet 构造,提出了一种基于层的相互关运算特色聚合构造(a layer-wise feature aggravation structure),该构造有助于跟踪器从多个档次的特色中预判出类似度图。通过对孪生网络结构的穿插相干剖析,发现其两个网络分支在参数个数上存在高度不均衡,因而咱们进一步提出了一种深度可拆散的相干构造,它不仅大大减少了指标模板分支中的参数个数,而且使模型的训练过程更加稳固。此外,还察看到一个乏味的景象,即雷同类别的对象在雷同通道上具备较高的响应,而其余通道的响应则被克制。正交个性也能够进步跟踪性能。

综上所述,本文的次要奉献如下:

1. 咱们对 Siam 进行了深刻的剖析,并证实在应用深网络时,精度的升高是因为相对平移不变性的毁坏。

2. 咱们提出了一种采样策略以突破空间不变性限度,胜利训练了基于 ResNet 架构的孪生跟踪器。

3. 提出了一种基于档次的相互关操作特色汇集构造,该构造有助于跟踪器依据多层次学习的特色预测类似度图。

咱们提出了一个深度可拆散的相干构造来加强相互关,从而产生与不同语义相干的多重类似度图。

在上述实践剖析和技术奉献的根底上,咱们开发了一种高效的视觉跟踪模型,在跟踪精度方面更为先进。同时以 35 fps 的速度高效运行。咱们称它为 SiamRPN++,在五个大的跟踪基准上继续取得跟踪后果,包含 OTB2015、VOT2018、UAV123、LASOT 和 TrackingNet。此外,咱们还提出了一种应用 MobileNet 主干网的疾速跟踪器,该主干网在以 70 fps 的速度运行时有良好的实时性能。

2. 相干工作

RPN 具体介绍:https://mp.weixin.qq.com/s/VX…

SiamFC 具体介绍:https://mp.weixin.qq.com/s/kS…

SiamRPN 具体介绍:https://mp.weixin.qq.com/s/pm…

3. 深层孪生网络跟踪算法

如果应用更深层次的网络,基于孪生网络的跟踪算法的性能能够显著进步。然而仅仅通过间接应用更深层的网络(如 ResNet)来训练孪生跟踪器并不能取得预期的性能改良。咱们发现其根本原因次要是因为孪生追踪器的外在限度。

3.1 孪生网络跟踪剖析

基于孪生网络的跟踪算法将视觉跟踪作为一个相互关问题,并从具备孪生网络结构的深层模型中学习跟踪相似性图,一个分支用于学习指标的特色示意,另一个分支用于搜寻区域。

指标区域通常在序列的第一帧中给出,能够看作是一个模板 z。指标是在语义嵌入空间 Φ(·)中从后续帧 x 中找到类似的区域(实例):

$$
f(z,x)=\phi(z)×\phi(x)+b_i
$$

其中 b 是偏移量。

这个简略的匹配函数天然意味着孪生网络跟踪器有两个外在的限度。

1. 孪生跟踪器中应用的膨胀局部和特色抽取器对相对平移不变性有外在的限度。

$$
f(z,x[\Delta\tau_j])=f(z,x)[\Delta\tau_j]
$$

确保了无效的训练和推理。

2. 膨胀局部对构造对称性有着外在的限度,即:

$$
f(z,x)=f(x,z)
$$

实用于相似性学习。即如果将搜寻区域图像和模板区域图像进行调换,输入的后果应该放弃不变。

通过具体的剖析,咱们发现避免应用深网络的孪生跟踪器的外围起因与这两个方面无关。具体来说,一个起因是深层网络中的填充会毁坏相对平移不变性。另一个是 RPN 须要不对称的特色来进行分类和回归。咱们将引入空间感知抽样策略来克服第一个问题,并在 3.4 中探讨第二个问题。

相对平移不变性只存在于 no padding 的网络中,如批改后的 AlexNet。以前基于孪生的网络设计为浅层网络,能够满足这一限度。然而,如果应用的网络被新型网络如 ResNet 或 MobileNet 所取代,padding 将不可避免地使网络更深刻,从而毁坏了相对平移不变性限度。咱们的假如是,违反这一限度将导致学习到空间偏移。例如 SiamFC 在训练方法时正样本都在正核心,网络逐步会学习到样本中正样本分布的状况,图像的核心会有更大的权重。

咱们通过在带有 padding 的网络上进行模拟实验来验证咱们的假如。移位定义为数据裁减中均匀分布产生的大平移范畴。咱们的模拟实验如下。首先,在三个独自的训练试验中,指标被搁置在具备不同 shift range(0、16 和 32)的核心。Shift 为正样本间隔中心点的间隔。在收敛后,咱们将测试数据集上生成的热图集合起来,而后将结果显示在图 1 中。

图 1. 当应用不同的随机翻译时,可视化正样本的先验概率。在±32 像素内随机平移后,散布变得更平均。

在 shift- 0 模仿中存在很强的核心偏移,只有核心地位具备较大的响应值,边界区域的概率降为零。另外两个模仿表明,减少位移范畴(shift range)将逐步减少图中响应的范畴。分析表明 32-shift 的总热图更靠近于测试对象的地位散布。因而空间感知抽样策略无效地缓解了填充网络对严格平移不变性的毁坏。

为了防止对物体产生核心偏差,咱们采纳空间感知采样策略,在训练过程中,不再把正样本块放在图像正核心,而是依照均匀分布的采样形式让指标在中心点左近进行偏移。用 ResNet50 骨干训练 SiamRPN。

图 2. 随机平移对 VOT 数据集的影响。

如图 2 所示,在 VOT2018 上 0-shift 的 EAO 只有 0.14,适当减少 shift 能够进步 EAO(将算法的鲁棒性和准确性联合起来的一个综合指标)。Shift=64 时 EAO 最高。

3.2 基于 ResNet 的孪生网络跟踪算法

基于以上剖析,咱们打消了对核心地位的学习偏差,任何现成的网络(如 MobileNet,ResNet)都能够用于视觉跟踪。此外,还能够自适应地结构网络拓扑构造,揭示深度网络的视觉跟踪性能。

在本大节中,咱们将探讨如何将深度网络传输到咱们的跟踪算法中,试验次要集中在 ResNet-50。原来的 ResNet 有 32 pix 的大 stride,不适宜密集的孪生网络预测。如图 3 所示,咱们通过批改 conv4 和 conv5 块以取得单位空间步幅,将后两个块的无效步幅从 16 像素和 32 像素缩小到 8 像素,并通过扩充卷积减少其感触野。在每个块输入端附加一个额定的 1×1 卷积层,将通道缩小到 256。

图 3. 咱们提出的框架的插图。给定指标模板和搜寻区域,网络通过交融多个 SiamRPN 块的输入来输入密集预测。每个 SiamRPN 块都显示在右侧。

因为所有层的填充都放弃不变,模板特色的空间大小减少到 15,这给相干模块带来了惨重的计算累赘。因而,咱们裁剪核心的 7×7 区域作为模板特色,其中每个特色单元依然能够捕捉整个指标区域。

在 SiamRPN 的根底上,咱们将相互关层(cross correlation layers)和全卷积层组合成头模块(head module) 用于计算分类分数(用 S 示意)和边界框回归器(用 B 示意)的头模块。SiameseRPN 块用 P 示意。此外能够微调 ResNet 将进步性能,通过将 ResNet 提取器的学习速率设置为比 RPN 小 10 倍能够更好的用于跟踪工作。与传统的孪生办法不同,深层网络的参数以端到端的形式进行联结训练。这是第一个在深度孪生网络(>20 层)上实现端到端学习的视觉跟踪算法。

3.3 分层聚合

利用像 ResNet 50 这样的深层网络,能够聚合不同的深度层。直观地说,视觉跟踪须要丰盛的示意,从低到高,从小到大,从细到粗的分辨率。即便在卷积网络中有深度的特色,独自的层是不够的。复合和聚合这些特色能够进步辨认和定位。

在以前的文献中,仅应用像 AlexNet 这样的浅层网络,多层个性不能提供多元的特色示意。然而,思考到感触野的变化很大,ResNet 中的不同层更有意义。浅层特色次要集中在色彩、形态等低级信息上,对于定位是必不可少的,而不足语义信息;深层特色具备丰盛的语义信息,在静止含糊、大变形等挑战场景中有利于定位。咱们假如应用这种丰盛的档次信息对于跟踪工作是有帮忙的。

在咱们的网络中,多分支特色被提取进去独特推断指标定位。对于 ResNet 50,咱们摸索从 后三个残差模块(residual blocks)中提取的多级个性,以进行分层聚合。咱们将这些输入特色别离称为 F3(z)、F4(z) 和 F5(z)。如图 3 所示,conv3、conv4、conv5 的输入别离输出三个 SiamRPN 模块。因为三个 RPN 模块的输入尺寸具备雷同的空间分辨率,因而间接在 RPN 输入上采纳加权求和。加权交融层联合了所有的输入。

$$
S_{all}=\sum^5_{l=3}\alpha_i×S_l,B_{all}=\sum^5_{l=3}\beta×B_l
$$

S——分类,B——回归。

图 4 不同相互关层的图示。(a)穿插相干(XCorr)层预测指标模板和搜寻区域之间的单通道类似度图。(b)向上通道相互关(UP-XCorr)层通过在 SiamRPN 中将一个具备多个独立 XCorr 层的重卷积层级联而输入多通道相干特色。(c)深度相干(DW-XCorr)层预测模板和搜寻块之间的多通道相干特色。

组合权重被离开用于分类和回归,因为它们的域是不同的。权重与网络一起进行端到端优化离线。与以前的论文相比,咱们的办法没有明确地联合卷积特色,而是别离学习分类器和回归。请留神,随着骨干网络的深度显著减少,咱们能够从视觉语义层次结构的充沛多样性中取得实质性成果。

3.4 深度穿插相干

相互关模块是嵌入两个分支信息的外围操作。SiamFC 利用穿插相干层取得指标定位的单通道响应图。在 SiamRPN 中,通过增加微小的卷积层来扩大通道(UP-XCorr),穿插相干被扩大为嵌入更高级别的信息,例如 anchors。微小的 up-channel 模块重大影响参数散布的不均衡(即 RPN 模块蕴含 20M 参数,而特征提取器在 SiamRPN 中仅蕴含 4M 参数),这使得 SiamRPN 中的训练优化变得艰难。

在本大节中,咱们提出了一个轻量级相互关层,名为 Depth wise Cross Correlation(DW-XCorr),以实现无效的信息关联。DW-XCorr 层蕴含的参数比 SiamRPN 中应用的 UP-XCorr 少 10 倍,而性能却很高。

图 5. conv4 中深度相干输入的通道。conv4 中共有 256 个通道,然而在跟踪过程中只有多数通道具备高响应。因而咱们抉择第 148,222,226 通道作为演示,图中为第 2,第 3,第 4 行。第一行蕴含来自 OTB 数据集的六个对应搜寻区域。不同的通道代表不同的语义,第 148 通道对汽车有很高的响应,而对人和人脸的反馈很低。第 222 和第 226 通道别离对人和面部有很高的反馈。

为实现此目标,采纳 conv-bn 块来调整每个残差模块(residual blocks)的特色以适应跟踪工作。至关重要的是,bb 的预测和基于 anchor 的分类都是不对称的,这与 SiamFC 不同(见第 3.1 节)。为了对差别进行编码,模板分支和搜寻分支传递两个非共享卷积层。而后,具备雷同数量的通道的两个特色图按通道进行相干操作。附加另一个 conv-bn-relu 块以交融不同的通道输入。而后,附加用于分类或回归输入的最初一个卷积层。通过将相互关替换为深度相干,咱们能够大大降低计算成本和内存应用。通过这种形式,模板和搜寻分支上的参数数量失去均衡,从而使训练过程更加稳固。

此外,乏味的景象如图 5 所示。同一类别中的对象在雷同的通道上具备高响应(第 148 通道中的车,第 222 通道中的人,以及第 226 通道中的人),而其余通道的响应被克制。因为深度相互关产生的通道形式特色简直正交并且每个通道代表一些语义信息,因而能够了解该属性。咱们还应用上通道相互关剖析热图,并且响应图的解释性较差。

4. 试验后果

4.1 训练集及评估

训练

咱们的架构的骨干网络在 ImageNet 上进行了预训练,用于图像标记,曾经证实这是对其余工作的十分好的初始化。咱们在 COCO,ImageNet DET,ImageNet VID 和 YouTube-Bounding-Boxes 数据集的训练集上训练网络,并学习如何测量视觉跟踪的个别对象之间相似性的个别概念。在训练和测试中,咱们应用单比例图像,其中 127 个像素用于模板区域,255 个像素用于搜寻区域。

评估

咱们专一于 OTB2015 [46],VOT2018 [21]和 UAV123 [31]上的短时单指标跟踪。咱们应用 VOT2018-LT [21]来评估长时跟踪工作。在长时跟踪中,物体可能长时间来到视线或齐全遮挡,这比短期跟踪更具挑战性。咱们还剖析了咱们的办法在 LaSOT [10]和 TrackingNet [30]上的试验,这两个是最近才呈现的繁多指标跟踪的 benchmarks。

4.2 施行细节

网络结构

在试验中,咱们依照 DaSiamRPN 进行训练和设置。咱们将两个同级卷积层连贯到缩小步幅 (stride-reduced) 的 ResNet-50(第 3.2 节),用 5 个 anchors 执行分类和边界框回归。将三个随机初始化的 1×1 卷积层连贯到 conv3,conv4,conv5,以将特色尺寸减小到 256。

优化

SiamRPN ++ 采纳随机梯度降落(SGD)进行训练。咱们应用 8 个 GPU 的同步 SGD,每个小批量共 128 对(每个 GPU 16 对),须要 12 小时能力收敛。咱们应用前 5 个时间段的 0.001 的预热学习率来训练 RPN 分支。在过来的 15 个时间段中,整个网络都是端到端的训练,学习率从 0.005 到 0.0005 呈指数衰减。应用 0.0005 的分量衰减和 0.9 的动量。训练损失是分类损失和回归的规范平滑 L1 损失的总和。

4.3 比照试验

骨干架构

特征提取器的抉择至关重要,因为参数的数量和层的类型间接影响跟踪器的内存耗费,速度和性能。咱们比拟了视觉跟踪的不同网络架构。图 6 显示了应用 AlexNet,ResNet-18,ResNet-34,ResNet-50 和 MobileNet-v2 作为骨干的性能。咱们画出了在 OTB2015 上胜利曲线的曲线下面积(AUC)绝对于 ImageNet 的 top1 精度的性能。咱们察看到咱们的 SiamRPN ++ 能够从更深刻的 ConvNet 中受害。

逐层特色聚合

为了钻研分层特色聚合的影响,首先咱们在 ResNet-50 上训练三个具备单个 RPN 的变体。独自应用 conv4 能够在 EAO 中取得 0.374 的良好性能,而更深的层和更浅的层则会有 4%的降落。通过组合两个分支,conv4 和 conv5 取得了改良,然而在其余两个组合上没有察看到改善。尽管如此,鲁棒性也减少了 10%,这阐明咱们的追踪器仍有改良的余地。在汇总所有三个层之后,准确性和稳健性都稳步进步,VOT 和 OTB 的增益在 3.1%和 1.3%之间。总体而言,逐层特色聚合在 VOT2018 上产生 0.414 的 EAO 分数,比单层基线高 4.0%。

5. 论断

在本文中,咱们提出了一个对立的框架,称为 SiamRPN ++,用于端到端训练深度连体网络进行视觉跟踪。咱们展现了如何在孪生跟踪器上训练深度网络的实践和实证证据。咱们的网络由多层聚合模块组成,该模块组合连贯档次以聚合不同级别的示意和深度相干层,这容许咱们的网络升高计算成本和冗余参数,同时还导致更好的收敛。应用 SiamRPN ++,咱们实时取得了 VOT2018 上先进的后果,显示了 SiamRPN ++ 的有效性。SiamRPN ++ 还在 La-SOT 和 TrackingNet 等大型数据集上实现了先进的后果,显示了它的泛化性。

学习更多编程常识,请关注我的公众号:

代码的路

正文完
 0