原文链接
论文地址:https://openaccess.thecvf.com...
摘要
1.本文外围一:将图像分类工作中的语义特色(Semantic features)与类似度匹配工作中的外观特色(Appearance features)互补联合,非常适合与指标跟踪工作,因而本文办法能够简略概括为:SA-Siam=语义分支+外观分支;
2.Motivation:指标跟踪的特点是,咱们想从泛滥背景中辨别出变动的指标物体,其中难点为:背景和变动。本文的思维是用一个语义分支过滤掉背景,同时用一个外观特色分支来泛化指标的变动,如果一个物体被语义分支断定为不是背景,并且被外观特色分支判断为该物体由指标物体变动而来,那么咱们认为这个物体即须要被跟踪的物体;
3.本文的目标是晋升SiamFC在指标跟踪工作中的判断力。在深度CNN训练指标分类的工作中,网络中深层的特色具备强的语义信息并且对指标的外观变动领有不变性。这些语义特色是能够用于互补SiamFC在指标跟踪工作中应用的外观特色。基于此发现,咱们提出了SA-Siam,这是一个双重孪生网络,由语义分支和外观分支组成。每一个分支都应用孪生网络结构计算候选图片和指标图片的类似度。为了放弃两个分支的独立性,两个孪生网络在训练过程中没有任何关系,仅仅在测试过程中才会联合。
4.本文外围二:对于新引入的语义分支,本文进一步提出了通道注意力机制。在应用网络提取指标物体的特色时,不同的指标激活不同的特色通道,咱们应该对被激活的通道赋予高的权值,本文通过指标物体在网络特定层中的响应计算这些不同层的权值。试验证实,通过此办法,能够进一步晋升语义孪生网络的判断力。
其依然沿用SiamFC在跟踪过程中所有帧都和第一帧比照,是该类办法的次要缺点。
相干工作
RPN具体介绍:https://mp.weixin.qq.com/s/VX...
SiamFC具体介绍:https://mp.weixin.qq.com/s/kS...
SiamRPN具体介绍:https://mp.weixin.qq.com/s/pm...
1.SiamFC:对于A,B,C三个图片,假如C图片和A图片是一个物体,然而外观产生了一些变动,B和A没有任何关系。SiamFC网络输出两张图片,那么通过SiamFC后会失去A和C类似度高,A和B类似度低。通过上述SiamFC的性能,天然地其能够用于指标跟踪算法中。SiamFC网络突出长处:无需在线fine-tune和end-to-end跟踪模式,使得其能够做到保障跟踪成果的前提下进行实时跟踪。
2.集成跟踪器:大多数跟踪是一个模型A,利用模型A对以后数据进行计算失去跟踪后果,集成跟踪器就是它有多个模型A,B,C,别离对以后数据进行剖析,而后对后果交融失去最终的跟踪后果。本文的语义特色+外观特色正是借鉴了集成跟踪器的思路。在集成跟踪器,模型A,B,C相关度越低,跟踪成果越好,这个很好了解,如果他们三十分相干,那么用三个和用一个没啥区别,因为这个起因,本文的语义特色和外观特色网络在训练过程中是齐全不相干的。
框架
提议的双重SA-Siam网络的体系结构。A-Net示意外观网络。用虚线连贯的网络和数据结构与SiamFC完全相同。S-Net示意语义网络。提取最初两个卷积层的特色。信道关注模块基于指标和上下文信息确定每个特色信道的权重。外观分支和语义分支是独自训练的,直到测试工夫才联合。
1.外观分支(蓝色局部)
一个指标A送到网络P里,一个比指标大的搜寻域S送到网络P里,A进去的特色图与S进去的特色图进行卷积操作失去相关系数图,相关系数越大,越可能是同一个指标,网络则采纳和SiamFC中一样的网络。
外观分支以(z,X)为输出。它克隆了SiamFC网络。用于提取外观特色的卷积网络称为A-Net。来自外观分支的响应映射能够写为:
$$L(y,v)=\frac{1}{D}\sum_{u\in D}l(y[u],v[u])$$
在相似性学习问题中,A-Net中的所有参数都是从头开始训练的。
通过最小化逻辑损失函数L(·)来优化A-Net,如下:
$$arg \min_{\theta_a}\frac{1}{N} \sum^N_{i=1}{(L(h_a(z_i,X_i,\theta_a),Y_i))}$$
其中a示意A-Net中的参数,N是训练样本的数量,Yi是ground truth的响应。
2.语义分支(橙色局部)
这篇文章的重点便是此。橙色的示意语义网络,用的是预训练好的AlexNet,在训练和测试时固定所有参数,只提取最初conv4和conv5的特色,指标模板变为zs,zs和X一样大,和z有一样的核心,但蕴含了上下文信息,因为支路上加了通道注意力模型,通过指标和四周的信息来决定权重,抉择对特定跟踪目标影响更大的通道。另外,为了更好的进行后续的相干操作,作者将高低两支路退出交融模型,退出了1×1的卷积层,对提取的两层每层进行卷积操作,使指标模板支路和检测支路的特色通道雷同,而且通道总数和外观网络的通道一样。
语义分支网络训练时只训练通道注意力模块和交融模块。
来自语义分支的响应映射能够写为:
$$h_s(z^s,X)=corr(g(\xi ·f_s(z)),g(f_s(X)))$$
是通道权重,g()是对特色进行交融,便于相干操作。
损失函数L(·)如下:
$$arg \min_{\theta_a}\frac{1}{N} \sum^N_{i=1}{(L(h_s(z_i^s,X_s,\theta_a),Y_i))}$$
其中s示意可训练参数,N是训练样本的数量。
3.联合
外观网络和语义网络离开训练,语义网络只训练通道注意力模块和交融模块。在测试工夫内,最终的响应图计算为来自两个分支的图的加权平均值:
$$h(z^s,X)=\lambda h_a(z,X)+(1-\lambda)h_s(z^s,X)$$
其中 是加权参数,以均衡两个分支的重要性。在实践中,能够从验证集预计。作者通过试验得出 =0.3 最好。
4.语义分支中的Channel Attention机制
为什么要这么做:高维语义特色对指标的外观(图片的形变、旋转等)变动是鲁棒的,导致判断力低。为了晋升语义分支的判断力,咱们设计了一个Channel Attention模块。直觉上,在跟踪不同的物体时,不同的通道扮演着不同的角色,某些通道对于一些物体来说是极其重要的,然而对于其余物体而言则能够被疏忽,甚至可能引入噪声。如果咱们能自适应的调整通道的重要性,那么咱们将取得指标跟牢靠地特色表白。为了达到这个目标,不仅指标对于咱们来说是重要的,其四周肯定范畴内的背景对于咱们来说同样重要,因而这里输出网络的模板要比外观分支大一圈。
上面讲具体怎么实现这个性能的。
通道注意力通过最大池化层和多层感知器(MLP)生成通道i的加权系数i。
上述图中,假如是conv5层的第i个通道特色图,维度为22×22,将该图宰割成3×3份(其中两头的那份为6×6,是精确的指标),通过max-pooling操作后变成3×3的图,通过一个两层的MLP网络(Multi-Layer Perceptron多层感知机,含有9个神经元和一个隐层,隐层采纳ReLU函数)后失去分数,在sigmoid一下(为了让得分系数在0~1之间)失去最终的得分系数。值得注意的是:这里的得分系数计算操作仅仅在第一帧进行计算,后续帧沿用第一帧的后果,所以其计算工夫是能够忽略不计的。
试验
数据维度:在咱们的实现中,指标图像块z的尺寸为127×127×3,并且zs和X都具备255×255×3的尺寸。对于z和X,A-Net的输入特色具备尺寸别离为6×6×256和22×22×256。来自S-Net的conv4和conv5性能具备尺寸为24×24×384和22×22×256通道的zs和X。这两组性能的1×1 ConvNet每个输入128个通道(最多可达256个通道) ),空间分辨率不变。响应图具备雷同的17×17维度。
学习更多编程常识,请关注我的公众号:
代码的路