原文链接
论文地址:https://openaccess.thecvf.com…
摘要
1. 本文外围一:将图像分类工作中的 语义特色 (Semantic features) 与类似度匹配工作中的 外观特色(Appearance features)互补联合,非常适合与指标跟踪工作,因而本文办法能够简略概括为:SA-Siam= 语义分支 + 外观分支;
2.Motivation:指标跟踪的特点是,咱们想从泛滥背景中辨别出变动的指标物体,其中难点为:背景和变动。本文的思维是用一个语义分支过滤掉背景,同时用一个外观特色分支来泛化指标的变动,如果一个物体被语义分支断定为不是背景,并且被外观特色分支判断为该物体由指标物体变动而来,那么咱们认为这个物体即须要被跟踪的物体;
3. 本文的目标是晋升 SiamFC 在指标跟踪工作中的判断力。在深度 CNN 训练指标分类的工作中,网络中深层的特色具备强的语义信息并且对指标的外观变动领有不变性。这些语义特色是能够用于互补 SiamFC 在指标跟踪工作中应用的外观特色。基于此发现,咱们提出了 SA-Siam,这是一个双重孪生网络,由语义分支和外观分支组成。每一个分支都应用孪生网络结构计算候选图片和指标图片的类似度。为了放弃两个分支的独立性,两个孪生网络在训练过程中没有任何关系,仅仅在测试过程中才会联合。
4. 本文外围二:对于新引入的语义分支,本文进一步提出了通道注意力机制。在应用网络提取指标物体的特色时,不同的指标激活不同的特色通道,咱们应该对被激活的通道赋予高的权值,本文通过指标物体在网络特定层中的响应计算这些不同层的权值。试验证实,通过此办法,能够进一步晋升语义孪生网络的判断力。
其依然沿用 SiamFC 在跟踪过程中所有帧都和第一帧比照,是该类办法的次要缺点。
相干工作
RPN 具体介绍:https://mp.weixin.qq.com/s/VX…
SiamFC 具体介绍:https://mp.weixin.qq.com/s/kS…
SiamRPN 具体介绍:https://mp.weixin.qq.com/s/pm…
1.SiamFC:对于 A,B,C 三个图片,假如 C 图片和 A 图片是一个物体,然而外观产生了一些变动,B 和 A 没有任何关系。SiamFC 网络输出两张图片,那么通过 SiamFC 后会失去 A 和 C 类似度高,A 和 B 类似度低。通过上述 SiamFC 的性能,天然地其能够用于指标跟踪算法中。SiamFC 网络突出长处:无需在线 fine-tune 和 end-to-end 跟踪模式,使得其能够做到保障跟踪成果的前提下进行实时跟踪。
2. 集成跟踪器:大多数跟踪是一个模型 A,利用模型 A 对以后数据进行计算失去跟踪后果,集成跟踪器就是它有多个模型 A,B,C,别离对以后数据进行剖析,而后对后果交融失去最终的跟踪后果。本文的语义特色 + 外观特色正是借鉴了集成跟踪器的思路。在集成跟踪器,模型 A,B,C 相关度越低,跟踪成果越好,这个很好了解,如果他们三十分相干,那么用三个和用一个没啥区别,因为这个起因,本文的语义特色和外观特色网络在训练过程中是齐全不相干的。
框架
提议的双重 SA-Siam 网络的体系结构。A-Net 示意外观网络。用虚线连贯的网络和数据结构与 SiamFC 完全相同。S-Net 示意语义网络。提取最初两个卷积层的特色。信道关注模块基于指标和上下文信息确定每个特色信道的权重。外观分支和语义分支是独自训练的,直到测试工夫才联合。
1. 外观分支(蓝色局部)
一个指标 A 送到网络 P 里,一个比指标大的搜寻域 S 送到网络 P 里,A 进去的特色图与 S 进去的特色图进行卷积操作失去相关系数图,相关系数越大,越可能是同一个指标,网络则采纳和 SiamFC 中一样的网络。
外观分支以(z,X)为输出。它克隆了 SiamFC 网络。用于提取外观特色的卷积网络称为 A -Net。来自外观分支的响应映射能够写为:
$$
L(y,v)=\frac{1}{D}\sum_{u\in D}l(y[u],v[u])
$$
在相似性学习问题中,A-Net 中的所有参数都是从头开始训练的。
通过最小化逻辑损失函数 L(·)来优化 A -Net,如下:
$$
arg \min_{\theta_a}\frac{1}{N} \sum^N_{i=1}{(L(h_a(z_i,X_i,\theta_a),Y_i))}
$$
其中 θa 示意 A -Net 中的参数,N 是训练样本的数量,Yi 是 ground truth 的响应。
2. 语义分支(橙色局部)
这篇文章的重点便是此。橙色的示意语义网络,用的是预训练好的 AlexNet,在训练和测试时固定所有参数,只提取最初 conv4 和 conv5 的特色,指标模板变为 zs,zs 和 X 一样大,和 z 有一样的核心,但蕴含了上下文信息,因为支路上加了通道注意力模型,通过指标和四周的信息来决定权重,抉择对特定跟踪目标影响更大的通道。另外,为了更好的进行后续的相干操作,作者将高低两支路退出交融模型,退出了 1×1 的卷积层,对提取的两层每层进行卷积操作,使指标模板支路和检测支路的特色通道雷同,而且通道总数和外观网络的通道一样。
语义分支网络训练时只训练通道注意力模块和交融模块。
来自语义分支的响应映射能够写为:
$$
h_s(z^s,X)=corr(g(\xi ·f_s(z)),g(f_s(X)))
$$
ξ 是通道权重,g()是对特色进行交融,便于相干操作。
损失函数 L(·)如下:
$$
arg \min_{\theta_a}\frac{1}{N} \sum^N_{i=1}{(L(h_s(z_i^s,X_s,\theta_a),Y_i))}
$$
其中 θs 示意可训练参数,N 是训练样本的数量。
3. 联合
外观网络和语义网络离开训练,语义网络只训练通道注意力模块和交融模块。在测试工夫内,最终的响应图计算为来自两个分支的图的加权平均值:
$$
h(z^s,X)=\lambda h_a(z,X)+(1-\lambda)h_s(z^s,X)
$$
其中 λ 是加权参数,以均衡两个分支的重要性。在实践中,λ 能够从验证集预计。作者通过试验得出 λ=0.3 最好。
4. 语义分支中的 Channel Attention 机制
为什么要这么做:高维语义特色对指标的外观(图片的形变、旋转等)变动是鲁棒的,导致判断力低。为了晋升语义分支的判断力,咱们设计了一个 Channel Attention 模块。直觉上,在跟踪不同的物体时,不同的通道扮演着不同的角色,某些通道对于一些物体来说是极其重要的,然而对于其余物体而言则能够被疏忽,甚至可能引入噪声。如果咱们能自适应的调整通道的重要性,那么咱们将取得指标跟牢靠地特色表白。为了达到这个目标,不仅指标对于咱们来说是重要的,其四周肯定范畴内的背景对于咱们来说同样重要,因而这里输出网络的模板要比外观分支大一圈。
上面讲具体怎么实现这个性能的。
通道注意力通过最大池化层和多层感知器(MLP)生成通道 i 的加权系数 ξi。
上述图中,假如是 conv5 层的第 i 个通道特色图,维度为 22×22,将该图宰割成 3×3 份(其中两头的那份为 6×6,是精确的指标),通过 max-pooling 操作后变成 3×3 的图,通过一个两层的 MLP 网络(Multi-Layer Perceptron 多层感知机,含有 9 个神经元和一个隐层,隐层采纳 ReLU 函数)后失去分数,在 sigmoid 一下(为了让得分系数在 0~1 之间)失去最终的得分系数。值得注意的是:这里的得分系数计算操作仅仅在第一帧进行计算,后续帧沿用第一帧的后果,所以其计算工夫是能够忽略不计的。
试验
数据维度:在咱们的实现中,指标图像块 z 的尺寸为 127×127×3,并且 zs 和 X 都具备 255×255×3 的尺寸。对于 z 和 X,A-Net 的输入特色具备尺寸别离为 6×6×256 和 22×22×256。来自 S -Net 的 conv4 和 conv5 性能具备尺寸为 24×24×384 和 22×22×256 通道的 zs 和 X。这两组性能的 1×1 ConvNet 每个输入 128 个通道(最多可达 256 个通道)),空间分辨率不变。响应图具备雷同的 17×17 维度。
学习更多编程常识,请关注我的公众号:
代码的路