关于人工智能:SiamFC用于目标跟踪的全卷积孪生网络

原文链接

SiamFC网络

图中z代表的是模板图像，算法中应用的是第一帧的ground truth；x代表的是search region，代表在前面的待跟踪帧中的候选框搜寻区域；ϕ代表的是一种特色映射操作，将原始图像映射到特定的特色空间，文中采纳的是CNN中的卷积层和pooling层；6×6×128代表z通过ϕ后失去的特色，是一个128通道6×6大小feature，同理，22×22×128是x通过ϕ后的特色；前面的×代表卷积操作，让22×22×128的feature被6×6×128的卷积核卷积，失去一个17×17的score map，代表着搜寻区域中各个地位与模板类似度值。

算法自身是比拟搜寻区域与指标模板的类似度，最初失去搜寻区域的score map。其实从原理上来说，这种办法和相关性滤波的办法很类似。其在搜寻区域中逐点的指标模板进行匹配，将这种逐点平移匹配计算类似度的办法看成是一种卷积，而后在卷积后果中找到类似度值最大的点，作为新的指标的核心。

上图所画的ϕ其实是CNN中的一部分，并且两个ϕ的网络结构是一样的，这是一种典型的孪生神经网络，并且在整个模型中只有conv层和pooling层，因而这也是一种典型的全卷积（fully-convolutional）神经网络。

在训练模型的时必定须要损失函数，并通过最小化损失函数来获取最优模型。本文算法为了结构无效的损失函数，对搜寻区域的地位点进行了正负样本的辨别，即指标肯定范畴内的点作为正样本，这个范畴外的点作为负样本，例如图1中最右侧生成的score map中，红色点即正样本，蓝色点为负样本，他们都对应于search region中的红色矩形区域和蓝色矩形区域。文章采纳的是logistic loss，具体的损失函数模式如下：

对于score map中了每个点的损失：

$$
l(y,x)=log(1+exp(-xy))
$$

其中v是score map中每个点实在值，y∈{+1,−1}是这个点所对应的标签。

下面的是score map中每个点的loss值，而对于score map整体的loss，则采纳的是全副点的loss的均值。即：

$$
L(y,v)=\frac{1}{|D|}\displaystyle \sum_{u\in D}l(y[u],v[u])
$$

这里的u∈D代表score map中的地位。

整个网络结构相似与AlexNet，然而没有最初的全连贯层，只有后面的卷积层和pooling层。

整个网络结构如上表，其中pooling层采纳的是max-pooling，每个卷积层前面都有一个ReLU非线性激活层，然而第五层没有。另外，在训练的时候，每个ReLU层前都应用了batch normalization（批规范化是深度学习中常常见到的一种训练方法，指在采纳梯度降落法训练DNN时，对网络层中每个mini-batch的数据进行归一化，使其均值变为0，方差变为1，其次要作用是缓解DNN训练中的梯度隐没/爆炸景象，放慢模型的训练速度），用于升高过拟合的危险。

AlexNet

AlexNet为8层构造，其中前5层为卷积层，前面3层为全连贯层；学习参数有6千万个，神经元有650,000个。AlexNet在两个GPU上运行；AlexNet在第2,4,5层均是前一层本人GPU内连贯，第3层是与后面两层全连贯，全连贯是2个GPU全连贯；

RPN层第1,2个卷积层后；Max pooling层在RPN层以及第5个卷积层后。ReLU在每个卷积层以及全连贯层后。

卷积核大小数量：

conv1:96 11×11×3(个数/长/宽/深度)
conv2:256 5×5×48
conv3:384 3×3×256
conv4: 384 3×3×192
conv5: 256 3×3×192

ReLU、双GPU运算：进步训练速度。（利用于所有卷积层和全连贯层）

重叠pool池化层：进步精度，不容易产生适度拟合。（利用在第一层，第二层，第五层前面）

部分响应归一化层(LRN)：进步精度。（利用在第一层和第二层前面）

Dropout：缩小适度拟合。（利用在前两个全连贯层）

微调（fine-tune）

看到他人一个很好的模型，尽管针对的具体问题不一样，然而也想试试看，看能不能失去很好的成果，而且本人的数据也不多，怎么办？没关系，把他人现成的训练好了的模型拿过去，换成本人的数据，调整一下参数，再训练一遍，这就是微调（fine-tune）。

解冻预训练模型的局部卷积层（通常是凑近输出的少数卷积层），训练剩下的卷积层（通常是凑近输入的局部卷积层）和全连贯层。从某意义上来说，微调应该是迁徙学习中的一部分。

感知机：PLA

多层感知机是由感知机推广而来，感知机学习算法(PLA: Perceptron Learning Algorithm)用神经元的构造进行形容的话就是一个独自的。

感知机的神经网络示意如下：

多层感知机：MLP

多层感知机的一个重要特点就是多层，咱们将第一层称之为输出层，最初一层称之为输入层，两头的层称之为隐层。MLP并没有规定隐层的数量，因而能够依据各自的需要抉择适合的隐层层数。且对于输入层神经元的个数也没有限度。

MLP神经网络构造模型如下,本文中只波及了一个隐层，输出只有三个变量[x1,x2,x3]和一个偏置量b，输入层有三个神经元。相比于感知机算法中的神经元模型对其进行了集成。

ReLU函数

ReLU函数公式如下：

$$
RELU(x)= \begin{cases} x, & \text {if x>0} \\ 0, & \text{if x<0} \end{cases}
$$

图像如下：

sigmod函数

sigmod 函数在趋于正无穷或负无穷时，函数趋近平滑状态。因为输入范畴（0，1），所以二分类的概率经常用这个函数。

sigmoid函数表达式如下：

$$
f(x)=\frac{1}{(1-e^{-z})}
$$

图像如下：

学习更多编程常识，请关注我的公众号：

代码的路

关于人工智能:SiamFC用于目标跟踪的全卷积孪生网络

SiamFC网络

AlexNet

微调（fine-tune）

感知机：PLA

多层感知机：MLP

ReLU函数

sigmod函数

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:SiamFC用于目标跟踪的全卷积孪生网络

SiamFC网络

AlexNet

微调（fine-tune）

感知机：PLA

多层感知机：MLP

ReLU函数

sigmod函数

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复