关于深度学习:Transferring-Rich-Feature-Hierarchies-for-Robust-Visual-Tracking

2次阅读

共计 6076 个字符,预计需要花费 16 分钟才能阅读完成。

原文链接

论文地址:https://arxiv.org/pdf/1501.04…

摘要

妨碍 CNN 利用于视觉跟踪的次要阻碍是不足适当标记的训练数据。尽管开释 CNN 功率的现有应用程序通常须要大量数百万的训练数据,然而视觉跟踪应用程序通常在每个视频的第一帧中仅具备一个标记的示例。咱们通过离线预培训 CNN,而后将学到的丰盛特色层次结构转移到在线跟踪来解决此钻研问题。CNN 还在在线跟踪期间进行微调,以适应第一视频帧中指定的跟踪目标的外观。为了适应对象跟踪的特色,咱们首先事后训练 CNN 以辨认什么是对象,而后生成概率图而不是生成简略的类标签。应用两个具备挑战性的开放式基准进行性能评估。

1 简介

在最近的钻研趣味激增中,一些其余计算机视觉工作(例如视觉跟踪)依然绝对未开发。咱们认为,一个次要起因是不足足够的标记训练数据,这些数据通常在实现其余利用的突破性体现方面起着十分重要的作用,因为 CNN 训练通常以齐全监督的形式进行。

然而,在视觉跟踪的状况下,标记的训练数据通常十分无限,通常仅有一个标记的示例作为在每个视频的第一帧中指定的跟踪对象。这使得大规模 CNN 办法的间接利用变得不可行。在本文中,咱们提出了一种能够解决这一挑战的办法,因而能够将 CNN 框架引入视觉跟踪。应用这种办法来实现跟踪器,咱们实现了十分有前途的性能,其性能优于最先进的基线跟踪器超过 10%(对于一些定性跟踪后果,参见图 1)。

尽管视觉跟踪能够依据不同的利用在不同的设置中制订,但本文的重点是一次通过无模型的单指标跟踪设置。具体来说,它假设给出了第一帧中单个对象的边界框,但没有其余外观模型可用。给定这个独自的(标记的)实例,指标是以在线形式跟踪对象的挪动。因而,该设置波及基于跟踪器的可能有噪声的输入使跟踪器适应对象的外观变动。制订这个问题的另一种办法是作为一个自学成才的繁多学习问题,其中单个例子来自前一帧。因为从单个示例学习视觉模型是一个不适定的问题,因而胜利的办法将须要应用一些辅助数据来学习通用对象特色的不变示意。尽管最近的一些工作也有这种精力,但因为一方面不足足够的训练数据而另一方面所用模型的代表能力无限,所报告的体现不如现有技术水平。通过学习更弱小的性能,CNN 能够在这里发挥作用。为了在在线跟踪期间应用无限的培训数据使其可行,咱们离线事后培训 CNN,而后将学习的通用性能转移到在线跟踪工作。

文献中报道的第一个深度学习跟踪器(DLT)基于 SDAE 网络。尽管这种办法十分有前途,但与其余最先进的跟踪器相比,本文中报告的办法的确切实现有两个限度,妨碍了 DLT 的跟踪性能。首先,DLT 的预训练可能不太适宜跟踪利用。用于预训练的数据来自 80M Tiny Images 数据集,每个图像通过间接从全尺寸图像下采样取得。只管能够通过学习重建输出图像来学习一些通用图像特色,然而在典型的跟踪工作中跟踪的指标是单个对象而不是整个图像。对跟踪无效的特色应该可能将对象与非对象(即背景)辨别开,而不仅仅是重建整个图像。其次,在每个帧中,DLT 首先基于先前帧的预测生成指标的候选者或提议,而后将跟踪视为分类问题。它疏忽了边界框的结构化性质,因为边界框或宰割后果对应于图像的区域,而不仅仅是分类或回归问题中的简略标签或实数。之前的一些工作表明,在模型中明确地利用结构化性质能够显着进步性能。此外,提案的数量通常在几百个数量级,因而很难利用更大的深度学习模型。

咱们提出了一种新鲜的结构化输入 CNN,它传输用于在线跟踪的通用对象特色。咱们的论文的奉献总结如下:
1. 为了加重在线跟踪过程中的适度拟合和漂移问题,咱们事后训练 CNN 以辨别对象和非对象,而不是简略地重建输出或对具备对象级正文的大规模数据集进行分类分类。

2.CNN 的输入是逐像素的映射,以批示输出图像中的每个像素属于对象的边界框的概率。像素输入的次要长处是其诱导的构造损失和计算可扩展性。

3. 咱们在凋谢基准以及具备挑战性的非刚性物体跟踪数据集上评估咱们提出的办法,并取得十分显着的后果。特地是,对于凋谢基准,咱们将重叠率曲线的 AUC 度量从 0.529 改善到 0.602。

2 相干工作

DLT 具体介绍

SDAE 具体介绍

AUC 具体介绍

3 咱们的追踪器

在本节中,咱们将介绍咱们的结构化输入深度学习跟踪器(structured output deep learning tracker SO-DLT)。咱们首先介绍了 SO-DLT 中的 CNN 架构和 CNN 的离线预训练过程。而后,咱们将介绍在线跟踪流程的详细信息。

3.1 概观

跟踪器的训练可分为两个阶段:

1. 离线预训练阶段

2. 在线微调和跟踪阶段。

在训练前阶段,咱们训练 CNN 学习用于辨别对象与非对象的通用对象特色,即,从示例中学习对象的概念。咱们不是在在线跟踪期间修复 CNN 的学习参数,而是对它们进行微调,以便 CNN 可能适应被跟踪的指标。为了实现稳健性,咱们在在线跟踪期间同时运行两个 CNN,以解决模型更新可能导致的谬误。两个 CNN 协同工作以确定每个视频帧的跟踪后果。

3.2 对象性预训练

结构化输入 CNN 的构造如图 2 所示。它由七个卷积层和三个齐全连贯的层组成。在这两局部之间,引入了多尺度池化以保留与地点相干的更多特色,因为输入须要它们进行本地化。网络的参数设置如图 2 所示。与用于分类或回归的传统 CNN 相比,咱们的模型存在一个重要的差别:CNN 的输入是 50×50 概率图而不是单个数。每个输入像素对应于原始输出中的 2×2 区域,其值示意对应的输出区域属于对象的概率。在咱们的实现中,输入层是 2500 维全连贯层,而后将其从新整形为 50×50 概率图。因为概率图的相邻像素之间存在强相关性,因而咱们仅应用前一层中的 512 个暗藏单元来帮忙避免过拟合。

要训​​练如此大的 CNN,必须应用大型数据集来避免适度拟合。因为咱们对对象级性能感兴趣,因而咱们应用 ImageNet 2014 检测数据集,其中蕴含训练集中的 478,807 个边界框。对于每个带正文的边界框,咱们在其四周增加随机填充和缩放。当正样本的重叠率(Overlap Rate, OLR)低于某个阈值时,咱们还随机抽样一些负样本(negative samples)。请留神,它不会像在典型的分类或检测工作中那样学会辨别不同的对象类,因为咱们只想学习在此阶段辨别对象与非对象。因而,咱们在 50×50 输入图的每个地位应用逐元素逻辑回归模型,并相应地定义损失函数。对于训练指标,边界框内的像素设置为 1,而内部为 0。对于负样本整个概率图指标是 0。该设置相当于惩办预测和地面实况之间的不匹配像素的数量,从而引起更好地适应问题的结构化损失函数。在数学上,让 pij 示意(i,j)地位的预测,tij 是二进制变量示意(i,j)地位的根本事实,咱们办法的损失函数定义为:

$$
\min _{p_{i j}} \sum_{i=1}^{50} \sum_{j=1}^{50}-\left(1-t_{i j}\right) \log \left(1-p_{i j}\right)-t_{i j} \log \left(p_{i j}\right) \tag{1}
$$

4.1 中形容了培训的具体参数。

图 3 显示了在 ImageNet 2014 检测工作提供的放弃验证集上测试预训练的 CNN 时的一些后果。在大多数状况下,CNN 能够胜利地确定输出图像是否蕴含对象,如果是,则能够精确地定位感兴趣的对象。请留神,因为咱们的训练数据的标签只是边界框,因而 50×50 概率图的输入也是正方形。尽管有办法 [6] 利用边界框信息来提供弱监督并取得像素宰割,但咱们认为模型中的概率图输入足以用于跟踪。

3.3 在线跟踪

如上所述预训练学习通用对象特色的 CNN 不能间接用于在线跟踪,因为 ImageNet 数据的数据偏差不同于在线跟踪期间察看到的数据偏差。此外,如果咱们不对 CNN 进行微调,它将检测到视频帧中呈现的所有对象,而不仅仅是被跟踪的对象。因而,必须应用在线跟踪期间收集的每个视频的第一帧中的正文来微调预训练的 CNN,以确保 CNN 特定于指标。微调或在线模型调整是咱们跟踪器中不可或缺的一部分,而不是仅为了进一步提高跟踪性能而引入的可选性能。

咱们保护两个应用不同模型更新策略的 CNN。在应用第一帧中的正文进行微调之后,咱们基于前一帧的预计从每个新帧中裁剪一些图像块。通过简略地向前穿过 CNN,咱们能够取得每个图像块的概率图。而后通过搜寻适当的边界框来确定最终预计。如有必要,将更新两个 CNN。咱们在图 4 中阐明了跟踪算法的流程。

3.3.1 边界框确定

当新框架到来时,咱们的跟踪器的第一步是确定指标的最佳地位和比例。咱们首先指定可能蕴含指标的可能区域,并将区域送到 CNN。接下来,咱们依据概率图确定边界框的最可能地位。

搜寻机制:为指标抉择适合的搜寻范畴是一个十分重要的问题。应用太小的搜寻区域使得在疾速静止下很容易失去对指标的跟踪,然而应用太大的搜寻区域可能包含背景中的显着烦扰物。例如,在图 5 中,输入响应变弱,因为搜寻区域被放大次要是因为芜杂的背景和左近的另一个人。为了解决这个问题,咱们提出了一种用于确定正确边界框的多尺度搜寻计划。首先,所有裁剪区域都以前一帧的预计为核心。而后,咱们开始用最小的比例搜寻。如果输入概率图上的总和低于阈值(即,指标可能不在该比例中),那么咱们进入下一个更大的比例。如果咱们无奈在所有比例中找到对象,咱们会报告指标失落。

生成边界框:在咱们抉择最佳比例后,咱们须要为以后帧生成最终边界框。咱们首先确定边界框的核心,而后预计其绝对于前一帧的比例变动。为了确定核心,咱们应用基于密度的办法,该办法为相应的概率图设置阈值 τ1,并找到具备高于阈值的所有概率值的边界框。接下来,通过取 τ1 的不同值的平均值来预计以后尺度下的边界框地位。确定核心后,咱们须要在相应区域再次搜寻以找到适合的比例。该比例旨在完满地拟合准确的指标区域。简略地应用均匀置信度(这使得跟踪器更容易抉择核心区域具备高置信度)或齐全置信度(这使得它更容易抉择整个帧)并不令人满意。

设 P 示意输入概率图,并且 p 示意 P 中的第(i,j)个元素。咱们思考具备左上角(x,y),宽度 w 和高度 h 的边界框。其得分计算为:

$$
c=\sum_{i=x}^{x+w-1} \sum_{j=y}^{y+h-1}\left(p_{i j}-\epsilon\right) \cdot w \cdot h \tag{2}
$$

在这里均衡边界框的比例。咱们还反复几个值并对其后果进行均匀以进行持重预计。借助积分图像能够十分无效地计算置信度。

3.3.2 差分节奏微调

视觉跟踪中的模型更新常常面临两难抉择。如果跟踪器更新频率低,则无奈很好地适应外观变动。然而如果更新太频繁,不精确的后果可能会影响其性能并导致漂移问题。

咱们通过在线跟踪期间应用两个 CNN 来解决这一难题。根本的想法是使一个 CNN(CNNS)短期呈现,而另一个(CNNL)长期呈现。首先,两个 CNN 都在视频的第一帧中进行微调。之后,CNNL 激进调整,而 CNNS 则踊跃调整。通过合作,CNNS 适应戏剧性的外观变动,而 CNNL 能够抵挡潜在的谬误。而后由更自信的人确定最终预计。因而,最终的综合后果对于由遮挡或芜杂背景引起的漂移更加持重。

咱们当初提供无关更新策略的更多详细信息。咱们首先察看到,如果在预测低于阈值时立刻更新模型,则模型将很容易受到噪声后果的影响。另一方面,咱们发现负面例子的品质通常十分稳固。后果,当存在这样的负面示例时,CNNS 被更新:

$$
\sum_{i=1}^{50} \sum_{j=1}^{50} p_{i j}>\tau_{2} \tag{3}
$$

这是为了确保应该克制任何导致 CNN 起火的背景对象。这样做将缩小跟踪器在解决后续帧时向与跟踪对象相似的一些负示例漂移的可能性。相同,除了上述条件外,CNNL 只会更新:

$$
\sum_{i=x}^{x+w-1} \sum_{j=y}^{y+h-1} p_{i j}>\tau_{3} \cdot w \cdot h \tag{4}
$$

其中(x,y,w,h)示意以后帧中的输入指标边界框。这意味着咱们更激进地更新 CNNL,因为如果咱们对以后帧中的后果十分有信念,咱们只会更新它。这样做能够升高真正指标曾经漂移到后盾时不正确更新的危险。

在每次更新中,咱们都须要收集侧面和负面的例子。咱们的抽样计划如图 5 所示。对于正例,咱们基于前一帧的预计以四个尺度对它们进行抽样。还引入随机翻译以打消对核心地位的学习偏差。至于背面的例子,咱们在两个尺度上在不同方向上围绕指标裁剪八个非重叠边界框。正例的输入也显示在图 5 中。

在左侧,红色边界框示意要跟踪的指标,而其四周的八个蓝色边框是负面示例。在左边,咱们在上部显示了进入 CNN 的侧面例子。它们用不同的比例和随机翻译填充。下部显示了对该帧进行微调后 CNN 的相应输入。

4 试验

在本节中,咱们通过与其余最先进的跟踪器进行比拟,对通过验证的 SO-DLT 跟踪器进行了实证验证。为了偏心比拟,咱们不仅须要一个相当大的基准数据集来防止因为数据抉择而产生的偏差,而且还应该有一个精心设计的协定,每个跟踪器都遵循该协定。最近的一项工作引入了对立的跟踪基准,其中包含数据集和协定。咱们应用基准数据集进行比拟钻研,并严格遵循协定,为所有测试的视频序列固定雷同的参数集。如果论文被承受,咱们将公开施行。

与 CNN 相干的局部应用 Caffe 工具箱实现,在线跟踪包装器间接在 MATLAB 中实现。所有试验都在具备 3.40GHz CPU 和 K40 GPU 的台式计算机上运行。咱们未经优化的代码的速度约为每秒 4 到 5 帧。
对于 CNN 的预训练,咱们从学习率 10- 7 开始,动量为 0.9,并且每 5 个期间一次升高学习率。咱们总共训练了大概 15 个期间。请留神,因为咱们应用的损失函数不同,咱们的学习率远低于典型抉择。为了加重适度拟合,每层应用 5×10- 4 的分量衰减,并且第一齐全连贯层以 0.5 的压差率正规化。在微调期间,咱们应用较大的学习率 2×10-7,动量小于 0.5。对于第一帧,咱们对每个 CNN 进行微调 20 次。对于后续帧,咱们只对一次迭代进行微调。
τ1 的范畴为 0.1 至 0.7,步长为 0.05。将负例的置信度 τ2 的阈值设定为 τ2= 100. 将 CNNL 的更新阈值设定为 τ3= 0.8。用于搜寻适当比例的归一化常数范畴从 0.55 到 0.6,步长为 0.025。

5 论断

在本文中,咱们利用了传输高级特色层次结构进行视觉跟踪的有效性。据咱们所知,咱们是第一个将大规模 CNN 带入视觉跟踪畛域的公司,并且显示出对最先进的跟踪器的显着改良。咱们提出了一种用于视觉跟踪的新鲜结构化输入 CNN,而不是将跟踪建模作为提议分类问题。此外,CNN 不是像以前的工作那样学习重建输出图像,而是首先对大规模的 ImageNet 检测数据集进行预训练,以学习定位对象,从而缓解因为不足标记训练而导致的问题。数据。而后在在线跟踪过程中传输和微调该对象 CNN。大量试验验证了咱们的 SO-DLT 跟踪器的优越性。

 
 

学习更多编程常识,请关注我的公众号:

代码的路

正文完
 0