共计 3520 个字符,预计需要花费 9 分钟才能阅读完成。
作者 | 祝向平
编辑 | CV 君
报道 | 我爱计算机视觉(微信 id:aicvml)
本文是对『Intra-Camera Supervised Person Re-Identification』一文的具体解读,IJCV 接管论文。
作者信息:
- 论文链接:https://arxiv.org/abs/2002.05046
01 前言
行人重辨认(person re-id, person re-identification)思考的是一个跨摄像头关联指标人物的问题。对于传统的全监督行人重辨认,为了训练失去一个性能较好的模型,大量标注好的行人数据是必不可少的。
标注行人重辨认数据是一个耗时又耗力的工作。因为这个起因,无监督(unsupervised)和跨畛域无监督(unsupervised domain adaption)行人重辨认算法在近几年失去了越来越多的关注也取得了很大的提高。然而相比于全监督行人重辨认模型而言,无监督模型的性能仍然有肯定的差距。
另外,和全监督行人重辨认模型相似,跨畛域无监督模型须要一个精确地标注好的数据集来作为源域数据集。
基于这些发现,咱们提出了 一种在全监督和无监督之间的行人重辨认问题 — 摄像机域内监督行人重辨认问题(ICS person re-id, Intra-Camera Supervised person re-identification),并且就该问题设计了一种行人重辨认模型(MATE, Multi-tAsk mulTi-labE deep learning model)。
试验结果表明,摄像机域内监督行人重辨认能够缩小数据标注的复杂性和工作量,咱们基于该问题所提的行人重辨认模型也可能获得比无监督和跨畛域无监督模型更好的性能(所选的比照后果更新在论文提交的工夫,即 2019 年 12 月)。
02 摄像机域内监督(ICS)行人重辨认
为了简化问题,咱们能够把全监督行人重辨认的数据标注过程分为两个阶段:1)摄像机域内行人图片标注;
2)摄像机之间行人(个体)关联。
对于摄像机域内行人图片的标注,除了人工标注咱们还能够利用一些性能较好的跟踪算法进行初步标注,而后人工进行图片的选取和核查,从而大大降低数据标注的工作量。
然而对于摄像机之间的行人,因为摄像机和摄像机之间可能存在比拟大的差别,比方室内和室外照片的光照差别,入口和进口拍到行人的角度差别等等,这些起因导致了跟踪算法往往不可能胜利地跨摄像头跟踪目标人物。这也是行人重辨认问题提出来的起因之一。
因而,对于摄像机之间的行人关联往往须要人工的参加。跨摄像头行人关联是一个比较复杂的过程,对于每一个须要关联的行人,咱们须要将他与其余摄像头下所有未标注的行人进行比对。此外,还须要保障不同的标注员标注雷同行人时给的是同一个标签。基于这些发现,咱们提出了摄像机域内监督行人重辨认问题。
图 1, 传统全监督行人重辨认数据和摄像机域内监督行人重辨认数据的比照
图 1 示意了传统全监督行人重辨认数据和摄像机域内监督行人重辨认数据的差别。相比于全监督行人重辨认数据,摄像机域内监督行人重辨认数据只提供了每个摄像机下 行人照片的标签信息,而没有提供雷同行人在不同摄像机下的关联标签。
因而在创立 摄像机域内监督行人数据集时能够缩小跨摄像头标注的工作量。咱们做过一个定量模仿的小试验也发现:ICS 的行人数据人工标注的工作量要远远小于传统间接进行跨摄像头行人图片关联所须要的工作量。另外在标注摄像机域内监督行人数据集时,多个标注员能够同时进行标注(如图 2 所示)。
图 2,(a)传统全监督行人重辨认数据集标注过程,
(b)摄像机域内监督行人重辨认数据集标注过程
依据数据集中标签的个性,摄像机域内监督行人重辨认问题 须要解决以 下两个工作:
- 如何利用在每个摄像机下所提供的标签信息;
- 如何让模型主动关联不同摄像机下雷同的行人并且利用这些主动关联上的标 签。
为了评估模型主动关联不同摄像机下雷同行人的品质,咱们在创立摄像机域内监督行人重辨认的数据集时,除了提供每个摄像机下的行人标签,咱们也提供了摄像机之间雷同行人的关联标签。
03MATE 模型
图 3,Multi-tAsk mulTi-labE (MATE) deep learning model
图 3 展现了 MATE 模型的示例图。在该模型中,咱们针对 ICS re-id 须要解决的两个工作对应设计了两个模块:摄像机域内监督多任务学习模块(Per-Camera Multi- Task Learning)和多摄像机多标签学习模块(Multi-Camera Multi-Label Learning)。
(1)摄像机域内监督多任务学习模块
图 3. 摄像机内域内监督多任务学习模块
摄像机域内监督多任务学习是对应解决下面提到的第一个工作,即如何利用在每个摄像机下所提供的标签信息。
如图 3 所示,在这个模块中咱们采纳一个多任务学习深度模型。设计的根本思维是每个摄像机对应一个行人分类工作,所有的这些工作共用一个特征提取模块,再把输入特色作为输出输出到全连贯层上。每个摄像机对应前面一个全连贯层。对于损失函 数,咱们仅仅是采纳最简略的 Softmax Cross-Entropy:
(2)多摄像机多标签学习模块
多摄像机多标签学习模块是对应解决下面提到的第二个工作,即让模型主动关联不同摄像机下雷同的行人并且利用这些主动关联上的标签。咱们在这个模块里又设计了两个子模块,一个是摄像机间的雷同行人关联模块,另一个是多标签学习模块。
摄像机间雷同行人关联模块 次要是基于一个雷同行人图片在不同图片类中互为最类似的思维。这个也是受启发于 CycleGan,然而 CycleGan 是 Pixel Level 的,而咱们这里是 Feature Level 的。具体思路可用上面两个示意图示意:
摄像机间雷同行人关联示意图 1
摄像机间雷同行人关联示意图 2
摄像机间雷同行人关联示意图 3
摄像机间雷同行人关联示意图 4
多标签学习模块。如何两个行人关联上后,咱们就采纳多标签的办法在标签层面上让这两个行人关联上,具体做法是把关联上的图片的标签别离复制给对方。这样通过多标签解决后,不同摄像机下的雷同行人就会领有齐全一样的多标签,如下图所示:
多标签学习策略示意图
通过下面两个模块的解决后,就能够关联上不同摄像机下的雷同行人并且关联上的行人都会领有新的标签。咱们把这些新的标签更新到训练数据集中,并且再次采纳 softmax cross-entropy 来对模型进行再次更新:
最终的模型损失函数是这两个模块损失函数的线性叠加:
04 试验后果
试验后果
咱们将现有的行人重辨认工作进行了分类,分为无监督,基于跟踪算法,跨域无监督,摄像机域内监督,半监督和全监督行人重辨认。从表格能够看出咱们的 MATE 模型在 Market1501 的性能还是很有竞争性的。更多的试验后果请浏览咱们的论文。
后记:ICS 行人重辨认问题是一个为了升高数据创立的复杂性而提出的一个折中计划。论文在评审中一个 reviewer 说这个计划是:a sweet compromise between unsupervised and fully supervised person re-id。论文 [2] 目前刚被 IJCV 接管。ICS 这一新问题能够很容易地从现有的全监督数据集上过渡过去:只须要在全监督数据集上去掉摄像机间的行人关联标签就能够。为了欠缺这一个新问题,咱们在论文中提供了三个简略的 benchmark 模型作为参考。另外 MATE 模型在算法上也比拟好实现,没有波及简单的损失函数。目前曾经有学者开始 follow 这一个问题。曾经 release 的对于 ICS re-id 的论文曾经做出了比咱们论文更好的后果,然而在摄像机数量比拟多的数据集上,比方 MSMT17,性能和全监督模型仍然存在着比拟大的差距。
参考文献
[1]Xiangping Zhu, Xiatian Zhu, Minxian Li, Vittorio Murino, and Shaogang Gong. “Intra-camera supervised person re-identification: A new benchmark.” InProceedings of the IEEE International Conference on Computer Vision Workshops, pp. 0-0. 2019.
[2]Xiangping Zhu, Xiatian Zhu, Minxian Li, Pietro Morerio, Vittorio Murino, and Shaogang Gong. “Intra-Camera Supervised Person Re-Identification.”arXiv preprint arXiv:2002.05046(2020),accepted to IJCV 2021.