作者 | Bin Yan
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)

导读

本文简短介绍大连理工大学和微软亚洲研究院单干的最新工作:Learning Spatio-Temporal Transformer for Visual Tracking,代码已开源,先来看下STARK在各大数据集上的性能。

短时跟踪

TrackingNet AUC 82.0% (目前第一)!

GOT-10K AO 68.8% (只用GOT10K训练 目前第一)!

VOT2020 EAO 0.505 (目前第二)!

长时跟踪

LaSOT AUC 67.1% (目前第一)!

VOT2020-LT F-score 70.2% (目前第一)!

OxUvA MaxGM 78.2% (Leaderboard第二,有paper的工作中第一)!

作者单位 :大连理工大学,微软亚洲研究院

论文:https://arxiv.org/pdf/2103.17...

代码:https://github.com/researchmm...

看点

本文提出一种名为STARK的全新跟踪框架,该框架具体如下特点:

(1)通过Transformer学习鲁棒的时空联结示意。STARK的输出包含:第一帧模板,以后帧搜寻区域,以及一个随工夫变动的动静模板。

其中第一帧模板和以后帧搜寻区域提供了待跟踪目标的外观与地位信息(空间信息),动静模板则涵盖了指标在跟踪过程中的动态变化(时序信息)。

STARK将“时空”看作一个整体,将以上三张图像的骨干网络特色沿空间维度开展后拼接,失去一个同时蕴含空间与时序信息的特色序列作为Transformer编码器的输出,以学习一种弱小的时空联结示意。

(2)将指标跟踪建模成一个间接的边界框预测问题。通过预测左上与右下角点热力求的形式,每帧间接失去一个最优的边界框,彻底解脱了之前简单且对超参敏感的后处理

(3)STARK在多个短时跟踪与长时跟踪数据集上获得了以后最先进的后果,并且在GPU端能够实时运行(30/40 FPS on Tesla V100)。

试验后果

本文在多个短时跟踪与长时跟踪数据集上评估了STARK算法的性能,结果表明STARK在短时和长时跟踪数据集上均获得了最先进的性能(第一或第二)

短时跟踪

  • GOT-10K

遵循GOT-10K官网的要求,在GOT-10K测试集上测试时,咱们只用GOT10K的训练集训练

STARK获得了68.8%的AO,排名第一

GOT-10K

  • TrackingNet

STARK在TrackingNet上获得了82.0%的AUC,排名第一

TrackingNet

  • VOT2020

VOT2020采纳mask作为真值,参赛者能够抉择汇报box或者mask。当只汇报box时,STARK以0.308的EAO超过了之前的SOTA SuperDiMP(0.305);

当搭配上AlphaRefine办法(首先用STARK预测边界框,再用AlphaRefine预测mask),STARK超过了AlphaRef, OceanPlus等最先进的办法, EAO达到了0.505,排名第二 (仅次于VOT20的冠军RPT)

VOT2020

长时跟踪

  • LaSOT

STARK在LaSOT上获得了67.1%的AUC, 排名第一

LaSOT

  • VOT2020-LT

STARK在VOT2020-LT上获得了70.2%的F-score,超过了当年的冠军LT\_DSE,排名第一

VOT2020-LT

  • OxUvA

STARK在OxUvA上获得了78.2%的MaxGM,超过了之前最先进的办法LTMU和Siam R-CNN等,目前在OxUvA的排行榜上排名第二,在有论文的办法中排名第一

OxUvA

残缺的训练和测试代码,训练好的模型和训练过程中的log,以及原始跟踪后果公布到以下repo, 欢送大家Watch, Star, Fork三连!!!

代码:https://github.com/researchmm...

END