共计 1583 个字符,预计需要花费 4 分钟才能阅读完成。
作者 | Bin Yan
编辑 | CV 君
报道 | 我爱计算机视觉(微信 id:aicvml)
导读
本文简短介绍大连理工大学和微软亚洲研究院单干的最新工作:Learning Spatio-Temporal Transformer for Visual Tracking,代码已开源,先来看下 STARK 在各大数据集上的性能。
短时跟踪
TrackingNet AUC 82.0% (目前第一)!
GOT-10K AO 68.8% (只用 GOT10K 训练 目前第一)!
VOT2020 EAO 0.505 (目前第二)!
长时跟踪
LaSOT AUC 67.1% (目前第一)!
VOT2020-LT F-score 70.2% (目前第一)!
OxUvA MaxGM 78.2% (Leaderboard 第二,有 paper 的工作中第一)!
作者单位:大连理工大学,微软亚洲研究院
论文:https://arxiv.org/pdf/2103.17…
代码:https://github.com/researchmm…
看点
本文提出一种名为 STARK 的全新跟踪框架,该框架具体如下特点:
(1)通过 Transformer 学习鲁棒的时空联结示意。STARK 的输出包含:第一帧模板,以后帧搜寻区域,以及一个随工夫变动的动静模板。
其中第一帧模板和以后帧搜寻区域提供了待跟踪目标的外观与地位信息(空间信息),动静模板则涵盖了指标在跟踪过程中的动态变化(时序信息)。
STARK 将“时空”看作一个整体,将以上三张图像的骨干网络特色沿空间维度开展后拼接,失去一个同时蕴含空间与时序信息的特色序列作为 Transformer 编码器的输出,以学习一种弱小的时空联结示意。
(2)将指标跟踪建模成一个间接的边界框预测问题。通过预测左上与右下角点热力求的形式,每帧间接失去一个最优的边界框,彻底解脱了之前简单且对超参敏感的后处理
(3)STARK 在多个短时跟踪与长时跟踪数据集上获得了以后最先进的后果,并且在 GPU 端能够实时运行(30/40 FPS on Tesla V100)。
试验后果
本文在多个短时跟踪与长时跟踪数据集上评估了 STARK 算法的性能,结果表明 STARK 在短时和长时跟踪数据集上均获得了最先进的性能(第一或第二)
短时跟踪
- GOT-10K
遵循 GOT-10K 官网的要求,在 GOT-10K 测试集上测试时,咱们只用 GOT10K 的训练集训练
STARK 获得了68.8% 的 AO,排名第一
GOT-10K
- TrackingNet
STARK 在 TrackingNet 上获得了82.0% 的 AUC,排名第一
TrackingNet
- VOT2020
VOT2020 采纳 mask 作为真值,参赛者能够抉择汇报 box 或者 mask。当只汇报 box 时,STARK 以 0.308 的 EAO 超过了之前的 SOTA SuperDiMP(0.305);
当搭配上 AlphaRefine 办法(首先用 STARK 预测边界框,再用 AlphaRefine 预测 mask),STARK 超过了 AlphaRef, OceanPlus 等最先进的办法, EAO 达到了 0.505,排名第二 (仅次于 VOT20 的冠军 RPT)
VOT2020
长时跟踪
- LaSOT
STARK 在 LaSOT 上获得了67.1% 的 AUC,排名第一
LaSOT
- VOT2020-LT
STARK 在 VOT2020-LT 上获得了 70.2% 的 F -score,超过了当年的冠军 LT\_DSE, 排名第一
VOT2020-LT
- OxUvA
STARK 在 OxUvA 上获得了 78.2% 的 MaxGM,超过了之前最先进的办法 LTMU 和 Siam R-CNN 等,目前在 OxUvA 的 排行榜上排名第二,在有论文的办法中排名第一
OxUvA
残缺的训练和测试代码,训练好的模型和训练过程中的 log,以及原始跟踪后果公布到以下 repo,欢送大家 Watch, Star, Fork 三连!!!
代码:https://github.com/researchmm…
END