关于计算机视觉:BATMAN将双边注意力用于视频对象分割

28次阅读

共计 613 个字符,预计需要花费 2 分钟才能阅读完成。

出品人:Towhee 技术团队 张晨、顾梦佳

视频对象宰割 (Video Object Segmentation,VOS) 是视频了解的根底。基于 Transformer 的办法曾经在半监督 VOS 上显示出显着的性能改良。然而,现有的工作很难宰割彼此凑近的类似物体。为此,BATMAN 提出了一种用于半监督 VOS 的新型双边注意力 Transformer。大量试验验证了 BATMAN 架构的有效性,它在所有四个风行的 VOS 基准测试中均优于所有现有的最先进技术:Youtube-VOS 2019 (85.0%)、Youtube-VOS 2018 (85.3%)、DAVIS 2017Val/Testdev (86.2) %/82.2%),以及 DAVIS 2016 (92.5%)。

Overview of BATMAN architectureBATMAN

通过一个新鲜的光流校准模块捕捉视频中的对象静止,该模块将宰割掩码与光流预计交融在一起,以进步对象内光流的平滑度并缩小对象边界处的噪声。双边空间编码器用于将查问特色和校准后的光流编码为双边空间编码,供双边注意力应用。双边注意力 Transformer 会思考静止和外观来计算相邻双边空间中查问帧和参考帧之间的对应关系。

相干材料:
论文链接:BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring Space for Video Object Segmentation

正文完
 0