乐趣区

关于transform:论文解读transformer小目标检测综述

一、简要介绍

Transformer 在计算机视觉畛域迅速遍及,特地是在指标辨认和检测畛域。在查看最先进的指标检测办法的后果时,咱们留神到,在简直每个视频或图像数据集中,transformer 始终优于欠缺的基于 cnn 的检测器。尽管基于 transformer 的办法依然处于小指标检测(SOD)技术的前沿,但本文旨在摸索如此宽泛的网络所提供的性能效益,并确定其 SOD 劣势的潜在起因。小指标因为其低可见性,已被确定为检测框架中最具挑战性的指标类型之一。论文的目标是钻研能够进步 transformer 在 SOD 中的性能的潜在策略。本考察对逾越 2020 年至 2023 年的 60 多个针对 SOD 工作开发的 transformer 的钻研进行了分类。这些钻研包含各种检测利用,包含在通用图像、航空图像、医学图像、被动毫米图像、水下图像和视频中的小指标检测。论文还编制并提供了 12 个适宜 SOD 的大规模数据集,这些数据集在以前的钻研中被忽视了,并应用风行的指标如均匀均匀精度(mAP)、每秒帧(FPS)、参数数量等来比拟回顾钻研的性能。

二、钻研背景

小型指标检测(SOD)已被认为是最先进的(SOTA)指标检测办法的一个重大挑战。术语“小指标”指的是占据输出图像的一小部分的指标。例如,在宽泛应用的 MS COCO 数据集中,它定义了在典型的 480×640 图像中,边界框为 32×32 像素或更小的指标(图 1)。其余数据集也有本人的定义,例如,占图像 10% 的指标。小指标常常被谬误的部分边界框脱漏或发现,有时还会有不正确的标签。SOD 中定位有余的次要起因是输出图像或视频帧中提供的信息无限,再加上它们在深度网络中通过多层时随后经验的空间进化。因为小指标经常出现在行人检测、医学图像剖析、人脸识别、交通标志检测、交通灯检测、船舶检测、基于合成孔径雷达(SAR)的指标检测等各种应用领域中,因而值得钻研古代深度学习 SOD 技术的性能。在本文中,作者比拟了基于 transformer 的检测器与基于卷积神经网络(CNNs)的检测器在其小指标检测方面的性能。在性能显著优于 cnn 的状况下,论文而后试图揭示 transformer 的弱小性能背地的起因。一个间接的解释可能是,transformer 建模了输出图像中成对地位之间的相互作用。这是一种无效的编码上下文的形式。而且,在人类和计算模型中,上下文都是检测和辨认小指标的次要信息起源。然而,这可能不是解释 transformer 胜利的惟一因素。具体来说,论文的指标是从几个维度来剖析这一胜利,包含指标示意、对高分辨率或多尺度特色图的疾速关注、齐全基于 transformer 的检测、架构和块批改、辅助技术、改良的特色示意和时空信息。此外,论文还指出了有可能进步 SOD transformer 性能的办法。

在之前的工作中,论文考察了许多基于深度学习的策略,以进步到 2022 年在光学图像和视频中的小指标检测的性能。论文发现,除了适应 transformer 等较新的深度学习构造之外,风行的办法还包含数据加强、超分辨率、多尺度特色学习、上下文学习、基于注意力的学习、区域倡议、损失函数正则化、利用辅助工作和时空特色聚合。此外,论文察看到,transformer 是在大多数数据集中定位小指标的次要办法之一。然而,思考到之前的工作次要评估了 160 多篇关注于基于 cnn 的网络的论文,因而没有对以 transformer 为核心的办法进行深刻的摸索。意识到该畛域的增长和摸索速度,当初有了一个及时的窗口来深入研究针对小指标检测的以后 transformer 模型。在本文中,作者的指标是全面理解影响 transformer 在利用于小指标检测时令人印象粗浅的性能的因素,以及它们与用于通用指标检测的策略的区别。为了奠定根底,论文首先突出了驰名的基于 transformer 的 SOD 指标检测器,并将它们的停顿与现有的基于 cnn 的办法并列起来。自 2017 年以来,该畛域曾经发表了大量的综述文章。在之前的考察中介绍了这些评论的宽泛探讨和清单。最近的另一篇综述文章也次要关注基于 cnn 的技术。以后综述的叙述与之前的叙述不同。本文中的重点特地放大到 transformer——一个之前没有摸索过的方面——将它们定位为图像和视频 SOD 的主导网络架构。这须要针对这种翻新体系结构量身定制的独特分类法,无意识地避开基于 cnn 的办法。鉴于这个主题的新颖性和复杂性,论文的评论次要优先思考 2022 年后提出的作品。此外,论文还说明了在更宽泛的利用范畴中用于定位和检测小指标的新数据集。本考察中的钻研次要提出了针对小指标定位和分类的办法,或间接解决了 SOD 的挑战。推动咱们进行剖析的是这些论文中为小指标指定的检测后果。然而,晚期的钻研留神了 SOD 后果,但在其开发方法中体现出不佳或疏忽了 SOD 特定参数,没有思考纳入本综述。在本考察中,咱们假如读者曾经相熟了通用的指标检测技术、它们的架构和相干的性能度量。本文的构造如下:在第 3 节中,论文提出了一个基于 transformer 的 SOD 技术的分类,并对每个类别进行了全面的深入研究。第 4 节展现了用于 SOD 的不同数据集,并跨一系列应用程序对它们进行了评估。在第 5 节中,论文剖析并将这些后果与之前来自 CNN 网络的后果进行了比照。本文在第 6 节中总结了一些论断。

三、用于小指标检测的 transformer

在本节中,论文将探讨基于 transformer 的 SOD 网络。小指标检测器的分类法如图 4 所示。论文表明,现有的基于新型 transformer 的检测器能够通过以下一个或几个角度进行剖析:指标示意、对高分辨率或多尺度特色图的疾速注意力、齐全基于 transformer 的检测、架构和块批改、辅助技术、改良的特色示意和时空信息。在上面的大节中,将别离具体探讨这些类别。

3.1 Object Representation
在指标检测技术中曾经采纳了各种指标示意技术。感兴趣的指标能够用矩形框、中心点和点集、概率指标和关键点来示意。在须要正文格局和小指标示意方面,每种指标示意技术都有本人的优缺点。在放弃现有示意技术的所有劣势的同时,寻找最优示意技术的谋求,从 RelationNet++ 开始。这种办法连贯了各种异构的视觉示意,并通过一个称为桥接视觉示意(BVR)的模块联合了它们的劣势。BVR 能够无效地运行,但并不毁坏次要示意所采纳的整体推理过程,它利用了要害采样和共享地位嵌入的新技术。更重要的是,BVR 依赖于一个留神模块,该模块将一种示意模式指定为“主示意”(或查问),而其余示意则被指定为“辅助”示意(或键)。BVR 块如图 5 所示,它通过将中心点和角点(键)无缝集成到基于锚定(查问)的指标检测办法中,加强了锚定盒的特色示意。

3.2 Fast Attention for High-Resolution or Multi-Scale Feature Maps
以往的钻研表明,放弃高分辨率的特色图是放弃 SOD 中高性能的必要步骤。与 cnn 相比,transformer 实质上体现出显著更高的复杂度,这是因为它们的复杂度绝对于令牌的数量(例如,像素数量)呈二次减少。这种复杂性来自于跨所有令牌的成对相关性计算的要求。因而,训练工夫和推理工夫都超过了预期,使得检测器不适用于高分辨率图像和视频中的小指标检测。在他们对于可变形的 DETR 的工作中,Zhu 等人解决了第一次在 DETR 中察看到的这个问题。他们倡议只关注一个参考文献四周的一小部分要害采样点,这大大降低了复杂性。采纳这种策略,通过应用多尺度变形留神模块无效地放弃了空间分辨率。值得注意的是,该办法打消了特色金字塔网络的必要性,从而大大提高了对小指标的检测和辨认。变形留神中多头留神模块的第 i 个输入为:

其中,i = 1,···,T 和 pi 是查问的参考点,∆phik 是 K 个采样(K<<T=HW)的采样偏移量(2D)。图 6 阐明了其多头留神模块内的计算过程。可变形的 DETR 受害于它的编码器和解码器模块,编码器内的复杂度程序为 O(HW C2),其中 H 和 W 为输出特色图的高度和宽度,C 为通道数。与 DETR 编码器相比,复杂度为 O(H2W2C),随着 H 和 W 的减少,复杂性呈二次增长。可变形留神在其余各种检测器中施展了突出的作用,例如在 T -TRD 中。随后,DETR,具备动静编码器和动静解码器,利用从低分辨率到高分辨率示意的特色金字塔,从而实现高效的粗到细的指标检测和更快的收敛。动静编码器能够看作是齐全自我留神的程序合成近似,基于尺度、空间重要性和表征动静调整留神机制。可变形 DETR 和动静 DETR 都利用可变形卷积进行特征提取。在一种独特的办法中,O2DETR 证实了自留神模块提供的全局推理实际上对航空图像并不是必须的,在航空图像中,指标通常密集地汇集在同一图像区域。因而,用部分卷积代替留神模块,并集成多尺度特色映射,被证实能够在面向指标检测的环境中进步检测性能。RCDA 作者提出了行 - 列解耦留神(RCDA)的概念,将要害特色的二维留神合成为两种更简略的模式:一维行留神和列留神。在 CF-DETR 的状况下,提出了一种 FPN 的代替办法,即在第 5 级(E5)用编码器特色替换 C5 特色,从而改良了指标示意。该翻新被命名为 transformer 增强型 FPN(TEF)模块。在另一项钻研中,Xu 等人通过将跳跃连贯操作与 Swintransformer 集成,开发了一个加权的双向特色金字塔网络(BiFPN)。这种办法无效地保留了与小指标相干的信息。

3.3 Fully Transformer-Based Detectors
Transformer 的呈现及其在计算机视觉中许多简单工作中的杰出性能,逐步促使钻研人员从基于 cnn 或混合系统转向齐全基于 transformer 的视觉零碎。这项工作始于图像识别工作,该工作称为 ViT。ViDT 扩大了 YOLOS 模型(第一个齐全基于 transformer 的检测器),以开发出第一个实用于 SOD 的高效检测器。在 ViDT 中,DETR 中用于特征提取的 ResNet 被各种 ViT 变体所取代,如 Swintransformer、ViTDet 和 DeiT,以及重新配置的留神模块(RAM)。RAM 可能解决 [PATCH]×[PATCH]、[DET]×[PATCH] 和[PATCH]×[DET]的留神。这些穿插和自我留神模块是必要的,因为与 YOLOS 相似,ViDT 在输出中附加了 [DET] 和[PATCH]标记。ViDT 只利用一个 transformer 解码器作为其颈部,以利用在其身材步骤的每个阶段产生的多尺度特色。图 7 阐明了 ViDT 的总体构造,并突出了其与 DETR 和 YOLOS 的区别。

意识到解码器模块是基于 transformer 的指标检测低效的次要起源,无解码器全 transformer(DFFT)利用两个编码器:尺度聚合编码器(SAE)和工作对齐编码器(TAE),以放弃较高的准确性。SAE 将多尺度特色(四个尺度)聚合成一个繁多特色图,而 TAE 则对繁多特色图进行对齐,用于指标类型、地位分类和回归。采纳面向检测的 transformer(DOT)骨干技术进行了具备强语义的多尺度特征提取。在基于稠密 roi 的可变形 DETR(SRDD)中,作者提出了一种带有评分零碎的轻量级 transformer,以最终去除编码器中的冗余令牌。这是通过在端到端学习计划中应用基于 roi 的检测来实现的。
3.4 Architecture and Block Modifications
DETR 是第一种端到端指标检测办法,它在训练过程中缩短了收敛工夫,在小指标上体现较差。一些钻研工作曾经解决了这些问题,以进步 SOD 的性能。一个值得注意的奉献来自 Sun 等人,他从 FCOS(一个齐全卷积单级检测器)和 faster RCNN 中取得灵感,提出了两种仅编码器的 DETR 变体,称为 TSP-FCOS 和 TSP-RCNN。这是通过打消解码器中的穿插留神模块来实现的。他们的钻研结果表明,解码器中的穿插留神和匈牙利损失的不稳定性是 DETR 前期收敛的次要起因。这一发现导致他们放弃了解码器,并在这些新的变体中引入了一种新的二部匹配技术,即 TSP-FCOS 和 TSP-RCNN。Peng 等人通过联结应用 cnn 和 transformer 的办法,提出了一种称为“构形”的混合网络结构。该构造将 cnn 提供的部分特色示意与不同分辨率的 transformer 提供的全局特色示意相结合(见图 8)。这是通过特色耦合单元(FCUs)实现的,试验后果证实了其与 ResNet50、ResNet101、DeiT 等模型相比的有效性。

意识到部分感知和随机相关性的重要性,Xu 等人在 Swintransformer 的 Swintransformer 块中增加了一个部分感知块(LPB)。这种新的骨干,称为部分感知振荡变换(LPSW),显著地改良了地面图像中小指标的检测。DIAG-TR 在编码器中引入了一个全局 - 部分特色交错(GLFI)模块,以自适应和分层地将部分特色嵌入到全局示意中。这种技术均衡了小指标的尺度差别。此外,可学习的锚盒坐标被增加到 transformer 解码器中的内容查问中,提供了一个演绎偏差。在最近的一项钻研中,Chen 等人提出了混合网络 transformer,它通过将卷积嵌入到 transformer 块中扩大了部分信息的范畴。这一改良加强了对 MS COCO 数据集的检测后果。在另一项钻研中,作者提出了一种名为 NeXtfrorm 的新骨干,它联合了 CNN 和 transformer,以加强小指标的部分细节和特色,同时也提供了一个全局的承受域。在各种办法中,O2DETR 用深度可拆散卷积代替了 transformer 中的留神机制。这一变动不仅升高了与多尺度特色相干的内存应用和计算成本,而且还潜在地进步了航空照片的检测精度。Wang 等人质疑之前工作中应用的指标查问,提出了锚点 DETR,它应用锚点进行指标查问。这些锚点加强了指标查问地位的可解释性。对每个锚点应用多个模式,改良了对一个区域内的多个指标的检测。相比之下,Conditional DETR 强调从解码器内容中衍生出的条件空间查问,从而导致空间留神预测。随后的一个版本,条件 DETR v2,通过将指标查问从新结构为方框查问的模式,加强了体系结构。此批改波及嵌入一个参考点和针对参考点转换框。在随后的工作中,DABDETR 通过应用动静可调的锚定盒,进一步改良了查问设计的思维。这些锚点框既作为参考查问点,又作为锚点尺寸(参见图 9)。

在另一项工作 中,作者察看到,尽管 DETR 中小指标的均匀均匀精度(mAP)不能与最先进的(SOTA)技术竞争,但它在小 IoU 阈值下的性能惊人地优于其竞争对手。这表明,尽管 DETR 提供了较强的感知能力,但它须要进行微调,以取得更好的定位精度。作为一种解决方案,提出了粗到精密的检测 transformer(CF-DETR),通过解码器层中的自适应尺度交融(ASF)和部分穿插留神(LCA)模块来进行这种细化。在之前的一个钻研中,作者认为,基于 transformer 的检测器的次优性能能够归因于应用繁多的穿插留神模块进行分类和回归、内容查问的初始化有余以及在自留神模块中不足利用先验常识等因素。为了解决这些问题,他们提出了检测决裂 transformer(DESTR)。该模型将穿插注意力分为两个分支,一个用于分类,另一个用于回归。此外,DESTR 应用了一个迷你检测器来确保在解码器中适当的内容查问初始化,并加强了自留神模块。另一项钻研引入了 FEA-Swin,它利用了 Swintransformer 框架中的高级前景加强关注,将上下文信息集成到原始的骨干中。这是因为 Swintransformer 不能充沛解决密集的指标检测,因为短少相邻指标之间的连贯。因而,前景加强突出了须要进一步进行相关性剖析的指标。TOLO 是最近的工作之一,旨在通过一个简略的颈部模块将感应偏差(应用 CNN)引入 transformer 架构。该模块联合了来自不同层的个性,以合并高分辨率和高语义的属性。设计了多个光 transformer 磁头,用于检测不同尺度下的指标。由 Liang 等人提出的 CBNet,不是批改每个架构中的模块,而是将通过复合连贯连贯的多个雷同的骨干进行分组。在多源聚合 transformer(MATR)中,该 transformer 的穿插留神模块用于利用来自不同视图的同一指标的其余反对映像。一项钻研中也采纳了相似的办法,其中多视图视觉 transformer(MVViT)框架联合了来自多个视图的信息,包含指标视图,以进步当指标在繁多视图中不可见时的检测性能。其余工作更喜爱保持 YOLO 架构。例如,SPH-Yolov5 在 Yolov5 网络的较浅层中减少了一个新的分支,以交融特色,以改良小指标定位。它还首次在 Yolov5 管道中退出了 Swintransformer 预测头。另一项钻研中,作者认为,匈牙利损失的间接一对一的边界盒匹配办法可能并不总是无利的。他们证实了应用单组分配策略和应用 NMS(非最大克制)模块能够导致更好的检测后果。与这个观点相同,Group DETR 通过一对一的标签调配实现了 K 组指标查问,从而对每个高空实在指标进行 K 个正指标查问,以进步性能。DKTNet 提出了一种双键 transformer 网络,其中应用了两个键——一个是 Q 流,另一个是 V 流。这加强了 Q 和 V 之间的一致性,从而改善了学习能力。此外,通过计算通道留神而不是空间留神,并应用一维卷积来减速该过程。
3.5 Auxiliary Techniques
试验结果表明,辅助技术或工作与主工作相结合,能够进步性能。在 transformer 的背景下,曾经采纳了几种技术,包含:(i)辅助解码 / 编码损失:这是指为边界框回归和指标分类而设计的前馈网络连接到独自的解码层的办法。因而,将不同尺度上的个体损失组合起来来训练模型,从而取得更好的检测后果。该技术或其变体已用于 ViDT,MDef-DETR,CBNet,SRDD。(ii)迭代框细化:在这种办法中,每个解码层内的边界框都是依据前一层的预测进行细化的。这种反馈机制逐步提高了检测精度。该技术已用于 ViDT。(iii)自上而下的监督:这种办法利用人类可了解的语义来帮忙检测小的或类不可知的指标的简单工作,例如,MDef-DETR 中的对齐图像文本对,或 TGOD 中的文本疏导指标检测器。(iv)预训练:这包含在大规模数据集上进行训练,而后对检测工作进行特定的微调。该技术已被用于 CBNet V2-TTA、FPDETR、T-TRD、SPH-Yolov5、MATR,并广泛应用于 DETR v2 组。(v)数据加强:该技术通过利用旋转、翻转、放大、裁剪、翻译、增加噪声等各种加强技术,丰盛了检测数据集。数据加强是一种罕用的解决各种不均衡问题的办法,例如,在深度学习数据集中指标大小的不均衡。数据加强能够被看作是一种间接的办法,以最小化训练集和测试集之间的差距。一些办法在检测工作中应用了加强性能,包含 TTRD [43]、SPH-Yolov5、MATR、NLFFTNet、DeoT、HTDet 和 Sw-YoloX。(vi)一对多标签调配:DETR 中的一对一匹配会导致编码器内较差的甄别特色。因而,在其余办法中,一对多的作业,如 Faster-RCNN、RetinaNet 和 FCOS 曾经被用作 CO-DETR 的辅助头部。(vii)去噪训练:该技术旨在进步 DETR 中解码器的收敛速度,因为二部匹配而常常面临不稳固的收敛问题。在去噪训练中,解码器将有噪声的高空实在标签和盒子输出解码器。而后训练该模型来重建原始的 GT 值(在一个辅助损失的疏导下)。像 DINO 和 DN-DETR 这样的实现曾经证实了该技术在进步解码器的稳定性方面的有效性。
3.6 Improved Feature Representation
只管以后的指标检测器在惯例大小或大型指标的广泛应用中杰出,但某些用例须要专门的个性示意来改良 SOD。例如,当波及到检测航空图像中的定向指标时,任何指标旋转都能够大大扭转特色示意,因为在场景中减少的背景噪声或杂波(区域倡议)。为了解决这个问题,Dai 等人提出了 AO2-DETR,这是一种设计为对任意指标旋转具备鲁棒性的办法。这是通过三个要害组件来实现的:(i)定向候选的生成,(ii)定向候选的改良模块,它提取旋转不变特色,以及(iii)旋转感知集匹配损失。这些模块有助于对消指标的任何旋转的影响。在一种相干的办法中,DETR++ 应用了多个双向特色金字塔层(BiFPN),它们以自底而上的形式利用于来自 C3、C4 和 C5 的特色图。而后,只抉择一个代表所有尺度特色的尺度,输出 DETR 框架进行检测。对于一些特定的应用程序,如工厂平安监测,其中感兴趣的指标通常与人类工人相干,利用这些上下文信息能够极大地改善特色示意。PointDet++ 利用了这一点,联合了人体姿势预计技术,集成了部分和全局特色来进步 SOD 性能。影响特色品质的另一个关键因素是骨干网络及其提取语义和高分辨率特色的能力。GhostNet 提供了一个精简和更高效的网络,为 transformer 提供高质量、多尺度的性能。他们在这个网络中的 Ghost 模块局部生成输入特色图,其余部分应用简略的线性操作来复原。这是缓解骨干网络复杂性的关键步骤。在医学图像剖析的背景下,MStransformer 应用自监督学习办法对输出图像执行随机掩模,这有助于重建更丰盛的特色,较不敏感的噪声。与分层 transformer 相结合,这种办法优于具备各种骨干的 DETR 框架。小指标偏好 DETR(SOFDETR),特地反对通过在输出到 DETR-transformer 之前合并来自第 3 层和第 4 层的卷积特色来检测小指标。NLFFTNet 通过引入非部分特色交融 transformer 卷积网络,捕捉不同特色层之间的长距离语义关系,解决了以后交融技术中只思考部分交互的局限性。DeoT 将一个仅限编码器的 transformer 与一个新的特色金字塔交融模块合并。通过在通道细化模块(CRM)和空间细化模块(SRM)中应用通道和空间注意力,加强了这种交融,从而可能提取出更丰盛的特色。HTDet 的作者提出了一种细粒度的 FPN 来累积交融低级和高级特色,以更好地进行指标检测。同时,在 MDCT 中,作者提出了一个多核扩大卷积(MDC)模块,以同时利用小指标的本体和相邻空间特色来进步小指标相干特征提取的性能。该模块利用深度可拆散卷积来升高计算成本。最初,RTD-Net 的一个特色交融模块配对了一个轻量级的骨干,通过拓宽承受域来加强小指标的视觉特色。RTD-Net 中的混合留神模块,通过合并小指标四周的上下文信息,使零碎可能检测局部被遮挡的指标。
3.7 Spatio-Temporal Information
在本节中,咱们的重点齐全是基于视频的指标检测器,旨在辨认小指标。尽管许多这些钻研曾经在 ImageNet VID 数据集上进行了测试,但该数据集最后并不是用于小指标检测的。尽管如此,也有一些工作报告了他们对 ImageNet VID 数据集的小指标的后果。跟踪和检测视频中的小指标的主题也曾经利用 transformer 体系结构进行了摸索。尽管基于图像的 SOD 技术能够利用于视频,但它们通常不利用有价值的工夫信息,这对于辨认芜杂或遮挡帧中的小指标特地有用。transformer 在个别指标检测 / 跟踪中的利用始于跟踪 transformer 和 TransT。这些模型应用了帧到帧(设置前一帧作为参考)设置预测和模板到帧(设置一个模板帧作为参考)检测。Liu 等人是第一批应用 transformer 专门用于基于视频的小指标检测和跟踪的人之一。他们的外围概念是更新模板框架,以捕获由小指标的存在引起的任何小的变动,并在模板框架和搜寻框架之间提供一个全局的留神驱动的关系。通过引入端到端指标检测器 TransVOD,基于 transformer 的指标检测取得了正式的辨认。该模型将空间和工夫 transformer 利用于一系列视频帧,从而辨认和连贯到这些帧中的指标。TransVOD 曾经产生了几个变体,每个变体都有独特的个性,包含实时检测性能。PTSE 采纳渐进策略,关注工夫信息和指标帧间的空间转换。它采纳了多尺度的特征提取来实现这一指标。与其余模型不同,PT-SEFrorter 间接从相邻帧而不是整个数据集回归指标查问,提供了一种更本地化的办法。Sparse VOD 提出了一种端到端可训练的视频指标检测器,它联合了工夫信息来提出区域倡议。相比之下,DAFA 强调了视频中全局特色的重要性,而不是部分工夫特色。DEFA 指出了 FIFO 记忆构造的低效,并提出了一种采纳指标级记忆代替帧级记忆的多样性感知记忆作为留神模块。VSTAM 在一一元素的根底上进步了特色品质,而后在将这些加强的特色用于指标候选区域检测之前执行稠密聚合。该模型还联合了内部记忆,以利用长期的上下文信息。在 FAQ 工作中,提出了一种在解码器模块中应用查问特色聚合的新型视频指标检测器。这与专一于编码器中的个性聚合的办法或对不同帧执行后处理的办法不同。钻研表明,该技术的检测性能优于 SOTA 办法。

四、后果和基准

在本节中,论文将定量和定性地评估以前的小指标检测工作,确定一个特定利用的最无效的技术。在此比拟之前,论文引入了一系列专门用于小指标检测的新数据集,包含用于不同应用程序的视频和图像。
4.1 数据集
在本大节中,除了宽泛应用的 MS COCO 数据集外,还汇编并出现了 12 个新的 SOD 数据集。这些新的数据集次要是为特定的应用程序而定制的,除了通用环境和海洋环境。图 10 显示了这些数据集的工夫程序以及截至 2023 年 6 月 15 日的引文计数。

UAV123:该数据集蕴含 123 个用无人机获取的 123 个视频,是寰球最大的帧数超过 110K 帧的指标跟踪数据集之一。MRS-1800:该数据集由来自其余三个遥感数据集的图像组合组成:DIOR、NWPU VHR-10 和 HRRSD。MRD-1800 是为了检测和实例宰割的双重目标,有 1800 张手动正文的图像,其中包含 3 种类型的指标:飞机、船只和储罐。SKU-110K:该数据集可作为商品检测的严格测试平台,以从世界各地的各种超市捕捉的图像为特色。该数据集包含一系列的尺度、相机角度、照明条件等。BigDetection:这是一个大规模的数据集,通过集成现有的数据集,粗疏地打消反复的盒子,同时标记被疏忽的指标。它具备各种大小的指标数量的均衡,使它成为推动现场指标检测的要害资源。应用此数据集进行预训练和随后对 MS COCO 进行微调,能够显著进步性能后果。Tang 等人:该数据集源自化工厂现场流动的视频片段,涵盖了各种类型的工作,如热作业、地面作业、密闭空间作业等。它包含人、头盔、灭火器、手套、工作服等相干物品等分类标签。Xu 等人:这个公开的数据集专一于无人机捕捉的图像,并蕴含 2K 张图像,旨在检测行人和车辆。这些图像是应用大疆无人机收集的,并具备不同的条件,如不同的光照程度和密集停放的车辆。DeepLesion:包含 4427 名患者的 CT 扫描,该数据集是同类数据中最大的。它包含多种病变类型,如肺结节、骨异样、肾脏病变和肿大淋巴结。这些图像中感兴趣的指标通常很小,并随同着噪声,这使得它们的辨认具备挑战性。Udacity Self Driving Car:仅为教育用处设计,该数据集具备在山景城和左近城市的驾驶场景,以 2Hz 的图像采集率捕捉。该数据集中的类别标签包含汽车、卡车和行人。AMMW 数据集:它是为平安应用程序而创立的,这个流动的毫米波图像数据集蕴含了 30 多个不同类型的指标。这包含两种打火机(由塑料和金属制成),一种模仿枪支,一把刀,一把刀片,一个子弹壳、手机、汤、钥匙、磁铁、液体瓶、排汇资料、火柴等等。URPC 2018 数据集:该水下图像数据集包含四种类型的指标:全息鱼、棘鱼、扇贝和海星。UAV 数据集:该图像数据集包含无人机在不同天气、光照条件和各种简单背景下捕捉的 9K 多个图像。这个数据集中的指标是轿车、人、马达、自行车、卡车、公共汽车和三轮车。Drone-vs-bird:这个视频数据集旨在解决无人机在敏感地区航行的平安问题。它提供了带标记的视频序列,以辨别在各种照明、照明、天气和背景条件下的鸟类和无人机 表 2 提供了这些数据集的摘要,包含它们的应用程序、类型、分辨率、类 / 实例 / 图像 / 帧的数量,以及到它们的网页的链接。

4.2 视觉应用程序中的基准测试
在本大节中,将介绍各种基于视觉的应用程序,其中对小指标的检测性能至关重要。对于每个应用程序,咱们抉择一个最风行的数据集,并报告其性能指标,以及试验设置的细节。4.2.1 通用应用程序 对于通用应用程序,论文在具备挑战性的 MS COCO 基准测试上评估所有小型指标检测器的性能。该数据集的抉择是基于它在指标检测畛域的宽泛接受度和性能后果的可拜访性。MS COCO 数据集由横跨 80 个类别的大概 160K 张图像组成。尽管倡议作者应用 COCO 2017 训练和验证集来训练他们的算法,但它们并不局限于这些子集。

在表 3 中,检查和评估了所有报告其在 MS COCO 上的后果(从他们的论文汇编)的检测技术的性能。该表提供了对于骨干架构、GFLOPS/FPS(示意计算破费和执行速度)、参数数量(示意模型的规模)、mAP(均匀均匀精度:指标检测性能的度量)和 epoch(示意推理工夫和收敛个性)的信息。此外,还提供了指向每个办法网页的链接以供进一步参考。这些办法被分为三组:基于 cnn 的办法,混合的办法和 transformer 专用的办法。每个度量的最佳性能办法显示在表的最初一行中。应该指出的是,这种比拟只实用于那些报告了每个特定度量值的办法。在呈现平局的状况下,均匀均匀精度最高的办法被认为是最好的。默认的 mAP 值为“COCO2017val”集,而“COCO test-dev”集的 mAP 值用星号标记。请留神,所报告的 mAP 仅实用于具备 <322 指标的区域。通过检查表 3,很显著,大多数技术都受害于应用 CNN 和 transformer 架构的混合,实质上是采纳混合策略。值得注意的是,仅依赖于基于 transformer 的架构的组 DETR v2,取得的 mAP 为 48.4% 的 mAP。然而,实现这样的性能须要采纳额定的技术,如在两个大规模数据集上进行预训练和多尺度学习。在收敛性方面,DINO 仅在 12 个时代后就达到了稳固的后果,同时也取得了值得称赞的 32.3% 的 mAP。相同,原始的 DETR 模型具备最快的推理工夫和最低的 GFLOPS。FP-DETR 领有最轻的网络,只有 36M 的参数。依据这些发现,论文得出结论,预训练和多尺度学习是最无效的策略。这可能是因为上游工作的不均衡和小指标中不足信息特色。图 11 以及图 12 中更具体的对应内容,阐明了各种 transformer 和基于 cnn 的办法的检测后果。它们应用从 COCO 数据集中抉择的图像进行互相比拟,并由论文应用它们在 GitHub 页面上提供的公共模型来实现。分析表明,faster RCNN 和 SSD 在精确检测小指标方面存在有余。具体来说,SSD 要么错过了大多数指标,要么生成了大量带有假标签的边界框和地位不佳的边界框。尽管 faster RCNN 体现得更好,但它依然会产生低可信度的边界框,并偶然调配不正确的标签。=

相比之下,DETR 有高估指标数量的偏向,导致单个指标的多个边界框。人们通常留神到,DETR 容易产生假阳性。最初,在评估的办法中,CBNet V2 以其优越的性能而突出。正如察看到的,它对它检测到的指标产生高相信分数,即便它偶然会谬误辨认某些指标。4.2.2 在航空图像中的小指标检测 检测小指标的另一个乏味的用处是在遥感畛域。这一畛域特地吸引人,因为许多组织和钻研机构的指标是通过航空图像定期监测地球表面,以收集国家和国内数据进行统计。尽管这些图像能够应用各种形式取得,但本考察只关注非 sar 图像。这是因为 SAR 图像曾经失去了宽泛的钻研,值得它们本人的独自钻研。尽管如此,本考察中探讨的学习技术也能够实用于 SAR 图像。在航空图像中,因为指标与照相机的间隔很远,它们通常看起来很小。鸟瞰图也减少了指标检测工作的复杂性,因为指标能够位于图像内的任何中央。为了评估为此类利用设计的基于 transformer 的检测器的性能,论文抉择了 DOTA 图像数据集,它已成为指标检测畛域宽泛应用的基准。图 13 显示了来自 DOTA 数据集中的具备小指标的一些示例图像。该数据集包含一个预约义的训练集、验证集和测试集。与个别利用相比,这种非凡的利用受到的 transformer 专家的关注绝对较少。然而,如表 4 所示(后果来自论文),ReDet 通过其多尺度学习策略和在 ImageNet 数据集上的预训练进行辨别,达到了最高的精度值(80.89%),只须要 12 个训练期。这反映了从 COCO 数据集剖析中取得的见解,表明通过解决上游工作中的不均衡和包含来自小指标的信息特色,能够获得最佳性能。

4.2.3 医学图像中的小指标检测 在医学成像畛域,专家的工作往往是晚期发现和辨认异样。即便是简直看不见或很小的异样细胞缺失,也会对患者造成重大的影响,包含癌症和危及生命的疾病。这些小指标可见于糖尿病患者视网膜异样、晚期肿瘤、血管斑块等。只管这一钻研畛域具备要害的性质和潜在的危及生命的影响,但只有多数钻研解决了在这一要害利用中与检测小指标相干的挑战。对于那些对这个主题感兴趣的人,因为特定数据集的后果的可用性,论文抉择了深度病变 CT 图像数据集作为基准。来自这个数据集的样本图像如图 14 所示。该数据集被分为三组:训练(70%)、验证(15%)和测试(15%)集。表 5 比拟了三种基于 transformer 的钻研与两级和一级检测器的准确性和 mAP(后果汇编自他们的论文)。MStransformer 成为这个数据集上最好的技术,只管竞争无限。它的次要翻新在于自我监督学习和在一个分层 transformer 模型中退出一个掩码机制。总的来说,该数据集的准确率为 90.3%,mAP 为 89.6%,与其余医学成像工作相比仿佛没有挑战性,特地是思考到一些肿瘤检测工作简直是看不见的。

4.2.4 在水下图像中的小指标检测 随着水下流动的增长,为了生态监测、设施保护和沉船捕鱼监测等目标,监测朦胧和低光环境的需要减少。诸如水的散射和光吸收等因素,使 SOD 的工作更具挑战性。图 15 显示了这种具备挑战性的环境的示例图像。基于 transformer 的检测办法不仅应该可能辨认小指标,而且还须要对在深水中发现的低图像品质,以及因为每个通道的光衰减率不同而导致的色彩通道的变动具备鲁棒性。表 6 显示了该数据集现有钻研报告的性能指标(后果从他们的论文整顿)。HTDet 是为此特定应用程序而确定的惟一的基于 transformer 的技术。它的性能显著优于基于 SOTA cnn 的办法(mAP 为 3.4%)。然而,绝对较低的 mAP 分数证实了在水下图像中的指标检测依然是一项艰难的工作。值得注意的是,URPC 2018 的训练集蕴含 2901 张标记图像,测试集蕴含 800 张未标记图像。

4.2.5 被动毫米波图像中的小指标检测 小指标能够很容易地暗藏在一般的 RGB 摄像头中,例如,在机场的一个人的衣服里。因而,被动成像技术对于平安目标至关重要。在这些场景中,通常从不同的角度捕捉多个图像,以进步检测哪怕是渺小指标的可能性。乏味的是,就像在医学成像畛域一样,transformer 很少被用于这种非凡的利用。在论文的钻研中,重点关注了应用 AMMW 数据集的现有技术的检测性能,如表 7 所示(后果来自他们的论文)。作者确定,MATR 是为该数据集联合 transformer 和 cnn 的惟一技术。只管是惟一一种基于 transformer 的技术,但它能够显著进步雷同骨干(ResNet50)的 SOD 性能。图 16 直观地比拟了 MATR 与其余基于 SOTA cnn 的技术。在这种成像办法中,在很大水平上联合不同角度的图像有助于辨认即便是小的指标。对于训练和测试,别离应用了 35426 张和 4019 张图像。

4.2.6 视频中的小指标检测 因为视频中的工夫信息能够进步检测性能,视频中的指标检测畛域最近失去了宽泛的关注。为了对 SOTA 技术进行基准测试,ImageNet VID 数据集曾经被用于特地关注数据集中的小指标的后果。该数据集包含 3862 个训练视频和 555 个验证视频,蕴含 30 类指标。表 8 报告了几种最近开发的基于 transformer 的技术的映射。尽管 transformer 越来越多地用于视频指标检测,但它们在 SOD 中的性能依然很少被摸索。在曾经在 ImageNet VID 数据集上报告了 SOD 性能的办法中,带有 FAQ 的可变形 DETR 取得了最高的性能。这突出了基于视频的 SOD 畛域的一个重大钻研差距。

五、探讨

在这篇综述文章中,探讨了基于 transformer 的办法如何解决 SOD 的挑战。论文的分类法将基于 transformer 的小指标检测器分为 7 个次要类别:指标示意、疾速关注(用于高分辨率和多尺度特色图)、架构和块批改、时空信息、改良的特色示意、辅助技术和齐全基于 transformer 的检测器。当将此分类与基于 CNN 的技术的分类并置时,论文察看到其中一些类别重叠,而另一些类别是基于 transformer 的技术所特有的。某些策略被隐式地嵌入到 transformer 中,如留神学习和上下文学习,它们通过编码器和解码器中的自我留神模块和穿插留神模块来执行。另一方面,多尺度学习、辅助工作、体系结构批改和数据加强在这两种范式中都被广泛应用。然而,须要留神的是,当 cnn 通过 3D-CNN、RNN 或特色随工夫聚合来解决时空剖析时,transformer 通过应用间断的时空 transformer 或更新解码器中间断帧的指标查问来实现这一点。论文察看到,预训练和多尺度学习是最罕用的策略,在不同的数据集上为不同的数据集提供了最先进的性能。数据交融是另一种广泛应用于 SOD 的办法。在基于视频的检测零碎中,重点是如何收集工夫数据并将其集成到特定于帧的检测模块中的无效办法。尽管 transformer 在小指标的定位和分类方面获得了实质性的提高,但所付出的代价是很重要的。这些包含大量的参数(数十亿个左右),几天的训练(几百个迭代的 epoch)和在十分大的数据集上进行预训练(如果没有弱小的计算资源,这是不可行的)。所有这些方面都限度了可能为其上游工作训练和测试这些技术的用户池。当初,意识到对具备高效学习范式和架构的轻量级网络的需要比以往任何时候都更加重要。只管当初参数的数量与人类大脑相当,但在小指标检测方面的性能依然远远落后于人类的能力,这凸显了以后钻研中的一个重大差距。此外,基于图 11 和图 12 中的发现,论文确定了小指标检测中的两个次要挑战:缺失指标或假阴性,以及冗余的检测框。失落指标的问题很可能是因为令牌中嵌入的信息无限所致。这能够通过应用高分辨率图像或加强特色金字塔来解决,只管这带有减少提早的毛病——这可能通过应用更高效、轻量级的网络来对消。反复检测的问题传统上是通过后处理技术,如非最大克制(NMS)来治理的。然而,在 transformer 的上下文中,这个问题应该通过最小化解码器中的指标查问相似性来解决,可能是通过应用辅助损失函数。论文还钻研了应用基于 transformer 的办法,专门在一系列基于视觉的工作中进行小指标检测(SOD)的钻研。这些检测包含通用检测、航空图像检测、医学图像中的异样检测、用于平安目标的被动毫米波图像中的小暗藏指标检测、水下指标检测和视频中的小指标检测。除了通用和航空图像利用,transformer 在其余利用中还不发达,与之前工作对于海上检测的察看统一。思考到 transformer 在医学成像等生命畛域可能产生的重大影响,这尤其令人诧异。

六、论断

本综述论文回顾了 60 多篇钻研论文,专一于开发小指标检测工作的 transformer,包含纯基于 transformer 和集成 cnn 的混合技术。这些技术曾经从七个不同的角度进行了钻研:指标示意、用于高分辨率或多尺度特色图的疾速留神机制、架构和块的批改、时空信息、改良的特色示意、辅助技术和齐全基于 transformer 的检测。这些类别都包含几种最先进的(SOTA)技术,每一种都有本人的长处。论文还将这些基于 transformer 的办法与基于 cnn 的框架进行了比拟,探讨了两者之间的异同。此外,对于一系列的视觉应用程序,论文引入了成熟的数据集,作为将来钻研的基准。此外,本文还具体探讨了在 SOD 利用中应用的 12 个数据集,为将来的钻研工作提供了便当。在将来的钻研中,能够摸索和解决与每个应用程序中的小指标检测相干的独特挑战。像医学成像和水下图像剖析等畛域将从应用 transformer 模型中取得显著的收益。此外,除了应用更大的模型来进步 transformer 的复杂性外,还能够摸索代替策略来进步性能。

退出移动版