关于场景:DPTextDETR-基于动态点query的场景文本检测更高更快更鲁棒-京东探索研究院

针对场景文本检测工作,近期基于DEtection TRansformer (DETR) 框架预测控制点的钻研工作较为沉闷。在基于DETR的检测器中,query的构建形式至关重要,现有办法中较为毛糙的地位先验信息构建导致了较低的训练效率以及性能。除此之外,在如何监督模型方面,之前工作中应用的点标签模式隐射了人的浏览程序,本文察看到这实际上会升高检测器的鲁棒性。 为解决以上问题,本文提出了动静点场景文本检测模型DPText-DETR。①对于query构建形式的问题:本文提出了一种简洁高效的显式点query构建(Explicit Point Query Modeling, EPQM) 办法,间接利用点的坐标构建显式细化的地位先验信息以减速训练收敛,并且提出了一个加强的因子化自留神(Enhanced Factorized Self-Attention, EFSA) 模块进一步开掘同一文本实例内控制点query之间的关系。②对于标签模式的问题:本文设计了一种简略的地位性模式(Positional Label Form)。为进一步探索实在场景中不同标签模式对检测鲁棒性的影响,本文提出了蕴含500张图像的测试集Inverse-Text进行验证,其中蕴含约40%的类反向(inverse-like)文本实例,补救了现有数据文本类型的缺失。 试验表明,本文提出的办法显著改善了模型的收敛速度、数据效率、对旋转文本检测的鲁棒性,并在Total-Text、CTW1500、ICDAR2019 ArT三个基准数据集上别离获得了89.0%、88.8%和78.1% F-measure的最先进性能。该工作由京东摸索研究院、武汉大学、悉尼大学联结实现,已被AAAI 2023接管。相干代码、模型和数据集均已开源,欢送大家试用、点赞并反馈。 一、钻研背景与动机场景文本检测因其在场景了解、图片检索等利用中具备重要价值,受到了宽泛的钻研关注,相比于通用指标检测,场景文本的特殊性(比方多变的文字款式与任意形态)带来了别样的挑战。在计算机视觉畛域,近期各种源自DETR[1]的先进检测器一直推动着指标检测的性能前沿,如何同时晋升模型性能和训练收敛速度是次要的钻研问题之一。其中,DAB-DETR[2]提供了影响训练收敛因素的洞见,模型输出的query可被拆解为content和positional两局部,而positional这一负责地位信息的局部对训练的收敛具备重要影响。然而,这些模型仅预测检测框,无奈满足场景文本检测所需的任意形态输入要求。 对此,近期的工作[3]进一步利用固定数量的控制点query示意每一文本实例,同一文本中不同控制点的positional query共享着编码器后提供的检测框地位信息,如图1所示。咱们发现这种建模形式尽管提供了地位先验,然而对于预测控制点的指标来说,这种先验还不够准确,各控制点query短少了各自独特的、显式的地位信息,并且在解码器中地位信息也难以被逐层更新,这些问题导致了模型训练收敛绝对较慢。因而,本文对如何构建更高效的query开展了进一步的摸索。 图1 先前工作中的控制点query建模形式 基于控制点拟合场景文本轮廓的计划除了带来建模方面的问题,也引入了监督层面的问题,简而言之就是控制点的程序应该听从什么规定,这个问题还未被摸索。 在之前的工作中,控制点标签的程序在放弃顺时针的同时,也受人的浏览程序影响,如图2(a)所示,对于一个相似于反向的文本,起始边处于空间的下方。这种合乎人浏览习惯的模式合乎常理也很直观,然而咱们察看到即便训练集中存在的类反向文本实例稀少(例如在Total-Text中约为2.8%),模型对旋转文本的检测鲁棒性也会显著降落,比方产生了具备不同起始点的假正例,如图2(b)所示。在图2(c)中,即便在训练过程中采纳充沛的旋转数据加强,模型仅依据视觉特色难以很好地预测合乎浏览程序的起始点,那么在文本检测模型的训练过程中,还是否有必要让点的标签程序与浏览程序统一呢?本文从监督信号这一角度,摸索了不同标签模式对检测模型鲁棒性的影响。 图2 (a)控制点标签程序反映了浏览程序。(b)检测器受到标签影响,隐式地学习浏览程序而对同一文本产生不同起始点的预测,造成假正例等谬误。绿色点为预测的起始点。(c)即便采纳充沛的旋转数据加强,检测模型也不能很好地学习到正确的浏览程序。 在DETR的检测框架中,本文次要从如何更好地构建query与如何更无效地监督模型这两个互补的角度,答复了怎么迈向更好的场景文本检测这一问题。最终的模型获得了训练收敛速度、数据效率、检测鲁棒性等方面显著的晋升,在仅以1 FPS的推理速度损失为代价的状况下,在三个数据集上获得了以后最佳性能。 另外,因为现有数据集中类反向文本数量稀少,为进一步探索实在场景中模型对该种文本的检测鲁棒性,本文收集并提出了蕴含500张图像的Inverse-Text测试集进行验证,也便于后续相干钻研工作应用,其中约有40%的类反向文本实例,可用于验证模型对高度旋转与反向文本的检测以及端到端辨认鲁棒性,助力检测模型与端到端辨认模型获得更先进、更稳固的性能。该数据集已开始被相干钻研工作所采纳并作为测试基准。 二、办法概述 图3 DPText-DETR整体模型与解码器结构图 在DPText-DETR中,咱们采纳了ResNet-50与应用形变注意力[4]的Transformer编码器进行特征提取与加强,对失去的特色应用MLP头与简略的解决后,选取top-K个文本框作为positional query的生成起源。 图4 query生成形式比照 在positional query生成的形式上,针对之前办法的缺点,咱们给出了简略无效的EPQM办法。具体而言,咱们依据文本框中心点以及宽高的信息能够很容易地失去上下边顺时针平均采样的多个点,由此再利用点的坐标进行地位编码与投影来生成positional query。生成形式的对比方图4所示。通过这种先验点采样(Prior Point Sampling)的形式,控制点query也就天然地转化成了彻底、显式的点模式,同一文本实例内不同控制点的content query独享各自的显式先验地位信息,并且在解码器层间能够便当地应用一个MLP头预测偏移量来进行点地位的更新(Point Update),以此渐进式地取得更贴合文本轮廓的控制点坐标,这些新的点坐标也将用于生成新的positional query并作为形变注意力的参考点取得更准确的图像特色。 在解码器中,有了query输出后,通常须要思考如何开掘query之间的关系。在之前的工作中,首先对同一实例内的不同点应用自留神机制开掘实例内关系,其次在代表不同实例的维度上构建实例间关系。这种关系建模(称为Factorized Self-Attention, FSA)虽涵盖了实例内与实例间的关系,却短少了对实例内不同控制点空间演绎偏置的显式建模。 针对多边形的文本示意模式,能够察看到文本的多边形控制点出现显著的闭合环形,因而咱们引入了环形卷积[5]与实例内自注意力并行以提供显式的环形疏导,引入更多的先验以充沛开掘实例内不同控制点query的关系。加强的实例内关系建模与实例间关系建模独特形成了EFSA模块。在EFSA模块后,query被送入Deformable Cross-attention模块聚合多尺度的图像特色信息。依据解码器最初一层后失去的置信度与控制点地位即可失去最终的检测后果。 图5 控制点标签模式示意图 在标签问题方面,原始的标签模式诱导检测器隐式地学习文本浏览程序。训练过程中当文本处于各种旋转角度时,无疑给模型优化减少了额定的累赘,在推理时,模型也更容易对处于较大旋转角度的文本产生不稳固的预测后果。为了缓解这一问题,咱们采纳了一种地位性的模式,在保障控制点按顺时针排列的同时,监督模型从单纯的空间意义上辨别场景文本的顶部与底部,而不思考文本的具体文字内容,如图5所示。更多网络结构与实现细节可参考论文原文以及代码。 三、试验后果3.1 与SOTA办法的比照 表1 与现有办法的检测性能比照 咱们在Total-Text、CTW1500和ICDAR2019 ArT三个最次要的任意形态场景文本数据集上与现有办法进行比拟,检测性能的对比方表1所示,其中F值是次要关注的评估指标。应用ResNet-50 backbone时,DPText-DETR在三个数据集上均获得了最佳的性能。检测后果可视化如图6所示。 ...

September 11, 2023 · 2 min · jiezi