关于场景:DPTextDETR-基于动态点query的场景文本检测更高更快更鲁棒-京东探索研究院

针对场景文本检测工作，近期基于DEtection TRansformer (DETR) 框架预测控制点的钻研工作较为沉闷。在基于DETR的检测器中，query的构建形式至关重要，现有办法中较为毛糙的地位先验信息构建导致了较低的训练效率以及性能。除此之外，在如何监督模型方面，之前工作中应用的点标签模式隐射了人的浏览程序，本文察看到这实际上会升高检测器的鲁棒性。

为解决以上问题，本文提出了动静点场景文本检测模型DPText-DETR。①对于query构建形式的问题：本文提出了一种简洁高效的显式点query构建(Explicit Point Query Modeling, EPQM) 办法，间接利用点的坐标构建显式细化的地位先验信息以减速训练收敛，并且提出了一个加强的因子化自留神(Enhanced Factorized Self-Attention, EFSA) 模块进一步开掘同一文本实例内控制点query之间的关系。②对于标签模式的问题：本文设计了一种简略的地位性模式(Positional Label Form)。为进一步探索实在场景中不同标签模式对检测鲁棒性的影响，本文提出了蕴含500张图像的测试集Inverse-Text进行验证，其中蕴含约40%的类反向(inverse-like)文本实例，补救了现有数据文本类型的缺失。

试验表明，本文提出的办法显著改善了模型的收敛速度、数据效率、对旋转文本检测的鲁棒性，并在Total-Text、CTW1500、ICDAR2019 ArT三个基准数据集上别离获得了89.0%、88.8%和78.1% F-measure的最先进性能。该工作由京东摸索研究院、武汉大学、悉尼大学联结实现，已被AAAI 2023接管。相干代码、模型和数据集均已开源，欢送大家试用、点赞并反馈。

一、钻研背景与动机

场景文本检测因其在场景了解、图片检索等利用中具备重要价值，受到了宽泛的钻研关注，相比于通用指标检测，场景文本的特殊性（比方多变的文字款式与任意形态）带来了别样的挑战。在计算机视觉畛域，近期各种源自DETR[1]的先进检测器一直推动着指标检测的性能前沿，如何同时晋升模型性能和训练收敛速度是次要的钻研问题之一。其中，DAB-DETR[2]提供了影响训练收敛因素的洞见，模型输出的query可被拆解为content和positional两局部，而positional这一负责地位信息的局部对训练的收敛具备重要影响。然而，这些模型仅预测检测框，无奈满足场景文本检测所需的任意形态输入要求。

对此，近期的工作[3]进一步利用固定数量的控制点query示意每一文本实例，同一文本中不同控制点的positional query共享着编码器后提供的检测框地位信息，如图1所示。咱们发现这种建模形式尽管提供了地位先验，然而对于预测控制点的指标来说，这种先验还不够准确，各控制点query短少了各自独特的、显式的地位信息，并且在解码器中地位信息也难以被逐层更新，这些问题导致了模型训练收敛绝对较慢。因而，本文对如何构建更高效的query开展了进一步的摸索。

图1 先前工作中的控制点query建模形式

基于控制点拟合场景文本轮廓的计划除了带来建模方面的问题，也引入了监督层面的问题，简而言之就是控制点的程序应该听从什么规定，这个问题还未被摸索。

在之前的工作中，控制点标签的程序在放弃顺时针的同时，也受人的浏览程序影响，如图2(a)所示，对于一个相似于反向的文本，起始边处于空间的下方。这种合乎人浏览习惯的模式合乎常理也很直观，然而咱们察看到即便训练集中存在的类反向文本实例稀少(例如在Total-Text中约为2.8%)，模型对旋转文本的检测鲁棒性也会显著降落，比方产生了具备不同起始点的假正例，如图2(b)所示。在图2(c)中，即便在训练过程中采纳充沛的旋转数据加强，模型仅依据视觉特色难以很好地预测合乎浏览程序的起始点，那么在文本检测模型的训练过程中，还是否有必要让点的标签程序与浏览程序统一呢？本文从监督信号这一角度，摸索了不同标签模式对检测模型鲁棒性的影响。

图2 (a)控制点标签程序反映了浏览程序。(b)检测器受到标签影响，隐式地学习浏览程序而对同一文本产生不同起始点的预测，造成假正例等谬误。绿色点为预测的起始点。(c)即便采纳充沛的旋转数据加强，检测模型也不能很好地学习到正确的浏览程序。

在DETR的检测框架中，本文次要从如何更好地构建query与如何更无效地监督模型这两个互补的角度，答复了怎么迈向更好的场景文本检测这一问题。最终的模型获得了训练收敛速度、数据效率、检测鲁棒性等方面显著的晋升，在仅以1 FPS的推理速度损失为代价的状况下，在三个数据集上获得了以后最佳性能。

另外，因为现有数据集中类反向文本数量稀少，为进一步探索实在场景中模型对该种文本的检测鲁棒性，本文收集并提出了蕴含500张图像的Inverse-Text测试集进行验证，也便于后续相干钻研工作应用，其中约有40%的类反向文本实例，可用于验证模型对高度旋转与反向文本的检测以及端到端辨认鲁棒性，助力检测模型与端到端辨认模型获得更先进、更稳固的性能。该数据集已开始被相干钻研工作所采纳并作为测试基准。

二、办法概述

图3 DPText-DETR整体模型与解码器结构图

在DPText-DETR中，咱们采纳了ResNet-50与应用形变注意力[4]的Transformer编码器进行特征提取与加强，对失去的特色应用MLP头与简略的解决后，选取top-K个文本框作为positional query的生成起源。

图4 query生成形式比照

在positional query生成的形式上，针对之前办法的缺点，咱们给出了简略无效的EPQM办法。具体而言，咱们依据文本框中心点以及宽高的信息能够很容易地失去上下边顺时针平均采样的多个点，由此再利用点的坐标进行地位编码与投影来生成positional query。生成形式的对比方图4所示。通过这种先验点采样(Prior Point Sampling)的形式，控制点query也就天然地转化成了彻底、显式的点模式，同一文本实例内不同控制点的content query独享各自的显式先验地位信息，并且在解码器层间能够便当地应用一个MLP头预测偏移量来进行点地位的更新(Point Update)，以此渐进式地取得更贴合文本轮廓的控制点坐标，这些新的点坐标也将用于生成新的positional query并作为形变注意力的参考点取得更准确的图像特色。

在解码器中，有了query输出后，通常须要思考如何开掘query之间的关系。在之前的工作中，首先对同一实例内的不同点应用自留神机制开掘实例内关系，其次在代表不同实例的维度上构建实例间关系。这种关系建模(称为Factorized Self-Attention, FSA)虽涵盖了实例内与实例间的关系，却短少了对实例内不同控制点空间演绎偏置的显式建模。

针对多边形的文本示意模式，能够察看到文本的多边形控制点出现显著的闭合环形，因而咱们引入了环形卷积[5]与实例内自注意力并行以提供显式的环形疏导，引入更多的先验以充沛开掘实例内不同控制点query的关系。加强的实例内关系建模与实例间关系建模独特形成了EFSA模块。在EFSA模块后，query被送入Deformable Cross-attention模块聚合多尺度的图像特色信息。依据解码器最初一层后失去的置信度与控制点地位即可失去最终的检测后果。

图5 控制点标签模式示意图

在标签问题方面，原始的标签模式诱导检测器隐式地学习文本浏览程序。训练过程中当文本处于各种旋转角度时，无疑给模型优化减少了额定的累赘，在推理时，模型也更容易对处于较大旋转角度的文本产生不稳固的预测后果。为了缓解这一问题，咱们采纳了一种地位性的模式，在保障控制点按顺时针排列的同时，监督模型从单纯的空间意义上辨别场景文本的顶部与底部，而不思考文本的具体文字内容，如图5所示。更多网络结构与实现细节可参考论文原文以及代码。

三、试验后果

3.1 与SOTA办法的比照

表1 与现有办法的检测性能比照

咱们在Total-Text、CTW1500和ICDAR2019 ArT三个最次要的任意形态场景文本数据集上与现有办法进行比拟，检测性能的对比方表1所示，其中F值是次要关注的评估指标。应用ResNet-50 backbone时，DPText-DETR在三个数据集上均获得了最佳的性能。检测后果可视化如图6所示。

图6 Total-Text(左)、CTW1500(中)与ArT(右)检测后果可视化

3.2 融化试验

本文在Total-Text、Rot.Total-Text测试集以及提出的Inverse-Text上进行了融化试验。Rot.Total-Text测试图片由Total-Text测试图片额定旋转45°、135°、180°、225°、315°失去，用于测验模型对旋转文本的鲁棒性。Inverse-Text共有500张测试图片，其中约有40%的类反向文本实例，可用于验证实在场景下对旋转文本检测以及端到端辨认的鲁棒性，样例如图7所示，一些统计指标在图8中给出。在融化试验中，为了更直观地评估在Total-Text上模型训练效率的改善水平，咱们只应用了Total-Text训练集进行训练，没有应用合成数据进行预训练。

图7 Rot.Total-Text与Inverse-Text测试集样例

图8 Inverse-Text与Total-Text测试集在每张图片蕴含的文本数量、文本长度、字符类别频率等统计指标上的比照

次要的融化试验后果如表2所示。

对于地位性标签：①将原始标签解决为地位性模式并用于训练时，测试集上的检测性能均有增益，尤其是在Rot.Total-Text以及Inverse-Text上，例如比照第1、2行后果，不应用旋转数据加强时，在Total-Text、Rot.Total-Text、Inverse-Text上别离晋升了0.68%、3.90%、3.07%，这验证了即便训练数据中即便存在极少量的类反向文本，原标签模式也会较显著地升高模型检测的鲁棒性。②当应用充沛的旋转数据加强时，各测试集上的性能均有显著进步，实际上旋转加强是一种便宜无效的晋升模型性能及鲁棒性的伎俩，而在此基础上将原始标签模式替换为地位性标签，各测试集上的性能仍有显著的晋升，并且如图9所示收敛的速度也失去改善，这意味着地位性模式标签无效改善了模型对浏览程序的学习累赘，升高了优化难度，相比原模式，能与旋转加强更好地协同起效。

对于EPQM与EFSA：依据表2后果与图9收敛曲线，两个模块均对模型性能与收敛速度有显著奉献，并且推理速度的损失较为可观。其中EPQM大大减速了模型训练的收敛，能够缩小所需的训练老本。除此以外，相比于原始标签模式，地位性标签为这两个模块提供了更适合的监督信号，模型因而精度更佳，模型构造方面的优化与监督信号方面的改良是展示了合适的互补关系。

表2 融化试验。“Pos.Label”代表应用地位性标签。不应用EFSA时FSA模块将被应用

图9 应用旋转数据加强时在Rot.Total-Text上前30K迭代的收敛曲线

接下来，咱们持续对EPQM和EFSA开展了缩小训练步数与数据量的测试，试验后果如表3所示，训练过程中没有应用旋转数据加强。当应用全量训练数据时，将训练步数缩小至原来的十分之一时，仅应用EPQM取得了9.07%的F值晋升，应用EFSA有进一步改善。当缩小训练数据量并放弃雷同训练轮数时，基线办法的检测精度断崖式降落。而应用EPQM、EFSA时受到的影响较少，相比基线最多获得了55.55%的F值晋升，这表显著式的、引入更多先验的query建模形式可能极大晋升训练效率。

表3 应用EPQM与EFSA在更少的训练迭代次数与更少数据条件下的体现。“TD-Ratio”指训练数据应用比例，“Improv.”指检测精度的相对晋升值

为了进一步揭示EPQM中让训练收敛更快的因素，咱们进行了进一步的融化，后果如图10所示。能够发现当进行点的更新时，模型的精度与收敛速度失去了更多的晋升，而显式的点采样是进行点地位更新的先决条件。这表明在针对控制点query的构建过程中，对稠密点的显式建模是晋升训练效率的关键所在。之前的无关工作[2][6]表明，来自显式框的query或者进行RoIAlign的稠密特色采样有助于晋升DETR类模型的训练效率，在咱们对场景文本检测设计的模型中，进一步证实因为工作与需要的差异，相比于框的信息，稠密的显式点更能减速收敛与晋升精度。

图10 对EPQM的进一步融化量化后果与收敛曲线

最初，咱们也抉择了一些端到端辨认模型在Inverse-Text上进行测试。在预测控制点类型的模型上测试地位性标签后，检测F值仍有显著的晋升。另外，相比于这些模型在Total-Text上的性能体现，这些模型在Inverse-Text上间接测试能达到类似的检测精度，然而端到端辨认精度显著更低，这也阐明端到端辨认模型对于高度旋转以及反向文本的辨认鲁棒性仍有较大的晋升空间，Inverse-Text能够作为测试集，便于后续无关工作评估实在场景中模型对旋转文本的辨认鲁棒性。

表4 现有端到端辨认模型在Inverse-Text上的测试精度

图11 端到端辨认模型对Inverse-Text中高度旋转以及类反向文本的辨认成果较差。红框标出了辨认错例

四、论断

咱们基于DETR框架提出了一种简洁无效的场景文本检测模型DPText-DETR，将query重构为齐全显式的点模式，显著地晋升了训练收敛速度与数据效率，并探索了控制点标签模式对检测鲁棒性的影响，试验表明DPText-DETR在三个最次要的任意形态场景文本数据集上获得了SOTA性能。另外，咱们也提出了Inverse-Text测试集以便后续相干工作应用。

【论文】https://arxiv.org/abs/2207.04491

【代码】https://github.com/ymy-k/DPText-DETR

One More Thing

咱们最近还提出了一种场景文本端到端辨认模型DeepSolo，在基准数据集上获得了最先进的性能。咱们设计了一种新鲜的基于文本核心贝塞尔曲线的显式点query为场景文本检测与辨认两个子工作提供了对立的表征模式，无效晋升了模型训练效率，简化了端到端辨认的流程。同时模型推理速度超过了其余基于Transformer的办法，并且也能够利用中心线模式的地位标注进行训练，相比于多边形模式显著升高了标注老本。欢送大家关注，前期也将进行技术分享。

【论文】https://arxiv.org/abs/2211.10772

【代码】https://github.com/ViTAE-Transformer/DeepSolo

参考文献：

[1] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-End Object Detection with Transformer. ECCV, 2020.

[2] Shilong Liu, Feng Li, Hao Zhang, Xiao Yang, Xianbiao Qi, Hang Su, Jun Zhu, and Lei Zhang. DAB-DETR: Dynamic Anchor Boxes Are Better Queries for DETR. ICLR, 2022.

[3] Xiang, Zhang, Yongwen, Su, Subarna Tripathi, and Zhuowen, Tu. Text Spotting Transformers. CVPR, 2022.

[4] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai. Deformable DETR: Deformable Transformers for End-to-End Object Detection. ICLR, 2021.

[5] Sida Peng, Wen Jiang, Huaijin Pi, Xiuli Li, Hujun Bao, Xiaowei Zhou. Deep Snake for Real-Time Instance Segmentation. CVPR, 2020.

[6] Wen Wang, Jing Zhang, Yang Cao, Yongliang Shen, Dacheng Tao. Towards Data-Efficient Detection Transformers. ECCV, 2022.