——书接上文
Training
半监督网络的训练分两步进行:
a)对标记数据独立训练学生模块,由老师模块生成伪标签;
b)联合两个模块的训练,失去最终的预测后果。伪标签框架
试验数据集:
TableBank是文档剖析畛域中用于表辨认问题的第二大数据集。该数据集有417,000个通过arXiv数据库爬虫过程正文。该数据集具备来自三类文档图像的表格:LaTeX图像(253,817)、Word图像(163,417),以及两者的组合(417,234)。它还包含一个用于辨认表格的构造的数据集。在论文的试验中,只应用进行表检测的数据。
PubLayNet是一个大型公共数据集,训练集中有335,703张图像,验证集中有11,240张图像,测试集中有11,405张图像。它包含正文,如多边形宰割和图形的边界框,列出题目、表格和来自钻研论文和文章的图像文本。应用coco剖析技术对该数据集进行了评估。在试验中,作者只应用了86,460个表正文中的102,514个。
DocBank是一个蕴含5000多个带正文的文档图像的大型数据集,旨在训练和评估诸如文本分类、实体辨认和关系提取等工作。它包含题目、作者姓名、附属关系、摘要、注释等方面的正文。
ICDAR-19:表检测和辨认(cTDaR)比赛于2019年由ICDAR组织。对于表格检测工作(TRACKA),在较量中引入了两个新的数据集(古代和历史数据集)。为了与之前的最先进的办法进行间接比拟,试验提供了在IoU阈值范畴为0.5-0.9的古代数据集上的后果。
试验设置细节:
试验应用在ImageNet数据集上事后训练的ResNet-50为主干的可变形DETR作为检测框架,以评估半监督办法的有效性。在PubLayNet、ICDAR-19、DocBank和TableBank的三类数据集上进行训练。试验应用10%、30%和50%的标记数据,其余的作为未标记数据。伪标记的阈值设置为0.7。将所有试验的训练周期设置为150,在第120期的学习率升高了0.1倍。利用强加强作为程度翻转,调整大小,去除斑块,裁剪,灰度和高斯含糊。试验应用程度翻转来利用弱加强。可变形DETR解码器输出的query数的值N被设置为30,因为它能给出最好的后果。除非另有阐明,试验都应用mAP(AP50:95)度量来评估后果。
试验后果探讨:
TableBank:
试验提供了对不同比例的标签数据的表库数据集的所有宰割的试验后果。还比拟了基于transformer的半监督办法与以前的基于深度学习的监督和半监督办法。
此外,试验给出了10%标记数据的TableBank-both数据集在所有IoU阈值下的后果。表1提供了半监督办法在TableBank-latex, TableBank-word, 和TableBank-both数据集,别离10%、30%和50%标记数据时的试验后果。它表明,在10%标记数据时,TableBank-both数据集的AP50值最高,为95.8%,TableBank-latex为93.5%,TableBank-word有92.5%。
表格的半监督学习的定性分析如图5所示。图5的(b)局部有一个与行和列构造类似的矩阵,网络将该矩阵检测为一个表格,给出false positive检测后果。
在这里,不正确的检测结果表明网络不能提供正确的表格区域检测。表2给出了这种半监督办法对10%标签数据上的所有数据集的不同IoU阈值的后果。在TableBank10%标记数据集上应用不同的ResNet-50骨干的半监督网络的准确率、召回率和f1-score的可视化比拟如图6所示。
与以前的监督办法和半监督办法的比拟
表3比拟了ResNet-50骨干上基于深度学习的监督网络和半监督网络。还将在10%、30%和50%TableBank-both数据集标签数据上训练的监督可变形DETR与应用可变形transformer的半监督办法进行了比拟。
结果表明,基于attention机制的半监督办法应用候选生成过程和后处理步骤,如非最大克制(NMS),获得了可观的后果。
PubLayNet:
试验探讨了在PubLayNet表类数据集上对不同标记数据百分比的试验后果。还比拟了基于transformer的半监督办法与以前的基于深度学习的监督和半监督办法。此外,试验给出了10%标记数据的PubLayNet数据集上的所有IoU阈值的后果。表4提供了半监督办法的后果,该办法对PubLayNet表类数据应用可变形transformer来解决标记数据的不同百分比。在这里,10%、30%和50%的标记数据的AP50值别离为98.5%、98.8%和98.8%
此外,半监督网络在10%的标记的PubLayNet数据集上,在不同的IoU阈值上进行训练。表5给出了半监督办法对10%标记数据上的PubLayNet表类的不同IoU阈值的后果。
在PubLayNet表类的10%标记数据集上,在不同的IoU阈值上应用具备ResNet-50骨干的可变形transformer网络的半监督网络的准确率、召回率和f1-score的可视化比拟如图6(b)所示。这里,蓝色示意不同IoU阈值的准确率后果,红色示意不同IoU阈值的召回后果,绿色示意对不同IoU阈值的f1-score后果。
与以前的监督办法和半监督办法的比拟
表6比拟了应用ResNet-50骨干网的PubLayNet表类上基于深度学习的监督网络和半监督网络。还比拟了在10%、30%和50%的PubLayNet表类标签数据上训练的有监督的可变形detr与应用可变形transformer的半监督办法。它表明,半监督办法不应用候选和后处理步骤,如非最大克制(NMS),提供了有竞争力的后果。
DocBank:
试验探讨了在DocBank数据集上的不同标签百分比数据的试验后果。在表7中比拟了基于transformer的半监督办法与以前的基于cnn的半监督办法。
此外,还比拟了表8中对不同比例的标记数据的半监督办法与之前针对不同数据集的表格检测和文档分析方法。尽管不能间接比拟作者的半监督办法与以前的监督文档分析方法。然而,能够察看到,即便有50%的标签数据,作者也取得了与以前的监督办法相似的后果。
ICDAR-19:
试验还评估了在Modern Track A数据集上的表格检测办法。作者总结了该办法在不同百分比的标签数据下的定量后果,并将其与表9中以前的监督表格检测办法进行了比拟。在更高的IoU阈值0.8和0.9下评估后果。为了与以前的表格检测办法进行间接比拟,作者还在100%的标签数据上评估了论文的办法。论文办法在100%标签数据的IoU阈值上取得了92.6%的准确率和91.3%的召回率。
融化试验:
伪标记相信阈值
阈值(称为相信阈值)在决定生成的伪标签的准确性和数量之间的均衡方面起着重要的作用。随着这个阈值的减少,通过过滤器的样本将会更少,但它们的品质将会更高。相同,较小的阈值将导致更多的样本通过,但false positive的可能性更高。从0.5到0.9的各种阈值的影响如表10所示。依据计算结果,确定最优阈值为0.7。
可学习query数量的影响
在剖析中,作者钻研了扭转作为可变形DETR解码器中输出的query数量的影响。图7通过扭转作为可变形DETR解码器中输出的对象query的数量来比拟预测后果。当query数N设置为30时,达到最佳性能;偏离此值会导致性能降落。表11显示并剖析了不同对象query数量的后果。为N抉择一个较小的值可能会导致模型无奈辨认特定的对象,从而对其性能产生负面影响。另一方面,抉择一个较大的N值可能会导致模型因为过拟合而体现不佳,因为它会谬误地将某些区域分类为对象。此外,在师生模块中,该半监督自留神机制的训练复杂度依赖于对象query的数量,并通过最小化对象query的数量来升高复杂度而失去进步。
论断
本文介绍了一种利用可变形transformer对文档图像进行表格检测的半监督办法。该办法通过将伪标签生成框架集成到一个简化的机制中,加重了对大规模正文数据的须要,并简化了该过程。同时生成伪标签产生了一个被称为“飞轮效应”的动静过程,随着训练的进行,一个模型不断改进另一个模型产生的伪边框。在该框架中,应用两个不同的模块学生和老师,对伪类标签和伪边界框进行了改良。这些模块通过EMA性能互相更新,以提供准确的分类和边界框预测。
结果表明,当利用于TableBank和PubLayNet训练数据的10%、30%和50%时,该办法的性能超过了监督模型的性能。此外,当对PubLayNet的10%标记数据进行训练时,该模型的性能与以后基于cnn的半监督基线相比拟。在将来,作者的指标是钻研标记数据的比例对最终性能的影响,并开发出以最小数量的标记数据无效运行的模型。此外,作者还打算采纳基于transformer的半监督学习机制来进行表构造辨认工作。
参考文献:
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022.A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.
M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin.Deep learning for table detection and structure recognition: A survey.arXiv:2211.08469v1 [cs.CV] 15 Nov 2022
S A Siddiqui , M I Malik,S Agne , A Dengel and S Ahmed. DeCNT: Deep Deformable CNN for Table Detection. in IEEE Access, vol.6, pp.74151-74161, [DOI: 10.1109/ACCESS.2018.2880211]
T Shehzadi, K A Hashmi, D Stricker, M Liwicki , and M Z Afzal.Towards End-to-End Semi-Supervised Table Detection with Deformable Transformer.arXiv:2305.02769v2 [cs.CV] 7 May 2023