共计 7091 个字符,预计需要花费 18 分钟才能阅读完成。
一、简要介绍
本文简要介绍了论文 “Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild” 的相干工作。照相机捕捉到的文档图像通常会呈现透视和几何变形。思考到视觉美感较差和 OCR 零碎性能降落,对其进行纠正具备重要的价值。最近的基于学习的办法集中关注于准确裁剪的文档图像。然而,这可能不足以克服理论挑战,包含具备大边缘区域或没有边缘区域的文档图像。因为这种不切实际,用户在遇到 大型边缘区域时难以准确地裁剪文档 。同时, 无边缘的变形图像 依然是一个难以解决的问题。据作者所知,目前还没有残缺无效的 pipeline 来纠正文档图像。为了解决这个问题,作者提出了一种新的办法,称为 Marior(边缘去除和迭代内容修改)。Marior 采纳渐进策略,以从粗到细的形式迭代地进步去变形品质和可读性。具体来说,作者将 pipeline 划分为两个模块:边缘去除模块(MRM)和迭代内容校对模块(ICRM)。首先,作者预测输出图像的宰割掩膜去除边缘,从而失去初步后果。而后,作者通过产生密集的位移流来进一步细化图像,以实现内容感知的校对。作者自适应地确定细化迭代的次数。试验证实了作者的办法在公共基准上的最新性能。
二、钻研背景
借助挪动设施中先进的内置摄像头,将日常生活中无处不在的文档数字化曾经为人们变得不便。然而,因为相机的角度和地位不适合,所捕捉的文档图像通常蕴含透视变形。此外,文档自身也可能因蜿蜒、折叠或折痕而产生几何变形。这些类型的变形导致了光学字符识别(OCR)零碎的性能降落,并导致读者的可读性较差。
最近的基于深度学习的去变形办法在对各种文档布局的鲁棒性方面获得了很大的停顿。然而,它们简直都只关注准确裁剪的文档图像,而疏忽了边缘区域较大或没有边缘区域的状况,别离如图 1 (a)和 (b) 所示。在本钻研中,边缘区域是指由不属于感兴趣的文档的像素组成的区域。为了解决这个问题,作者能够在培训过程中思考到所有这些状况,但作者发现后果不令人满意(参考补充资料)。== 作者认为,这归因于额定的内隐学习来辨认前景文档和去除边缘区域。另一种办法是在去变形之前实现现有的指标检测算法,以防止须要手工裁剪。然而,没有带边缘的文档图像依然是一个未解决的问题。因而,依然没有残缺和无效的 pipeline 来解决天然的所有状况。==
因而,作者提出了 ==Marior(边际去除和迭代内容修改)== 来解决这个问题,该模块由两个级联模块组成:边缘去除模块(MRM)和迭代内容修改模块(ICRM)。Marior 使边缘去除和文件整改过程解耦。具体来说,在 MRM 中,作者首先将源失真图像输出作者的掩膜预测网络,该网络预测相应的文档宰割掩膜。在此基础上,作者提出了一种 == 基于掩膜的去变形器(MBD)== 来去除基于该掩膜的边缘,并失去了初步的变形后果。对于没有边缘区域和没有残缺文档边缘的图像,如图 1 (b)所示,作者倡议应用基于 IoU 的办法将它们过滤掉并跳过边缘去除过程,这一灵感来自于察看到这些图像通常会导致噪声掩膜。
之后,作者将 MRM 中去掉边缘的输入输出 ICRM 以进行进一步细化。它预测了一个密集的位移流,该流为输出图像中的每个像素调配了一个二维(2D)偏移向量。依据该流进行校对后,作者失去了一个去变形的输入图像。因为删除了边缘的图像更多关注内容(例如,文本行和图形),所以 ICRM 可能感知内容。因而,作者进一步设计了一种 == 新的内容感知损失 ==,以隐式地领导 ICRM 更多地关注信息区域,如文本线和图形,而不是对立的文档背景。这种设计基于一种直觉,后者蕴含更少的变形线索,对变形后果的轻微偏差在视觉上能够忽略不计。此外,作者还发现,==ICRM 的迭代实现能够进步整改性能 ==。为此,作者提出了一种自适应的办法来确定迭代次数,以使所提出的迭代 ICRM 过程更加智能和高效。
综上所述,作者的奉献如下:
作者提出了 一种新的办法 Marior 来解决具备各种边缘状况的文档图像 ,这些状况被现有的基于学习的办法疏忽了。在作者的边缘去除模块(MRM)中提出了 一种新的基于掩膜的存储器 ,该模块基于预测的宰割掩膜对文档图像进行粗毁坏。而后提出了 一个迭代内容整正模块(ICRM),通过预测密集位移流来进一步细化图像。
作者设计了一种新的内容感知损失,以隐式地疏导流预测网络更多地关注信息区域。作者还提出了 一种自适应迭代策略来进步性能。
宽泛的试验表明,所提出的 Marior 在两个宽泛应用的公共基准上获得了最先进的性能。此外,这种办法在解决具备不同边缘的艰难状况也获得了重大胜利。
三、办法介绍
如图 2 所示,Marior 蕴含两个级联的 MBD 和 ICRM 模块,这些模块逐渐修改变形的源图像 $I_s$,并输入最终的去变形图像 $I_{fd}$。在 MRM 中,作者首先依据预测的掩膜去除边缘,失去一个初步的去变形后果 $I_{pd}$。这种基于掩膜的去变形过程是通过一种新的 MBD 来实现的。而后 ICRM 以作为输出 $I_{pd}$,预测与 $I_{pd}$ 具备雷同分辨率的密集位移流。这个二维流调配了 $I_pd$ 中每个像素应该挪动的间隔,以取得 $I_{fd}$。基于这个位移流,作者从 $I_{pd}$ 中取样 $I_{fd}$。为了取得更好的修改性能,作者 == 迭代实现了 ICRM,提出了一种自适应的办法来确定迭代次数 ==
3.1 边缘去除模块(MRM)
掩膜预测。为了从给定的图像中删除边缘,作者首先要定位文档区域。作者认为定位是一个语义宰割工作,其目标是产生一个准确示意文档区域的掩膜。作者的掩膜预测网络的体系结构如图 3(a)所示,间接采纳了 DeepLabv3+ 中的编码器和解码器。除了文档掩膜外,作者还设计了一个头部来产生一个用于辅助训练的边缘掩膜。此外,作者察看到文档掩膜具备一个独特的和绝对固定的模式,如绝对直的边、一个较大的连贯区域和一个靠近四边形的形态。如图 3 (a)所示,作者应用 GAN 框架将这些先验常识利用到 MRM 中。作者发现这能够无效地升高所产生的掩膜上的噪声,如图 3 (b)。所示该指标被定义为:
$L_{mask}$ 和 $L_{edge}$ 是规范的二进制穿插熵损失:
其中,${\hat{m}_{d_i}}$ 和 ${\hat{m}_{e_i}}$ 示意文档掩膜 ${\hat{m}_d}$ 和 ${\hat{m}_e}$ 边缘掩膜中的第 i 个元素的预测分类,和别离为它们对应的 ground truth。N 是 ${\hat{m}_d}$ 中元素的数量。$L_{prior}$ 是 GAN 框架中的一个规范指标,它使 ${\hat{m}_d}$ 的散布更靠近 ground truth 掩膜 ${{m}_d}$ 的散布,$\lambda$ 是 $L_{prior}$ 的权重:
这是为了在优化鉴别器时,缩小独热编码正样本与生成的负样本之间的散布差距。值得注意的是,该掩膜预测模型也能够作为其余代替的宰割模型,它只须要可能提供文档区域的宰割掩膜。
基于掩膜的去变形器(MBD)。在取得文档掩膜后,作者提出了一种新的 MBD 来去除边缘并进行初步的去变形,如图 4 所示。具体来说,基于预测的掩膜,作者首先应用道格拉斯佩克算法检测四个角,而后依据它们的绝对地位确定程序(左上、右上、右下、左下)。而后作者能够在每条边上确定等距的点(在作者的试验中,除了四个角外,作者在每条边上应用三个等距的点)。作者将这些控制点与一个矩形的相应地位进行匹配。而后利用这些关键点对对 $I_s$ 进行薄板样条(TPS)插值,从而去除边缘,失去 $I_{pd}$。值得注意的是,对于没有边缘区域的文档图像,它们没有残缺的边缘,如图 1 (b)所示,作者跳过 TPS 插值,将 $I_s$ 原始作为 MBD 的输入。作者通过计算 ${\hat{m}_d}$ 和来自所有检测控制点的掩膜之间的 IoU 来过滤这些图像,并设置一个阈值。这是因为能够察看到,没有齐全边缘的文档图像通常会导致噪声 ${\hat{m}_d}$,从而导致绝对较低的 IoU。
3.2 迭代内容校对模块(ICRM)
应用 MRM 进行初步去变形的后果并不完满。起因有两方面。第一个起因是在每条边上抉择等距点不思考深度信息;因而,这种等距划分与在物理纸上进行的划分不统一。第二个起因是,有时,当预测的掩膜遇到不分明的边缘或非常复杂的边缘时,它并不够精确。此外,没有边缘区域的文档图像跳过了初步的去变形,因而依然没有被涉及。
为了进一步校对 $I_{pd}$,作者提出了 ICRM,它以 $I_{pd}$ 作为输出,产生一个 ${\hat{D}}$ 密集的位移流。作者采纳罕用的具备跳过连贯的编解码器作为作者的位移流预测网络。作者在瓶颈和扩大卷积中采纳注意力策略来扩充承受场以捕捉全局信息。如前所述,对信息区域的修改,如文本线和数字,在直观上比对立的文档背景更重要。作者应用文档内容掩膜 ${{M}_c}$ 来设计内容感知损失 $L_c$,它隐式地疏导网络更多地关注信息区域。作者也采纳了移位不变损失 $L_c$。ICRM 的最终训练损失示意为:
式中 ${\hat{d}_i}$、${{d}_i}$ 和 ${m_{c_i}}$ 别离示意预测位移流 ${\hat{D}}$、ground truth 位移流和文档内容掩膜 ${{M}_c}$ 中的第 i 个元素。${\alpha}$ 和 ${\beta}$ 是恒定的权重。
因为作者在 MRM 中实现了边缘的去除,所以 ICRM 应该专一于内容修改,而不须要额定的隐式学习来辨认前景文档并去除边缘区域。边际去除的拆散也使 ICRM 可能采纳迭代计划对文档逐渐进行修改,作者发现这能够进步整改性能。如果边际去除没有解耦,网络可能会学习基于文档边缘来纠正文档,并偏向于在每次迭代中找到它们,即便它们不存在,这将导致有问题的输入。作者的迭代计划如图 5 (a). 所示首先,作者将 ${I_{pd}}$ 输出位移流预测网络,失去第一个位移流 ${\hat{D^1}}$,而后作者能够用它从 ${I_{pd}}$ 中采样 ${{I^1}_{fd}}$:
其中,S 为采样过程。如图 5 (a)所示,在 ${{I^1}_{fd}}$ 中仍存在变形。作者采纳迭代计划进一步细化整正后果,公式如下:
通过屡次迭代,${{I^1}_{fd}}$ 获得了令人满意的整改性能。因为输出 ${{I^{n-1}}_{fd}}$ 绝对平坦,${\hat{D^n}}$ 的响应显著升高。更多的迭代会耗费更多的工夫,甚至会引入新的变形。因而,迭代过程应该在适当的工夫终止。作者提出了一种自适应的办法来确定这个工夫,如算法 1 所示。
这里的 var(${\hat{D^n}}$)是 ${\hat{D^n}}$ 的方差,${\hat{D}}$ 是一个预约义的常数值,作为阈值。迭代过程完结后,作者通过将之前所有的 ${\hat{D^i}}$(i=1,2,…,n)相加失去最终的位移流 ${\hat{D}}$,失去基于 ${\hat{D}}$ 的最终变形后果 ${I_{fd}}$:
四、试验
4.1 数据集
作者在 Doc3D 数据集上训练 MRM 和 ICRM 中的两个网络,该数据集蕴含 100k 个丰盛正文的样本。作者将数据集分为 90k 训练数据和 10k 验证数据。在掩膜预测训练过程中,作者随机将边缘替换为《Describing textures in the wild.》纹理图像的边缘作为数据加强。除了罕用的随机裁剪和缩放外,作者还采纳了随机擦除的办法。ICRM 的训练数据(包含源失真输出图像和 ground truth 位移流)首先由作者提出的 MBD 进行预处理。作者认为从反照率图(在 Doc3D 中提供)失去的二值化后果是等式 8 中的 $M_c$。
4.2 融化试验
作者将没有数据加强的 vanilla DeepLabv3+ 作为 baseline,并给出了在表 1 中取得的改良。作者应用在《Real-time document localization in natural images by recursive application of a CNN》中提出的数据集验证了模型,它由 120 个实在单词的文档图像组成。该数据集是为文档定位而构建的,并且只应用文档的四个角进行正文,作者应用它来生成四边形 ground truth 掩膜(这些文档图像只蕴含透视变形)。如表 1 所示,数据加强大大提高了性能。在作者的 MRM 中的掩膜预测网络也失去了改良。引入先验常识的有效性见图 3 (b)。
作者进一步评估了提出的内容感知损失在 Doc3D 验证集上的有效性。作者应用构造类似度指数(SSIM)来评估由 ${\hat{D}}$ 产生的修改图像的品质。如表 2 所示,作者应用 ${\beta}$= 3 的设置取得了最好的图像品质,这表明了作者提出的内容感知损失的奉献。
4.3 在公共基准上的比拟
评估指标。作者应用多尺度构造类似度(MS-SSIM)和部分失真(LD)来评估所产生的校对图像与其扫描的 ground truth 值之间的图像类似度。MS-SSIM 是一种广泛应用的图像构造类似度评估度量。LD 通过预测密集的 SIFT 流来评估部分失真。此外,作者应用带有 LSTM 引擎的 Tesseract 4.1.01 作为文本识别器,对校对图像上的文本进行辨认,也显示了校对性能。作者应用字符错误率(CER)来评估辨认后果,该错误率来自于辨认文本和参考文本之间的列文斯坦间隔。CER 能够计算为 ${CER=(s+i+d)/N,其中 s,i 和 d 别离是来自列文斯坦间隔的替换、插入和删除的数量。N 是参考文本中的字符数。
DocUNet benchmark。该数据集的定量后果如表 3 所示,其中“Crop”代表了以往钻研中通常用于比拟的精确裁剪图像。“Origin”示意最后捕捉的图像,因而蕴含较大的边缘区域。为了进行更偏心的比拟,在“Origin”子集上进行试验时,应用 Faster R-CNN 作为附加到其余办法上的文档检测器。这个探测器的细节包含在补充资料中。依照 DewarpNet[7]中的倡议,对 50 张富含文本的图像执行文本辨认。作者将从相应扫描的 ground truth 图像中辨认出的文本作为参考文本。
作者首先评估了内容整改和迭代策略的有效性。结果显示在表 3 的最初三行中。Baseline 是没有 ICRM 的 Marior(即,只采纳 MRM)。在没有迭代的状况下实现一次内容修改后(即表 3 中的 Marior w/o iteraion),所有三个指标都失去了显著的改善。特地是,在“Crop”和“Origin”子集上的 CER 别离升高了 19% 和 14%。这证实了 ICRM 对文档内容整改的有效性。此外,在作者迭代实现文档内容整改(即表 3 中的 Marior)后,后果进一步改善。
与“Crop”子集上的现有办法相比,Marior 获得了相当的性能。然而,在“Origin”子集上,Marior 办法比现有的办法更好,即便 Marior 也没有检测器的帮忙。定性比拟如图 6 和图 7 所示。在图 6 中,作者将作者的办法与 DocProj [20]、DewarpNet [7]和 Xie 等人的 [40] 的办法进行了比拟。前三列中的输出图像来自于“Crop”子集。尽管 DocProj [20]在肯定水平上纠正了文档内容,但边缘依然存在,这导致了蹩脚的视觉美学。删除网 [7] 和 Xie 等 [40] 的办法很好地纠正了文档内容,同时删除了边缘。与 [7] 和[40]办法相比,作者的办法还获得了良好的感知性能和细节方面的性能。第 4 列和第 5 列的输出图像来自“Origin”子集,如果借助一个弱小的文档检测器,以前的办法能够取得可信的后果。相比之下,Marior 能够用嘴探测器来解决这个子集。对于在第 6 列、第 7 列中没有边缘区域的输出图像,Marior 依然获得了令人满意的性能,而现有的办法却没有。作者与图 7 中最先进的无变形办法和 DocTr 进行了进一步的比拟,这也证实了作者的前后办法的优越性。
OCR_REAL dataset。这个数据集蕴含文本 ground truth,作者认为它是 CER 度量的参考文本。此外,因为不足扫描的 ground truth 图像,作者不评估 MS-SSIM 和 LD。辨认性能与辨认引擎高度相干。因而,为了更严格,作者在 Tesseract 4.1.01 中同时应用基于深度学习(LSTM)和非基于深度学习的引擎来执行辨认。作者还评估了在该数据集上的不同办法的均匀运行工夫。为了进行偏心的比拟,当作者评估运行工夫时,放弃每种办法的输入图像的分辨率雷同(1024×960),当采样图像的分辨率不同时,运行工夫会有所不同。后果如表 4 所示,与其余办法相比,DocProj [20]、DocTr [10]和 Marior 在两种辨认引擎下都实现了稳固和优越的性能。然而,DocProj [20]和 DocTr [10]比 Marior 更耗时。另外,如前所剖析,如图 8 所示,DocProj [20]因为无奈去除边缘,无奈实现 Marior 出现的视觉美感。
五、总结与探讨
作者提出了一种简略而无效的办法,Marior,以从粗到细的形式为变形文档图像改正。作者采纳两个级联模块,首先去除文档图像的边缘,而后对内容进行进一步的修改。所提出的 Marior 自适应地决定了迭代的次数,从而实现了效率和性能之间的衡量。作者提出的办法不仅在 DocUNet [25]和 OCR_REAL [23]基准数据集上获得了最先进的性能,而且胜利地解决了具备大边缘区域的状况和没有边缘区域的状况,这在以往的钻研中钻研较少。这是在天然文档改正方面的一个重大胜利。在今后的工作中,有必要摸索对这两个模块进行端到端优化,以取得更好的性能。