共计 2086 个字符,预计需要花费 6 分钟才能阅读完成。
一、背景
电子文档因为更容易存档、编辑、签名和共享,越来越多的文档需电子化,随着高质量摄像头在手机等挪动设施上的遍及,利用挪动设施对文档进行数字化采集曾经十分广泛。通过图像校对与图像品质晋升,挪动设施采集的文档图像品质甚至能够与专用的文档扫描仪相当。然而,文档总是因为纸张几何形态和捕捉条件不受管制而形变。这妨碍了形变图像的信息提取,升高可读性,对数据加强和上游工作如 OCR 辨认、版面剖析与还原等工作减少难度。
二、办法概述
为解决文档蜿蜒改正问题,学术界已有多种计划。一类是利用多目相机,构造光或者激光雷达等设施对文档进行扫描,取得文档外表的 3D 构造信息,进而对文档校对展平。这类办法个别能够失去比拟好的校对成果,但依赖专用设备的特点限度了其应用场景。还有一类是利用显式的几何模型以适应形变文档曲面,这类办法齐全依附图像信息以及文档形变的先验常识对图像进行校对。
这类办法个别须要进行文字行或者表格线的检测,并假如曲面合乎特定的几何束缚,如曲面是柱面。
这类办法能够在一般的挪动设施上实现,然而其校对成果受文字行检测准确度的限度,对文档版式比拟敏感,无奈解决存在大量图表的文档,且误检的文字行有可能会对校对造成重大烦扰。还有一类基于优化的办法,利用损失函数迟缓迭代优化以取得形变改正后果,但工夫较长不适宜实时利用。
最近,数据驱动的办法曾经流行起来。这些办法训练一个 形变改正神经网络,学习形变场,从而失去相似扫描的后果。这样的网络能够实现实时改正。Das 等人应用 CNN 检测文档的折痕并进行宰割文件分成多个块进行改正。Xing 等人 利用 CNN 预计文档变形和相机姿势以进行校对。Ramanna 等人通过利用 pix2pixhd 网络去除文档的卷曲和几何失真。
然而,这些办法仅实用于简略变形和枯燥背景。Ma 等人 提出了一个重叠的 U-Net,它经过训练端到端预测翘曲的前向映射。因为生成的数据集与真实世界的图像有很大不同,[15] 对其进行了训练在真实世界的图像上测试时,数据集的泛化能力较差。Das 等人认为当合成训练数据集仅应用 2D 变形进行训练时,蜿蜒改正模型并不总是体现良好,因而他们创立了一个 Doc3D 数据集,该数据集具备多种类型的像素级文档图像偏移场,同时应用真实世界文档和渲染软件。
同时,提出了一种去扭曲网络和细化网络来校对文档图像的几何和暗影。李等人 在 3D 空间中生成训练数据集,并应用渲染引擎取得更精密、更真切的失真文档图像细节。他们提出了基于图像块(patch)的学习办法,并通过在梯度域中的解决将 patch 后果拼接到校对后的文档中,以及用于去除暗影的光照校正网络。与之前的办法相比,这些文献更关怀生成的训练数据集和真实世界测试数据集之间的差别,并专一于生成更实在的训练数据集以进步真实世界图像的泛化能力。只管这些后果令人惊叹,但深度神经网络的学习和表达能力并未失去充沛摸索。
三、合合计划
咱们将蜿蜒改正问题定义如下:
其中 u 是形变场,S(Source)是蜿蜒图,T(Target)是平坦图。一个现实的空间变换(spatial transformation)须要有两个衡量标准,及类似度和正则项,一方面咱们冀望蜿蜒样本变换后与指标(平坦样本)越类似越好,图像相似性有很多种规范,常见的有相关系数(Correlation Coefficient, CC)、归一化的相关系数(NCC)、互信息(Mutual Information, MI)、均方误差(MSE)等。另一方面,咱们也心愿这个变换是空间上平滑且间断的,这样能保障变换遵循物理模型,存在间断可逆的变换,使得咱们的变换在数据合成等方面有更宽泛的利用。
和类似度损失函数相似,正则项在网络里也有多种实现形式,一种是通过对位移场间接进行空间梯度惩办,一种则是通过对速度场进行束缚后再通过积分层失去最终形变场,还有一种则是在训练过程中通过循环损失函数来实现。形变改正网络能够是 encoder-decoder 相似构造,因为惩办项如果间接施加在位移场上,大位移场景模型的改正能力就会升高,有计划通过屡次迭代改正过程位移场来实现大形变。
咱们则参考配准中的流模型(fluid model),用速度场来建模形变场,并通过积分层来实现最终的形变场。事实上,位移场也能够被视作是轨迹固定的流场(直线)。对于不同的正则项,在大部分状况下,直线轨迹并不是最优解。直线轨迹失去的正则项的值很多状况下会更大点。作为比照,引入速度场在这种情景下实现了更多的自由度。如果你对这一块感到困惑,能够设想连贯世界地图上两个中央的最短门路,大部分状况下都不是直线 [Ref]。速度场求解可转换为如下问题,其中 L 是对速度场施加的正则项。
空间变换网络一开始提出时只是简略用作仿射变换等,起初采纳了采样网格的形式使得它性能更加弱小。对于大小为 [W, H] 的二维图像来说,其位移场大小为[W, H, 2]。位移场示意每个像素在各个方向(x,y 轴)的位移。空间变换网络会依据位移场生成一个归一化后的采样网格,而后用该网络对图像进行采样,就失去了改正后的图像。