关于深度学习:ICDAR-比赛技术分享

一背景

ICDAR 2021（International Conference on Document Analysis and Recognition）于2021年9月5-10日在瑞士召开。ICDAR会议是文档剖析与辨认畛域国内顶级会议，每两年举办一次，涵盖了文档剖析与辨认畛域的最新学术成绩和前沿利用发展趋势，吸引了该畛域寰球顶尖的研发团队和专家学者的加入。该会议上举办的算法比赛是文字辨认（OCR）畛域的顶级赛事。汽车之家经销商技术部在其中的Competition on Time-Quality Document Image Binarization（DIB）图像二值化算法比赛的两个子工作下荣获第二名。

图1 比赛结果和证书

二赛题介绍

ICDAR2021的DIB较量赛题是对历史文档图像进行二值化，将文字从背景中分离出来。评估指标采纳PSNR、DRDM、F-Measure (FM)、pseudoFMeasure (Fps)以及Cohen’s Kappa的综合加权值。较量难点在于历史文档图像的背景非常复杂，存在各种各样的进化因素，导致现有算法难以获得较好的成果，比方页面污渍挡住字迹，字符褪色，导致和背景太过类似，墨迹浸润，导致反面的文字浸润到侧面，但实在的标签又须要把他分到背景里，以及折叠印痕，色彩较深，可能和文字弄混等。

图2 历史文档图像数据集的各种进化样例

三技术计划图像

二值化的传统办法次要分为全局阈值法、部分阈值法以及两者相结合的一些办法。全局阈值法间接采纳固定的阈值将文档图像宰割为文本前景和背景两局部，如经典的OTSU算法。部分阈值法依据图像中的部分邻域窗口计算动静的部分阈值实现对该像素分类为前景文本或背景。传统办法在文档图像背景不是很简单时能够获得较好的精度，然而当背景图像存在多种降质情景时（如页面污渍、反面字迹浸透、光照不均等状况），成果较差。
联合深度学习的办法具备更强的鲁棒性，在简单背景下也能体现较好。基于深度学习的办法将文档图像二值化看作图像宰割的工作，通过卷积神经网络对每个像素点进行二分类，最终失去整个文档图像的宰割图，分为前景文本和背景区域，从而实现二值化[1]。然而对于此次较量，每张历史文档图像的分辨率较大（往往在宽度或高度方向有3000像素），思考到GPU显存的限度，往往在神经网络办法中，输出是从整张图像中裁剪失去的图像块（例如128×128的尺寸），而不是将整张图像输出网络结构中。然而这种裁剪策略失落了整个文档图像的全局空间信息，特地在有反面字迹浸透状况时，此时反面的字迹和实在的前景文本很难辨别，会被误认为是前景文本，导致二值化精度升高。
因而咱们设计了一套联合全局信息和部分信息的文档图像二值化办法，在较量中获得了较好的问题，示意图如下：

图3 联合全局信息和部分信息的二值化办法
咱们提出的架构由三个U-Net的分支模块交融而成：两个输出图像尺寸别离为128 × 128和256 × 256的部分U-net，以及一个输出图像尺寸为512×512的全局U-Net。先将两个部分U-net失去的二值化图像交融，再和全局U-Net失去的二值化图像进行取交运算，失去最终的二值化图像。
部分U-net：采纳128×128尺寸的滑窗对原始图像进行裁剪，失去部分分块，并采纳U-Net卷积神经网络[2]失去分类概率图后再将分块的图像拼接为残缺图像。U-Net是一种基于深度学习的图像宰割模型，咱们采纳经典的U-Net网络结构，由编码器和解码器形成，编码器由4个反复的模块组成，每个模块包含2层3×3的卷积层和1层2×2的池化层，每层卷积层后接批标准化层（Batch Normalization）及线性修改单元的激活函数层（RELU），沿着编码器的下采样门路，特色图的高度和宽度减半，而通道数量加倍。解码器的网络结构与编码器的构造正好相同，特色图的高度和宽度加倍，而通道数量减半。U-Net构造在编码器和解码器之间存在跳层连贯（Skip-connection）以改善宰割精度。因为图像二值化工作是为了将输出图像的每个像素点的值映射为0或1，因而U-Net网络结构最初一层采纳Softmax激活函数，从而可将每个图像分块转化为同样尺寸大小的分类概率图。通常地，会给个激活阈值，将分类概率图间接转为0或1的二值化图，因为概率图的每个像素点大小在[0, 1]的区间里，例如取激活阈值0.5，则概率图里大于等于0.5的值都被转换为1，而小于0.5的值都被转换为0。为了进步精度，因而在提取部分信息时采纳了多级尺度的模型交融办法，即交融128×128和256×256两种部分分块的信息。
全局U-net：因为部分分块尺寸相比原始残缺图像小得多，失去的是基于部分信息的分类概率图。而要兼顾全局的空间上下文信息以及模型容量的限度，比拟间接的一种办法是将原始图像（例如3000×3000的尺寸）通过降采样的形式缩小成某一固定的较低分辨率的尺寸（例如512×512的尺寸）。然而这种办法有两个毛病：一是不同的文档图像有不同的高宽比，对立放大为512×512会造成高宽比畸变，引入误差；二是相比图像分块的形式训练模型时缩小了可训练样本的数量。基于此，咱们采纳512×512固定尺寸的滑窗对原始文档图像降采样后的图像进行裁剪，失去图像分块，而此时的图像分块能够蕴含足够的背景和前景文本，蕴含了全局的空间上下文信息。
交融：先对两个部分U-net的后果进行交融，128 × 128和256 × 256尺寸失去的分类概率图是通过具备不同感触区域大小的U-Net图像宰割模型失去，将二者取均匀后失去和原始文档图像尺寸大小统一的分类概率图，给定激活阈值0.5，可将分类概率图转换为二值化图，此时的二值化图是基于部分信息的交融的图像宰割模型失去。再将其与全局U-net的后果做取交运算，失去最终二值化图像。

图 4 样例的二值化后果
图4给出了采纳本模型在较量数据集的印刷文档图像上二值化后果的一个例子。能够看出，当只思考部分信息时，即采纳部分分块失去二值化图像时，容易将历史文档图像中背景区域的文字谬误地预测为前景文本。而联合了全局和部分信息后，能够更好地区分背景区域和前景文字区域，容易获得更好的成果。

四总结

此次较量中，汽车之家经销商技术部提出了一种联合整体和部分特色的图像二值化办法，构建了多级尺度的卷积神经网络提取图像特色，通过部分通道以准确刻画文本轮廓，再联合整体通道以更好地拆散简单背景和文本前景，最终大大提高了文本图像的二值化成果。图像二值化是图像处理至关重要的预处理步骤，二值化的成果对后续的OCR（字符识别）精度有很大影响。此次的研究成果无效晋升了二值化的成果，为后续的图像OCR、图像主动审核等业务场景提供了贵重的教训。经销商技术部在图像OCR和图像主动审核方面有丰盛的落地教训，全年辨认各类票证超过千万张，节约公司洽购内部OCR辨认服务费用的同时，更好的保障了公司客户和用户的个人信息数据安全。此外，经销商技术部使用自然语言解决技术研发的电话机器人、IM对话机器人、智能质检等技术成绩广泛应用在智慧系产品、营销流动及车商汇相干产品中，节约大量线索荡涤、流动邀约、线索转化等的人工成本，同时利用于商业产品售卖，为减少公司营收发挥作用。

参考文献：
[1] Jorge Calvo-Zaragoza and Antonio-Javier Gallego. A selectional autoencoder approach for document image binarization. Pattern Recognition, 86:37{47, 2019.
[2] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234{241. Springer, 2015.

一 背景

二 赛题介绍

三 技术计划图像

四 总结

一背景

二赛题介绍

三技术计划图像

四总结