一 背景
ICDAR 2021(International Conference on Document Analysis and Recognition)于 2021 年 9 月 5 -10 日在瑞士召开。ICDAR 会议是文档剖析与辨认畛域国内顶级会议,每两年举办一次,涵盖了文档剖析与辨认畛域的最新学术成绩和前沿利用发展趋势,吸引了该畛域寰球顶尖的研发团队和专家学者的加入。该会议上举办的算法比赛是文字辨认(OCR)畛域的顶级赛事。汽车之家经销商技术部在其中的 Competition on Time-Quality Document Image Binarization(DIB)图像二值化算法比赛的两个子工作下荣获第二名。
图 1 比赛结果和证书
二 赛题介绍
ICDAR2021 的 DIB 较量赛题是对历史文档图像进行二值化,将文字从背景中分离出来。评估指标采纳 PSNR、DRDM、F-Measure (FM)、pseudoFMeasure (Fps)以及 Cohen’s Kappa 的综合加权值。较量难点在于历史文档图像的背景非常复杂,存在各种各样的进化因素,导致现有算法难以获得较好的成果,比方页面污渍挡住字迹,字符褪色,导致和背景太过类似,墨迹浸润,导致反面的文字浸润到侧面,但实在的标签又须要把他分到背景里,以及折叠印痕,色彩较深,可能和文字弄混等。
图 2 历史文档图像数据集的各种进化样例
三 技术计划图像
二值化的传统办法次要分为全局阈值法、部分阈值法以及两者相结合的一些办法。全局阈值法间接采纳固定的阈值将文档图像宰割为文本前景和背景两局部,如经典的 OTSU 算法。部分阈值法依据图像中的部分邻域窗口计算动静的部分阈值实现对该像素分类为前景文本或背景。传统办法在文档图像背景不是很简单时能够获得较好的精度,然而当背景图像存在多种降质情景时(如页面污渍、反面字迹浸透、光照不均等状况),成果较差。
联合深度学习的办法具备更强的鲁棒性,在简单背景下也能体现较好。基于深度学习的办法将文档图像二值化看作图像宰割的工作,通过卷积神经网络对每个像素点进行二分类,最终失去整个文档图像的宰割图,分为前景文本和背景区域,从而实现二值化 [1]。然而对于此次较量,每张历史文档图像的分辨率较大(往往在宽度或高度方向有 3000 像素),思考到 GPU 显存的限度,往往在神经网络办法中,输出是从整张图像中裁剪失去的图像块(例如 128×128 的尺寸),而不是将整张图像输出网络结构中。然而这种裁剪策略失落了整个文档图像的全局空间信息,特地在有反面字迹浸透状况时,此时反面的字迹和实在的前景文本很难辨别,会被误认为是前景文本,导致二值化精度升高。
因而咱们设计了一套联合全局信息和部分信息的文档图像二值化办法,在较量中获得了较好的问题,示意图如下:
图 3 联合全局信息和部分信息的二值化办法
咱们提出的架构由三个 U -Net 的分支模块交融而成:两个输出图像尺寸别离为 128 × 128 和 256 × 256 的部分 U -net,以及一个输出图像尺寸为 512×512 的全局 U -Net。先将两个部分 U -net 失去的二值化图像交融,再和全局 U -Net 失去的二值化图像进行取交运算,失去最终的二值化图像。
部分 U -net:采纳 128×128 尺寸的滑窗对原始图像进行裁剪,失去部分分块,并采纳 U -Net 卷积神经网络 [2] 失去分类概率图后再将分块的图像拼接为残缺图像。U-Net 是一种基于深度学习的图像宰割模型,咱们采纳经典的 U -Net 网络结构,由编码器和解码器形成,编码器由 4 个反复的模块组成,每个模块包含 2 层 3×3 的卷积层和 1 层 2×2 的池化层,每层卷积层后接批标准化层(Batch Normalization)及线性修改单元的激活函数层(RELU),沿着编码器的下采样门路,特色图的高度和宽度减半,而通道数量加倍。解码器的网络结构与编码器的构造正好相同,特色图的高度和宽度加倍,而通道数量减半。U-Net 构造在编码器和解码器之间存在跳层连贯(Skip-connection)以改善宰割精度。因为图像二值化工作是为了将输出图像的每个像素点的值映射为 0 或 1,因而 U -Net 网络结构最初一层采纳 Softmax 激活函数,从而可将每个图像分块转化为同样尺寸大小的分类概率图。通常地,会给个激活阈值,将分类概率图间接转为 0 或 1 的二值化图,因为概率图的每个像素点大小在 [0, 1] 的区间里,例如取激活阈值 0.5,则概率图里大于等于 0.5 的值都被转换为 1,而小于 0.5 的值都被转换为 0。为了进步精度,因而在提取部分信息时采纳了多级尺度的模型交融办法,即交融 128×128 和 256×256 两种部分分块的信息。
全局 U -net:因为部分分块尺寸相比原始残缺图像小得多,失去的是基于部分信息的分类概率图。而要兼顾全局的空间上下文信息以及模型容量的限度,比拟间接的一种办法是将原始图像(例如 3000×3000 的尺寸)通过降采样的形式缩小成某一固定的较低分辨率的尺寸(例如 512×512 的尺寸)。然而这种办法有两个毛病:一是不同的文档图像有不同的高宽比,对立放大为 512×512 会造成高宽比畸变,引入误差;二是相比图像分块的形式训练模型时缩小了可训练样本的数量。基于此,咱们采纳 512×512 固定尺寸的滑窗对原始文档图像降采样后的图像进行裁剪,失去图像分块,而此时的图像分块能够蕴含足够的背景和前景文本,蕴含了全局的空间上下文信息。
交融:先对两个部分 U -net 的后果进行交融,128 × 128 和 256 × 256 尺寸失去的分类概率图是通过具备不同感触区域大小的 U -Net 图像宰割模型失去,将二者取均匀后失去和原始文档图像尺寸大小统一的分类概率图,给定激活阈值 0.5,可将分类概率图转换为二值化图,此时的二值化图是基于部分信息的交融的图像宰割模型失去。再将其与全局 U -net 的后果做取交运算,失去最终二值化图像。
图 4 样例的二值化后果
图 4 给出了采纳本模型在较量数据集的印刷文档图像上二值化后果的一个例子。能够看出,当只思考部分信息时,即采纳部分分块失去二值化图像时,容易将历史文档图像中背景区域的文字谬误地预测为前景文本。而联合了全局和部分信息后,能够更好地区分背景区域和前景文字区域,容易获得更好的成果。
四 总结
此次较量中,汽车之家经销商技术部提出了一种联合整体和部分特色的图像二值化办法,构建了多级尺度的卷积神经网络提取图像特色,通过部分通道以准确刻画文本轮廓,再联合整体通道以更好地拆散简单背景和文本前景,最终大大提高了文本图像的二值化成果。图像二值化是图像处理至关重要的预处理步骤,二值化的成果对后续的 OCR(字符识别)精度有很大影响。此次的研究成果无效晋升了二值化的成果,为后续的图像 OCR、图像主动审核等业务场景提供了贵重的教训。经销商技术部在图像 OCR 和图像主动审核方面有丰盛的落地教训,全年辨认各类票证超过千万张,节约公司洽购内部 OCR 辨认服务费用的同时,更好的保障了公司客户和用户的个人信息数据安全。此外,经销商技术部使用自然语言解决技术研发的电话机器人、IM 对话机器人、智能质检等技术成绩广泛应用在智慧系产品、营销流动及车商汇相干产品中,节约大量线索荡涤、流动邀约、线索转化等的人工成本,同时利用于商业产品售卖,为减少公司营收发挥作用。
参考文献:
[1] Jorge Calvo-Zaragoza and Antonio-Javier Gallego. A selectional autoencoder approach for document image binarization. Pattern Recognition, 86:37{47, 2019.
[2] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234{241. Springer, 2015.