关于机器学习:一个有效的图表图像数据提取框架

1次阅读

共计 5890 个字符,预计需要花费 15 分钟才能阅读完成。

​ 一、简要介绍

在本文中,作者通过采纳最先进的计算机视觉技术,在数据挖掘零碎的数据提取阶段,填补了钻研的空白。如图 1 所示,该阶段蕴含两个子工作,即绘制元素检测和数据转换。为了建设一个鲁棒的 Box detector,作者综合比拟了不同的基于深度学习的办法,并找到了一种适合的高精度的边框检测办法。为了建设鲁棒 point detector,采纳了带有特色交融模块的全卷积网络,与传统办法相比,能够辨别近点。该零碎能够无效地解决各种图表数据,而不须要做出启发式的假如。在数据转换方面,作者将检测到的元素转换为具备语义值的数据。提出了一种网络来测量图例匹配阶段图例和检测元素之间的特色相似性。此外,作者还提供了一个对于从信息图表中获取原始表格的 baseline,并发现了一些要害的因素来进步各个阶段的性能。试验后果证实了该零碎的有效性。

二、钻研背景

图表数据是一种重要的信息传输媒介,它能简洁地分类和整合艰难信息。近年来,越来越多的图表图像呈现在多媒体、科学论文和商业报告中。因而,从图表图像中主动提取数据的问题曾经引起了大量的钻研关注。

如图 1 所示,图表数据挖掘零碎个别包含以下六个阶段:图表分类、文本检测和辨认、文本角色分类、轴剖析、图例剖析和数据提取。在上述所有阶段中,数据提取是最要害、最艰难的局部,其性能取决于定位的品质。在本工作中,作者次要探讨了数据提取阶段。本阶段的指标是检测地块区域中的元素,并将它们转换为具备语义的数据标记。

如图 2 所示,该工作有两个子工作:绘图元素检测和数据转换

 作者从指标检测畛域学习办法,建设了一个鲁棒的数据提取零碎。然而,应该分明的是,图表图像与天然图像有显著的不同。如图 3 所示,(a)是来自 COCO 数据集的图像,(b)是来自合成图表数据集的图像。首先,与个别对象相比,图表图像中的元素具备很大范畴的长宽比和大小。图表图像蕴含了不同元素的组合。这些元素能够是十分短的,比方数字点,也能够是长的,比方题目。其次,图表图像对定位精度高度敏感。尽管在 0.5 到 0.7 范畴内的 IoU 值对于个别的指标检测是可承受的,但对于图表图像则是不可承受的。如图 3b 所示,即便当 IoU 为 0.9 时,在条形图像上仍有较小的数值偏差,这显示了图表图像对 IoU 的敏感性。因而,对于图表数据的提取,检测零碎须要高精度的边框或点,即具备较高的 IoU 值。

因而,对于图表数据的提取,检测零碎须要高精度的边界边框或点,即具备较高的 IoU 值。

 目前,最先进的计算机视觉技术还没有被图表开掘办法齐全采纳。此外,应用基于深度学习的办法进行图表开掘的比拟也很少。人们认为,基于深度学习的办法能够防止硬启发式假如,并且在解决各种实在图表数据时更持重。在本钻研中,作者应用已发表的实在数据集,试图填补数据提取阶段的这一钻研空白。在所提出的框架中,首先检测到主区域中的元素。基于数据挖掘零碎中前几个阶段的轴剖析和图例剖析后果,作者将检测到的元素转换为具备语义值的数据标记。这项工作的奉献能够总结如下。(i)为了构建一个鲁棒的 Box detector,作者综合比拟了不同的基于深度学习的办法。作者次要钻研现有的指标检测办法是否实用于条型元素检测。特地是,它们应该可能 (1) 检测具备较大长宽比范畴的元素,并可能 (2) 定位具备较高 IoU 值的对象。(ii)为了构建一个鲁棒的 point detector,作者应用一个带有特色交融模块的全卷积网络(FCN)来输入一个热图掩模。它能很好地区分近点,而传统的办法和基于检测的办法很容易失败。(iii)在数据转换的图例匹配阶段,一个网络被训练来测量特色相似性。当特征提取阶段存在噪声时,它比基于图像的特色具备鲁棒性。最初,作者提供了一个公共数据集的 baseline,这能够促成进一步的钻研。

三、办法介绍

作者所提出的办法的总体架构如图 4 所示。在性能上,该框架由三个组成部分组成:一个事后训练好的图表分类模型,用于检测边框或点的元素检测模块,以及用于确定元素值的数据转换。在上面的局部中,作者首先介绍 box detector 和 point detector 的细节。接下来,作者将提供数据转换的实现细节。

3.1 Box detector

为了提取不同尺度上的鲁棒特色,作者应用了带有 FPN 的 ResNet-50。FPN 应用带有横向连贯的自顶向下体系结构,以交融来自繁多尺度输出的不同分辨率的个性,使其可能检测具备大高宽比范畴的元素。为了检测具备高 IoU 的边框,作者抉择 CascadeR-CNN 作为作者的 box detector。如图 5(a)所示,box detector 有四个阶段,一个区域候选网络(RPN),三个用于检测。第一个检测阶段的采样遵循 Faster R-CNN。在接下来的阶段中,通过简略地应用上 one-stage 的回归输入来实现从新采样。

3.2  Point detector

点是图表数据中的另一个常见的图表元素。如前所述,相应的图表类型包含散点、线和面。个别来下,点密集散布在地块区域,数据以(x,y)的格局示意。在这项工作中,作者应用基于宰割的办法来检测点,这能够帮忙辨别近点。

网络结构

如图 5(b)所示,从骨干网络中提取了四级的特色图,记为,其大小别离为输出图像的 1 /16、1/8、1/ 4 和 1 /2。而后,在上采样阶段,对来自不同深度的特色进行交融。在每个合并阶段中,来自最初一个阶段的特色映射首先被输出到上采样模块,使其大小增加一倍,而后与以后的特色映射连接起来。接下来,应用由两个间断的层构建的交融模块,生成这个合并阶段的最终输入。在最初一个合并阶段之后,而后应用由两个层构建的头模块。最初,将特色图上采样到原图大小。

标签生成

为了训练 FCN 网络,作者生成了一个热图掩模。二进制映射将轮廓内的所有像素设置为雷同的值,但不能反映每个像素之间的关系。与二值宰割图相比,作者为掩模上的这些点绘制高斯热图。利用高斯核函数计算了高斯值。如果两个高斯分布重叠,而一个点有两个值,作者应用最大值。

其中(x、y)是掩模上的点坐标,(、)是指标点的核心。σ 是一个决定大小的高斯核参数。在这里,作者将 σ 的值设为 2。

后处理

在测试阶段,Point detector 输入一个热图掩模。作者首先过滤主绘图区域外的输入噪声。而后,作者应用一个高置信度阈值来输入正区域。通过寻找连贯重量的核心,失去最终的点输入。在连通重量剖析过程中,对于较大的连通区域,作者也随机抉择该区域内的点作为输入。

3.3 数据变换

在检测到元素之后,作者须要确定元素的值。在这个阶段,指标是将绘图区域中检测到的元素转换为具备语义值的数据标记。如图 6 所示,本阶段进行了图例匹配和值计算。

图例匹配:

依据在数据挖掘零碎中从第五阶段失去的图例剖析后果,作者能够失去图例的地位。如果存在图例,作者须要提取元素和图例的特色。而后利用 l2 间隔来度量特色的相似性,并将元素划分为相应的图例。基于图像的特色,如 RGB 特色和 HSV 特色,在检测后果不够严密时不鲁棒。因而,作者提出训练一个特色模型来度量特色相似性。

该网络间接从 patch 输出图像 x 学习映射到嵌入向量。它由多个模块组成,应用 conv-BN-ReLU 层构建,最初为每个 patch 输入输出一个 128d 的嵌入向量。在训练阶段,网络应用三倍的损失进行优化。这种损失的目标是通过一个间隔边际将正对和负对离开。同一集群的嵌入向量应该间隔较小,不同的集群应该间隔较大。在测试阶段,将裁剪后的图例补丁和元素补丁输出到模型中。对于每个元素,在特色维度上间隔最小的图例是对应的类。

数值计算:

依据第四阶段失去的轴剖析后果,作者能够失去检测到的勾选点的地位及其对应的语义值。而后,作者剖析了相邻勾选点之间的数值关系,包含线性或指数的状况。最初,作者计算了单位尺度的值,并应用插值办法来确定元素的值。

四、试验

4.1 数据集

本钻研中应用了两组数据集,别离为 Synth2020 和 UB PMC2020。第一个数据集 Synth2020,是 Synth2019 的扩大版本。应用 Matplotlib 库创立了多个不同类型的图表。第二个数据集是来自 PubMedCentral 的迷信出版物中的实在图表,它具备不同的图像分辨率和更多的图像不确定性。作者将 ICPR2020 官网训练数据集随机分为训练集和验证集。表 1 给出了这两个数据集宰割的详细信息。

4.2 配置细节

在 Box detector 试验中,作者抉择条形数据进行训练。主特征提取器是在 ImageNet 上事后训练过的 ResNet-50。在回归阶段,作者采纳 RoIAlign 抽样候选到 7 ×7 的固定大小。batch size 为 8,初始学习率设置为 0.01。采纳随机梯度降落(SGD)对模型进行优化,训练的最大周期为 20。在推理阶段,利用非最大克制(NMS)来克制冗余输入。

在 point detector 试验中,作者抉择散点型数据进行训练。在训练阶段,作者应用 MSE 损失来优化网络。采纳多种数据加强,包含随机裁剪、随机旋转、随机翻转和图像失真,以防止过拟合。作者采纳 OHEM 策略来学习艰难样本。正样本和负样本的比例为 1:3。应用 Adam 优化器对模型进行优化,最大迭代次数为 30k,batch size 为 4。

在数据转换试验中,作者训练模型提取特色进行聚类。训练的输出大小为 24×24,嵌入维数设置为 128。采纳 Adam 优化器对模型进行优化,最大迭代次数为 50k。batch size 为 8,初始学习率设置为 0.001。

4.3 后果剖析

Box detector 的评估:

当 IoU 的值别离设置为 0.5、0.7、0.9 时,用 Score_a 和 f -measure 来评估 Box detector 的性能。Score_a 应用 ICPR2020 比赛的评估机制。训练后的模型别离在 Synth2020 验证集和 UB PMC2020 测试集上进行了测试。因为 Synth2020 的测试集目前不可用,所以作者应用验证集来测试 Synth2020 数据集上的模型性能。

为了进行比拟,作者实现了不同的检测模型,包含 one-stage 和 two-stage 的检测模型。one-stage 模型是 SSD 和 YOLO-v3 而 two-stage 模型是 Faster R-CNN。如表 2 所示,one-stage 模型的性能体现最差,多级回归磁头有助于取得较高的精度。此外,附加的 FPN 构造无效地有助于检测具备较大高宽比范畴的元素。在 Synth2020 和 UB PMC2020 数据集上,具备 FPN 构造的 Cascade R-CNN 模型体现最好。因而,对于条形数据检测,具备多元回归头和 FPN 构造的模型获得了令人印象粗浅的性能。

One-stage 模型在晚期的迭代中输入了蹩脚的后果。同时,NMS 不能无效地过滤这些误差输入,如图 7(b). 所示 NMS 不能抑制这些输入,因为这些长矩形之间的离子值单位小于 0.5 因为这些起因,该模型不能达到全局最优解。

 

Point detector 的评估:

在本节中,将依据比赛中公布的评估机制来评估 point detector 的性能。训练后的模型在 Synth2020 验证、UB PMC2020 验证和测试集上进行了测试。

作者将作者的办法与传统的图像处理办法,如连贯组件剖析和基于检测的办法。该检测模型是基于 faster R-CNN。为了训练 faster R-CNN 模型,作者将点(x,y)扩大为一个矩形(x −r,y −r,x+r,y +r),其数据格式为(left,top,right,bottom)。作者还实现了另一种基于宰割的办法 Pose ResNet,该办法最后被提出用于 pose point 检测。Pose ResNet 模型采纳了下采样和上采样的构造,没有思考不同深度的特色交融。

如表 3 所示,该办法简略而无效,在三个测试集上都优于其余办法。如图 8 所示,在 Synth2020 验证集上,有许多状况下,散点被连贯并造成一个更大的连贯重量。在 UB PMC2020 测试集上,在情节区域有许多噪声,如文本元素。传统的图像处理办法不能辨别形成较大重量的近点。当点数较大或相邻点连贯时,基于检测的办法失败。与 Pose ResNet 相比,特色交融办法有助于辨别相邻点,如图 8(d). 所示该办法能无效地解决这些状况,并精确地定位相邻点。

数据转换特色的鲁棒性:

作者抉择行型数据来评估数据转换的性能。数据转换的性能取决于图例匹配阶段和值计算阶段。值计算阶段的性能取决于 OCR 引擎是否能正确辨认勾点值。疏忽了 OCR 引擎引起的误差,作者探讨了从训练网络的图例匹配阶段提取的特色的鲁棒性。如表 4 所示,作者比拟了对 ground truth 和预测后果进行图例匹配阶段时的性能。对于简短的表示法,这里的 s1、s2、s3 别离示意均匀名称得分、均匀数据序列得分和均匀得分,这在评估脚本中申明。

当应用 ground truth 作为输出时,元素的地位是相当精确的。从训练网络中提取的特色与 RGB 和 HSV 特色连贯后的特色具备可比性。通过思考特色的级联,能够进一步提高性能。当应用预测检测后果时,元素的地位可能不够紧凑,这可能会在提取特色时引入噪声。试验结果表明,该办法的特色比基于图像的特色更具备鲁棒性。

拟建零碎的评估后果:

如表 5 所示,作者提供了作者提出的 ICPR2020 较量的零碎性能,这能够作为一个 baseline,便于进一步的钻研。对于简短的表示法,这里的 s0、s1、s2 和 s3 别离示意视觉元素检测得分、均匀名称得分、均匀数据序列得分和均匀得分。在本工作中,没有采纳额定的数据或模型集成策略。结果表明,作者的零碎在 UB PMC2020 测试集上的性能优于 Rank1 和 Rank2 的后果,证实了该零碎的有效性。

五、总结与探讨

在本工作中,作者探讨了一个数据挖掘零碎中的数据提取阶段。为了建设一个牢靠的 Box detector,作者比拟了不同的指标检测办法,并找到了一个适合的办法来解决表征图表数据的非凡问题。具备多元回归头和 FPN 构造的模型获得了令人印象粗浅的性能。为了建设鲁棒的 point detector,与基于图像处理的办法和基于检测的办法相比,该基于宰割的办法能够防止艰难的启发式假如,并很好地区分近点。对于数据转换,作者提出了一种测量特色相似性的网络,它比基于图像的特色更持重。在试验中,作者在数据提取的每个阶段都进行了试验。作者找到了进步每个阶段成果的关键因素。在公共数据集上的整体性能证实了该零碎的有效性。因为近年来呈现的图表越来越多,作者置信从图表数据的主动提取畛域将迅速倒退。作者心愿这项工作可能提供有用的见解,并为比拟提供一个 baseline。

正文完
 0