关于机器学习:一个有效的图表图像数据提取框架

一、简要介绍

在本文中，作者通过采纳最先进的计算机视觉技术，在数据挖掘零碎的数据提取阶段，填补了钻研的空白。如图1所示，该阶段蕴含两个子工作，即绘制元素检测和数据转换。为了建设一个鲁棒的Box detector，作者综合比拟了不同的基于深度学习的办法，并找到了一种适合的高精度的边框检测办法。为了建设鲁棒point detector，采纳了带有特色交融模块的全卷积网络，与传统办法相比，能够辨别近点。该零碎能够无效地解决各种图表数据，而不须要做出启发式的假如。在数据转换方面，作者将检测到的元素转换为具备语义值的数据。提出了一种网络来测量图例匹配阶段图例和检测元素之间的特色相似性。此外，作者还提供了一个对于从信息图表中获取原始表格的baseline，并发现了一些要害的因素来进步各个阶段的性能。试验后果证实了该零碎的有效性。

二、钻研背景

图表数据是一种重要的信息传输媒介，它能简洁地分类和整合艰难信息。近年来，越来越多的图表图像呈现在多媒体、科学论文和商业报告中。因而，从图表图像中主动提取数据的问题曾经引起了大量的钻研关注。

如图1所示，图表数据挖掘零碎个别包含以下六个阶段：图表分类、文本检测和辨认、文本角色分类、轴剖析、图例剖析和数据提取。在上述所有阶段中，数据提取是最要害、最艰难的局部，其性能取决于定位的品质。在本工作中，作者次要探讨了数据提取阶段。本阶段的指标是检测地块区域中的元素，并将它们转换为具备语义的数据标记。

如图2所示，该工作有两个子工作：绘图元素检测和数据转换

作者从指标检测畛域学习办法，建设了一个鲁棒的数据提取零碎。然而，应该分明的是，图表图像与天然图像有显著的不同。如图3所示，(a)是来自COCO数据集的图像，(b)是来自合成图表数据集的图像。首先，与个别对象相比，图表图像中的元素具备很大范畴的长宽比和大小。图表图像蕴含了不同元素的组合。这些元素能够是十分短的，比方数字点，也能够是长的，比方题目。其次，图表图像对定位精度高度敏感。尽管在0.5到0.7范畴内的IoU值对于个别的指标检测是可承受的，但对于图表图像则是不可承受的。如图3b所示，即便当IoU为0.9时，在条形图像上仍有较小的数值偏差，这显示了图表图像对IoU的敏感性。因而，对于图表数据的提取，检测零碎须要高精度的边框或点，即具备较高的IoU值。

因而，对于图表数据的提取，检测零碎须要高精度的边界边框或点，即具备较高的IoU值。

目前，最先进的计算机视觉技术还没有被图表开掘办法齐全采纳。此外，应用基于深度学习的办法进行图表开掘的比拟也很少。人们认为，基于深度学习的办法能够防止硬启发式假如，并且在解决各种实在图表数据时更持重。在本钻研中，作者应用已发表的实在数据集，试图填补数据提取阶段的这一钻研空白。在所提出的框架中，首先检测到主区域中的元素。基于数据挖掘零碎中前几个阶段的轴剖析和图例剖析后果，作者将检测到的元素转换为具备语义值的数据标记。这项工作的奉献能够总结如下。(i)为了构建一个鲁棒的Box detector，作者综合比拟了不同的基于深度学习的办法。作者次要钻研现有的指标检测办法是否实用于条型元素检测。特地是，它们应该可能(1)检测具备较大长宽比范畴的元素，并可能(2)定位具备较高IoU值的对象。（ii）为了构建一个鲁棒的point detector，作者应用一个带有特色交融模块的全卷积网络（FCN）来输入一个热图掩模。它能很好地区分近点，而传统的办法和基于检测的办法很容易失败。（iii）在数据转换的图例匹配阶段，一个网络被训练来测量特色相似性。当特征提取阶段存在噪声时，它比基于图像的特色具备鲁棒性。最初，作者提供了一个公共数据集的baseline，这能够促成进一步的钻研。

三、办法介绍

作者所提出的办法的总体架构如图4所示。在性能上，该框架由三个组成部分组成：一个事后训练好的图表分类模型，用于检测边框或点的元素检测模块，以及用于确定元素值的数据转换。在上面的局部中，作者首先介绍box detector和point detector的细节。接下来，作者将提供数据转换的实现细节。

3.1 Box detector

为了提取不同尺度上的鲁棒特色，作者应用了带有FPN的ResNet-50 。FPN应用带有横向连贯的自顶向下体系结构，以交融来自繁多尺度输出的不同分辨率的个性，使其可能检测具备大高宽比范畴的元素。为了检测具备高IoU的边框，作者抉择CascadeR-CNN作为作者的box detector。如图5(a)所示，box detector有四个阶段，一个区域候选网络（RPN），三个用于检测。第一个检测阶段的采样遵循Faster R-CNN。在接下来的阶段中，通过简略地应用上one-stage的回归输入来实现从新采样。

3.2 Point detector

点是图表数据中的另一个常见的图表元素。如前所述，相应的图表类型包含散点、线和面。个别来下，点密集散布在地块区域，数据以（x，y）的格局示意。在这项工作中，作者应用基于宰割的办法来检测点，这能够帮忙辨别近点。

网络结构

如图5(b)所示，从骨干网络中提取了四级的特色图，记为，其大小别离为输出图像的1/16、1/8、1/4和1/2。而后，在上采样阶段，对来自不同深度的特色进行交融。在每个合并阶段中，来自最初一个阶段的特色映射首先被输出到上采样模块，使其大小增加一倍，而后与以后的特色映射连接起来。接下来，应用由两个间断的层构建的交融模块，生成这个合并阶段的最终输入。在最初一个合并阶段之后，而后应用由两个层构建的头模块。最初，将特色图上采样到原图大小。

标签生成

为了训练FCN网络，作者生成了一个热图掩模。二进制映射将轮廓内的所有像素设置为雷同的值，但不能反映每个像素之间的关系。与二值宰割图相比，作者为掩模上的这些点绘制高斯热图。利用高斯核函数计算了高斯值。如果两个高斯分布重叠，而一个点有两个值，作者应用最大值。

其中（x、y）是掩模上的点坐标，（、）是指标点的核心。σ是一个决定大小的高斯核参数。在这里，作者将σ的值设为2。

后处理

在测试阶段，Point detector输入一个热图掩模。作者首先过滤主绘图区域外的输入噪声。而后，作者应用一个高置信度阈值来输入正区域。通过寻找连贯重量的核心，失去最终的点输入。在连通重量剖析过程中，对于较大的连通区域，作者也随机抉择该区域内的点作为输入。

3.3 数据变换

在检测到元素之后，作者须要确定元素的值。在这个阶段，指标是将绘图区域中检测到的元素转换为具备语义值的数据标记。如图6所示，本阶段进行了图例匹配和值计算。

图例匹配:

依据在数据挖掘零碎中从第五阶段失去的图例剖析后果，作者能够失去图例的地位。如果存在图例，作者须要提取元素和图例的特色。而后利用l2间隔来度量特色的相似性，并将元素划分为相应的图例。基于图像的特色，如RGB特色和HSV特色，在检测后果不够严密时不鲁棒。因而，作者提出训练一个特色模型来度量特色相似性。

该网络间接从patch输出图像x学习映射到嵌入向量。它由多个模块组成，应用conv-BN-ReLU层构建，最初为每个patch输入输出一个128d的嵌入向量。在训练阶段，网络应用三倍的损失进行优化。这种损失的目标是通过一个间隔边际将正对和负对离开。同一集群的嵌入向量应该间隔较小，不同的集群应该间隔较大。在测试阶段，将裁剪后的图例补丁和元素补丁输出到模型中。对于每个元素，在特色维度上间隔最小的图例是对应的类。

数值计算：

依据第四阶段失去的轴剖析后果，作者能够失去检测到的勾选点的地位及其对应的语义值。而后，作者剖析了相邻勾选点之间的数值关系，包含线性或指数的状况。最初，作者计算了单位尺度的值，并应用插值办法来确定元素的值。

四、试验

4.1数据集

本钻研中应用了两组数据集，别离为Synth2020和UB PMC2020。第一个数据集Synth2020，是Synth2019的扩大版本。应用Matplotlib库创立了多个不同类型的图表。第二个数据集是来自PubMedCentral的迷信出版物中的实在图表，它具备不同的图像分辨率和更多的图像不确定性。作者将ICPR2020官网训练数据集随机分为训练集和验证集。表1给出了这两个数据集宰割的详细信息。

4.2配置细节

在Box detector试验中，作者抉择条形数据进行训练。主特征提取器是在ImageNet上事后训练过的ResNet-50。在回归阶段，作者采纳RoIAlign抽样候选到7×7的固定大小。batch size为8，初始学习率设置为0.01。采纳随机梯度降落（SGD）对模型进行优化，训练的最大周期为20。在推理阶段，利用非最大克制（NMS）来克制冗余输入。

在point detector试验中，作者抉择散点型数据进行训练。在训练阶段，作者应用MSE损失来优化网络。采纳多种数据加强，包含随机裁剪、随机旋转、随机翻转和图像失真，以防止过拟合。作者采纳OHEM 策略来学习艰难样本。正样本和负样本的比例为1：3。应用Adam优化器对模型进行优化，最大迭代次数为30k，batch size为4。

在数据转换试验中，作者训练模型提取特色进行聚类。训练的输出大小为24×24，嵌入维数设置为128。采纳Adam优化器对模型进行优化，最大迭代次数为50k。batch size为8，初始学习率设置为0.001。

4.3后果剖析

Box detector的评估：

当IoU的值别离设置为0.5、0.7、0.9时，用Score_a和f-measure来评估Box detector的性能。Score_a应用ICPR2020比赛的评估机制。训练后的模型别离在Synth2020验证集和UB PMC2020测试集上进行了测试。因为Synth2020的测试集目前不可用，所以作者应用验证集来测试Synth2020数据集上的模型性能。

为了进行比拟，作者实现了不同的检测模型，包含one-stage和two-stage的检测模型。one-stage模型是SSD 和YOLO-v3而two-stage模型是Faster R-CNN。如表2所示，one-stage模型的性能体现最差，多级回归磁头有助于取得较高的精度。此外，附加的FPN构造无效地有助于检测具备较大高宽比范畴的元素。在Synth2020和UB PMC2020数据集上，具备FPN构造的Cascade R-CNN模型体现最好。因而，对于条形数据检测，具备多元回归头和FPN构造的模型获得了令人印象粗浅的性能。

One-stage模型在晚期的迭代中输入了蹩脚的后果。同时，NMS不能无效地过滤这些误差输入，如图7(b).所示NMS不能抑制这些输入，因为这些长矩形之间的离子值单位小于0.5因为这些起因，该模型不能达到全局最优解。

Point detector的评估：

在本节中，将依据比赛中公布的评估机制来评估point detector的性能。训练后的模型在Synth2020验证、UB PMC2020验证和测试集上进行了测试。

作者将作者的办法与传统的图像处理办法，如连贯组件剖析和基于检测的办法。该检测模型是基于faster R-CNN。为了训练faster R-CNN模型，作者将点（x，y）扩大为一个矩形（x −r，y −r，x+r，y +r），其数据格式为（left，top，right，bottom）。作者还实现了另一种基于宰割的办法Pose ResNet，该办法最后被提出用于pose point检测。Pose ResNet模型采纳了下采样和上采样的构造，没有思考不同深度的特色交融。

如表3所示，该办法简略而无效，在三个测试集上都优于其余办法。如图8所示，在Synth2020验证集上，有许多状况下，散点被连贯并造成一个更大的连贯重量。在UB PMC2020测试集上，在情节区域有许多噪声，如文本元素。传统的图像处理办法不能辨别形成较大重量的近点。当点数较大或相邻点连贯时，基于检测的办法失败。与Pose ResNet相比，特色交融办法有助于辨别相邻点，如图8(d).所示该办法能无效地解决这些状况，并精确地定位相邻点。

数据转换特色的鲁棒性:

作者抉择行型数据来评估数据转换的性能。数据转换的性能取决于图例匹配阶段和值计算阶段。值计算阶段的性能取决于OCR引擎是否能正确辨认勾点值。疏忽了OCR引擎引起的误差，作者探讨了从训练网络的图例匹配阶段提取的特色的鲁棒性。如表4所示，作者比拟了对ground truth和预测后果进行图例匹配阶段时的性能。对于简短的表示法，这里的s1、s2、s3别离示意均匀名称得分、均匀数据序列得分和均匀得分，这在评估脚本中申明。

当应用ground truth作为输出时，元素的地位是相当精确的。从训练网络中提取的特色与RGB和HSV特色连贯后的特色具备可比性。通过思考特色的级联，能够进一步提高性能。当应用预测检测后果时，元素的地位可能不够紧凑，这可能会在提取特色时引入噪声。试验结果表明，该办法的特色比基于图像的特色更具备鲁棒性。

拟建零碎的评估后果:

如表5所示，作者提供了作者提出的ICPR2020较量的零碎性能，这能够作为一个baseline，便于进一步的钻研。对于简短的表示法，这里的s0、s1、s2和s3别离示意视觉元素检测得分、均匀名称得分、均匀数据序列得分和均匀得分。在本工作中，没有采纳额定的数据或模型集成策略。结果表明，作者的零碎在UB PMC2020测试集上的性能优于Rank1和Rank2的后果，证实了该零碎的有效性。

五、总结与探讨

在本工作中，作者探讨了一个数据挖掘零碎中的数据提取阶段。为了建设一个牢靠的Box detector，作者比拟了不同的指标检测办法，并找到了一个适合的办法来解决表征图表数据的非凡问题。具备多元回归头和FPN构造的模型获得了令人印象粗浅的性能。为了建设鲁棒的point detector，与基于图像处理的办法和基于检测的办法相比，该基于宰割的办法能够防止艰难的启发式假如，并很好地区分近点。对于数据转换，作者提出了一种测量特色相似性的网络，它比基于图像的特色更持重。在试验中，作者在数据提取的每个阶段都进行了试验。作者找到了进步每个阶段成果的关键因素。在公共数据集上的整体性能证实了该零碎的有效性。因为近年来呈现的图表越来越多，作者置信从图表数据的主动提取畛域将迅速倒退。作者心愿这项工作可能提供有用的见解，并为比拟提供一个baseline。

关于机器学习:一个有效的图表图像数据提取框架

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于机器学习:一个有效的图表图像数据提取框架

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复