在大家的算法工作中,会训练各种各样的模型。导致大家模型理论利用成果不够好的起因有很多,一些常见的起因次要是模型构造不合理 、损失函数不合理 、超参数设置不合理,但除了这些起因,我想最外围的一个起因是数据的品质自身。

置信每一个主动驾驶行业的开发者对此都是会深有体会的,Lyft 团队在CVPR的presentation上就收回了“High quality labeled data is the key”的感叹。这也是本篇文章想要着重强调的主题。

上面通过一个试验来让大家直观感受一下“标注品质对模型训练性能的影响”

试验主题:不同品质标注对模型性能影响的比照试验

试验框架:

图中左侧是训练的过程,右侧是测试的过程

训练的局部逻辑:

首先是将KITTI数据集的图片搭配原生Original label能够失去一个Original KITTI dataset,相应地再将图片搭配Graviti label能够失去一个Graviti KITTI dataset;而后别离应用这两个数据集各自训练一个2D指标检测的模型,这里应用的是经典的faster-rcnn模型,失去的模型别离叫做Original model和Graviti model。

测试局部的逻辑:

应用了两个标注比拟精准的第三方数据集;Waymo和Cityscape---来对两个模型别离进行测试。

数据处理:

先介绍一下本试验应用到的训练集和测试集:

(1)Waymo 数据集是由Waymo公司的主动驾驶汽车采集的多传感器主动驾驶数据集 它的相机数据是间断采集的,其中一百个场景提供了2D框标注。

(2)KITTI 数据集,是由卡尔斯鲁厄理工学院和丰田工业大学芝加哥分校联结公布的一个用于主动驾驶场景的视觉算法测评数据集。它包含“2D框标注和3D点云数据”以及其余的子数据集,在试验中次要应用KITTI的2D框标注数据。

(3)CItyscape 数据集是由Citydcape团队公布的一个致力于城市街景的语义了解的数据集 ,它笼罩了德国50个城市的街景信息 ,数据集中提供了五千张精标的“语义宰割和实例宰割综合标注”。

上面咱们来看一下具体的后果

(1)这是Waymo的测试集的2D框标注可视化后果,咱们能够看到它的标注框是十分贴合指标的。

(2)这是训练集 KITTI object2D 的一个训练sample ,那么和前一张图雷同,红色的框是KITTI数据集原生的label,蓝色的框是Graviti的标注,能够看到所有的蓝框都要比红框的标注更为精确.

(3)下图是Cityscape 的一个sample,在试验中咱们须要将实例的像素信息转换成2D框信息 ,如图中白框所示

试验后果:

这是两个模型在Waymo数据集上的测试后果 ,图中有三种色彩的框。其中红色是 GroundTruth的预测后果 ,蓝色是Graviti model 的预测后果,绿色是 Original model的预测后果:

从图中咱们能够直观的看出,标注这两辆白车的蓝框比绿框更靠近红色的Groundtruth

这是两个模型cityscape上的测试后果,同样红色框是Groudtruth,蓝色框是Graviti model的预测后果,绿色的是Original model 的预测后果,以图中右侧第二辆车为例,就是这辆银白色的SUV 。大家能够看到车头处的蓝框比红框更偏内,绿框比红框更为偏外。

前边是可视化的测试后果,上面借助PR曲线从定量分析的角度来看一下试验的后果 :

简略介绍一下 PR曲线的含意 :

PR曲线的纵坐标是准确率precision,横坐标就是召回率recall。这两个指标联合能够较为全面的评估一个模型的预测品质。

准确率指的是“预测的2D框中有多少是正确的无效的2D框”当然对于“正确”的定义是一个柔性的概念,比如说 :“我能够认为只有预测框和Groundtruth的IoU大于0.5 ,那他就是一个正确的预测。”召回率指的是“所有Groundtruth对应的指标——有所少被正确的预测到了”。如果大家不分明这个图表的细节 ,那么能够先这样认为 :越偏右上的曲线对应的模型的品质越好。

在这个图表中:红线曲线是Graviti model在不同数据集上的PR曲线, 绿色曲线是Original model 在不同数据集上的PR曲线。

如果横着看这四副图表 :上边两幅是咱们的IoU判真阈值——设置为 0.5 时的PR曲线后果,下边两幅是IoU判真阈值设置为 0.75 时的PR曲线后果。

以左上图为例:红色曲线比绿色绿色更偏右上 ——这也意味着 :Graviti model的测试性能要比Original model的测试性能要好。

如果咱们竖着看的话,右边是Cityscape数据集上的测试后果 ,左边是Waymo数据集上的测试后果。

以Cityscape数据集为例:当IoU阈值从 0.5 调整到 0.75 之后,也就是当要求进步之后,两条曲线都往左下角偏移了。

这个很好了解相似于——老师的判卷难度进步了,那天然所有考生的分数都会有肯定水平的升高, 然而咱们能够察看到,红色曲线和绿色曲线之间的的gap拉大了,这阐明:当我进步我的IoU阈值时,Graviti model的得分降落水平要远小于 Original model 的降落水平 。

从Waymo这两张图, 也是能够失去相似的论断。

综上无论是从可视化的成果还是PR曲线,咱们能够失去比拟统一的试验论断,论断有两点,如下:

第一点 :标注品质会间接影响模型品质

好的标注会训练出更好的成果!

第二点:标注越精准,预测的后果越靠近真值

当IoU判真阈值设置的更高时,模型仍然能够失去更好的体现!

再简略总结一下这个试验中遇到的问题:

1.不同的数据集之间的格局的对立的问题

在泛滥驰名的公开数据集当中,它们的标注格局简直没有完全相同的两个。

试验中用到的数据集格局也是十分的多样,比方

Waymo的2D框标注呢首先它是TFrecord格局,2D框显示的是xywh的信息;

KITTI数据集的2D框标注是txt格局 ,2D框显示的是XYXY的信息;

Cityscape的2D框标注须要先手动从语义宰割转到2D框的标注。

当然这也是一个行业倒退的初期一个失常景象 ,就像两千年左右已经市面上呈现的各种各样的手机充电接口一样的,咱们Graviti 致力于可能找到一种general的数据标注格局 ,以求可能把大家从忙碌的简单的数据处理中解放出来,而可能更多focus在咱们算法工作过程中。

2.筛选sample

数据集格局对立之后咱们还须要筛选具体要用到哪些sample,比如说咱们后面提到的Waymo数据集,它是间断采集的数据,然而咱们没有必要把所有间断的图像都选做测试集。

所以在这个试验中只是距离的抽取了一部分图像作为咱们的测试集,比方图中3幅较为靠近的场景,咱们只抽取其中一幅作为测试集,所以筛选sample这一步也会破费大量工夫 。

3.类别对立问题

在这个试验中用到了Waymo,KITTI ,Cityscape 三个公开数据集和Graviti KITTI 标注集。

上面的表中列出了 4个数据集之间的label的分类细节,从这个图中咱们能够看到 :不论是label的品种,还是label的数量,还有label的划分规范都不尽相同。比方Waymo的VEHICLE类别会包含KITTI的van和tram类别, Cityscape中的bus这一类也并并不齐全等同于KITTI的van这一类。

(4)国外的数据集下载

置信大家都深有感触的一点是,很多国外的数据集下载,是须要非凡的工具能力下载, 而且网速十分感人,针对算法工程师对公开数据集应用上的一些痛点,咱们也行将在8月下旬上线公开数据集的性能。会提供公开数据集索引,国内站点的下载,并且咱们也会提供数据集的标注和标注的可视化,便于大家疾速了解数据集标注的可视化,

如果大家对于咱们的产品有趣味能够登录官网应用:http://http://www.graviti.cn/

也能够扫码上面左侧二维码进咱们的交换群,欢送大家给咱们更多的反馈,右侧是咱们的官网公众号,以理解更多的动静。