关于人工智能:自动驾驶行业的未来由数据标注来撑起丨曼孚科技

主动驾驶通过最近十多年的倒退，从技术、产业到政策监管都有了长足的提高。

尤其随着环境感知、智能决策、管制与执行零碎等核心技术的疾速倒退与成熟，主动驾驶汽车曾经从实验室走向路线实地测试及商业化落地利用的阶段。

以国内为例，目前已在广州、长沙、上海、武汉、沧州、北京等多地开展主动驾驶出租车载人测试，开始尝试将主动驾驶出租车作为出行服务提供给一般民众，验证经营模式以及商业模式。

不过，从主动驾驶商业化倒退的趋势来看，这仅仅是比拟高级的商业化尝试，目前主动驾驶出租车在车辆数量、关闭测试里程数量以及载客对象方面都有着非常严苛的要求，而造成这种景象的次要起因是相干技术的不成熟。

L3级别以上的主动驾驶零碎次要由感知、定位、预测、决策和管制五局部形成，每一部分都不可或缺。其对于计算机视觉技术的需要度非常之高，零碎须要对传感器采集的点云图像数据进行解决，构建车辆行驶环境，为预测和决策做根据，这对于算法的准确性和实时性有着极大考验。

目前主动驾驶的视觉技术次要利用有监督的深度学习，是基于已知变量和因变量推导函数关系的算法模型，须要大量的标注数据对模型进行训练和调优。

换句话说，想要让主动驾驶汽车更加“智能”、主动驾驶算法可能更加从容应对复杂多变的路线环境，背地就须要有海量且高质量的实在路线数据做撑持。

主动驾驶标注数据(起源：曼孚科技)

这些数据次要以车载摄像头采集的2D图像数据和激光雷达采集的3D点云数据为主，场景包含换道超车、通过路口、无红绿灯管制的无爱护左转、右转，以及一些简单的长尾场景诸如闯红灯车辆、横穿马路的行人、路边违章停泊的车辆等等。

通常状况下，主动驾驶畛域相干算法训练对于这些标注数据的需要是海量的。在一些世界级的主动驾驶较量中，主办方往往会提供近亿张图片以及数十万张标注图片供参赛团队训练应用，通过应用这些实在路况数据对算法进行一直优化，能力保障无人驾驶车辆失常可用。

除了数量要求很高以外，标注数据集的品质要求也很高。人工智能行业的一个共识是，标注数据集的品质间接决定算法模型的品质。通常状况下，主动驾驶企业对于标注数据集的准确率要求为高于95%，在某些状况下甚至要超过99%。

随着国内主动驾驶行业的飞速发展，该畛域的数据采集和标注需要曾经成为数据服务供应商的次要我的项目之一，且主动驾驶算法利用仍待优化，数据需要缺口仍在，市场远未饱和。

据艾瑞征询相干统计数据显示，2018年主动驾驶行业根底数据服务规模为5.76亿元，预计2025年将超24亿元，行业数据总任务量超一亿张。

如何解决海量高质量数据集的供应成为了当下制约主动驾驶行业进一步倒退的关键问题之一，也是摆在一众数据服务企业尤其是数据标注企业背后亟需解决的外围问题之一，从某种意义上来说，数据标注行业在某种程度上曾经成为了制约主动驾驶商业化落地的绊脚石。

将来，进步数据交付能力与进步数据品质将成为数据标注行业的次要倒退方向，从需要侧确定需要，定制化打造适宜主动驾驶行业的数据服务，将无效助力主动驾驶商业化落地过程，共建人工智能商业利用场景新生态。

评论