关于人工智能:自动驾驶数据闭环实现高阶自动驾驶的必由之路

主动驾驶量产落地离不开车辆的“感知”、“决策”与“执行”。

随着感知技术与计算平台的逐步成熟与趋同，影响高阶主动驾驶落地的关键因素不再是解决常见的个别案例 (common case)，而是解决“路口”问题，也即各类不常见但一直呈现的“长尾问题”。

作为一种模拟人类的迷信，AI 主动驾驶与人类认知世界的逻辑基本一致，想让汽车更好地了解世界，就须要构建更精准的模型。但算法模型的建设并非一劳永逸，主动驾驶车辆在行驶过程中总会遇到各种生疏场景。

因而，如何对新场景数据进行大规模高效解决并疾速优化算法模型，即成为主动驾驶技术迭代的要害。

换言之，构建基于数据驱动的主动驾驶数据闭环，让数据实现高效流动，是实现高阶主动驾驶的必由之路。

数据闭环不是一个新概念

数据闭环并非新概念，互联网时代晚期即有广泛应用。

一个比拟典型的例子即是各类软件、APP 的“用户体验改良打算”。

用户在首次关上一款软件时，往往会弹出选项——是否退出用户体验改良打算。点击确定后，软件就会收集用户的应用信息。在呈现解体、Bug 等场景下，软件还会弹出信息，询问是否容许上传本次解体信息以帮忙改良，比方 Windows 呈现的各种错误报告。

点击提交后，软件开发商的工程师们会剖析错误报告，以找出呈现解体、Bug 的起因，进而批改代码并在下次更新后予以解决。

用户在应用过程中遇到的所有问题均能够通过此种形式解决，周而复始，一直优化软件性能与应用体验，这就是一种传统的数据闭环。

这个过程能够用下图简略概括：

以上过程中，用户的应用数据是关键因素，它能够帮忙工程师疾速定位问题，并予以解决。

随着技术的提高，传统的数据闭环形式并没有被时代所淘汰，在主动驾驶技术开发中仍被广泛应用，但与以往又有些许不同。

主动驾驶时代的数据闭环

主动驾驶零碎的研发与优化，与传统软件开发存在很多不同。

传统软件更多是在代码端解决各类问题，但主动驾驶零碎除代码以外，还有更为要害的 AI 模型。代码端的问题能够通过传统的数据闭环形式予以解决，但模型端的调整则须要从新训练或优化 AI 算法模型。

因而，主动驾驶数据闭环须要在传统数据闭环形式上，引入一些新货色：

模型问题的解决流程能够进一步细化为：

而反对主动驾驶数据闭环实现周而复始、一直向前的要害，也是新场景数据的一直投喂。

数据之于主动驾驶的重要性正被从新扫视，各大主动驾驶厂商纷纷推出本人的数据闭环计划。

Tesla：外围为 Autopilot 数据引擎框架。取得数据后，先通过单元测试确认模型误差，而后进行数据荡涤与标注，最初实现模型训练与部署。

目前 Tesla 曾经积攒了上百亿英里的行驶数据，这些海量的实在路况数据，既是 Tesla 外围资产，同时也帮忙 Tesla 实现了模型的疾速迭代与降级，为率先抢占高级别的主动驾驶技术洼地平添一大助力。

Waymo：相较于 Tesla，Waymo 引入了数据挖掘、被动学习、主动标注等模块，但根本的框架相差无几。取得数据起源后，通过数据标注取得数据真值，其中波及到数据筛选、开掘和被动学习，模型优化实现测试后，进行公布或部署。

其余主动驾驶公司还会在数据闭环中引入仿真、计算等功能模块，但主动驾驶数据闭环通用根本框架可简化为：

数据采集 - 数据标注 - 模型训练 - 部署，如此周而周而复始。

数据高效流转是要害

事实驾驶场景难以穷尽，极其简单且不可预测，须要 AI 模型疾速迭代降级。实现主动驾驶数据闭环的疾速循环迭代，以满足新场景模型适配问题，同时也须要各“长尾场景”数据的高效流转。

模型训练方面，目前 AI 算法模型已阶段性根本成熟。在理论利用时，不同场景须要解决的问题不尽相同。这并非算法模型的问题，而是场景适配度的问题。主动驾驶 AI 模型后续调优次要以数据迭代为主，须要投喂海量新场景数据。

数据采集方面，依附遍布车身的各类传感器，车辆每小时采集的数据量可达数 TB 之多。然而采集失去数据为非结构化数据，这些未经解决的数据并不能间接用于模型训练，标注后能力产生应用价值。

横亘在数据与模型训练之间的首要问题是如何高效解决海量数据集，实在数据规模未然成为智能驾驶行业的“命根子”。

然而与指数型增长的数据服务需要相比，无论数据处理效率亦或是数据产出品质均难以满足市场需求。

产能方面，大部分数据服务商业务规模、执行效率与项目经理能力高度绑定，产能瓶颈问题凸显; 数据产出品质方面，以点云数据为代表的数据处理需要占比逐步扩充，传统依附简略工具和依赖人力的业务执行形式，也早已无奈满足垂直市场的需要。

主动驾驶实现规模化量产，数据服务畛域是否率先实现冲破将成为要害。

AI 驱动的数据闭环

作为行业当先的数据服务厂商，曼孚科技深知主动驾驶数据服务行业痛点。

相较于传统 SLG 模式业务增长须要沉积人力的形式，曼孚科技回归科技翻新实质，以 PLG(产品驱动增长) 模式代替 SLG 模式，器重产品力塑造，构建起高效的数据闭环，直击数据产能与数据产出品质两大外围痛点。

曼孚科技数据闭环计划以 AI 为次要驱动力，器重 AI 对数据标注的反哺作用，实现低成本量产高质量结构化数据; 数据处理能力的晋升为算法的训练与调优提供短缺燃料，优质算法既可再次反哺数据标注，也可在部署利用中源源不断产出新数据，如此造成正向周而复始，实现高效迭代降级。

AI 驱动的数据闭环

在主动驾驶数据标注方面，作为行业惟一聚焦主动驾驶赛道的数据智能平台，MindFlow SEED 平台既反对 2D 图像场景下的车道线、车辆行人、泊车、全景语义宰割等类型标注，也同步反对 3D 点云场景下的车路协同、间断帧、点云交融、点云语义宰割等标注类型。

在增效降本方面，平台还创新性地引入自动化生命周期治理、AI 加强等模块，AI 标注均匀准确率可达 90% 以上，局部场景可实现齐全 AI 标注量产。

(注：依据训练模型在已标注的测试集上进行预处理后通过 IoU 算法进行计算，IoU 阈值在 0.9 以上算正确计算)。

凭借产品与流程上的翻新改革，过往沉积人力的执行形式被平台产品所取代，业务执行规模不再与项目经理人数绑定，从源头端解决 AI 利用场景继续拓展对高质量多源异构数据的海量需要。

将来，曼孚科技将继续聚焦主动驾驶数据闭环构建，专一晋升实在数据规模量产能力，为主动驾驶商业落地削减更多助力。