关于人工智能:自动驾驶数据闭环实现高阶自动驾驶的必由之路

38次阅读

共计 2508 个字符,预计需要花费 7 分钟才能阅读完成。

主动驾驶量产落地离不开车辆的“感知”、“决策”与“执行”。

随着感知技术与计算平台的逐步成熟与趋同,影响高阶主动驾驶落地的关键因素不再是解决常见的个别案例 (common case),而是解决“路口”问题,也即各类不常见但一直呈现的“长尾问题”。

作为一种模拟人类的迷信,AI 主动驾驶与人类认知世界的逻辑基本一致,想让汽车更好地了解世界,就须要构建更精准的模型。但算法模型的建设并非一劳永逸,主动驾驶车辆在行驶过程中总会遇到各种生疏场景。

因而,如何对新场景数据进行大规模高效解决并疾速优化算法模型,即成为主动驾驶技术迭代的要害。

换言之,构建基于数据驱动的主动驾驶数据闭环,让数据实现高效流动,是实现高阶主动驾驶的必由之路。

数据闭环不是一个新概念

数据闭环并非新概念,互联网时代晚期即有广泛应用。

一个比拟典型的例子即是各类软件、APP 的“用户体验改良打算”。

用户在首次关上一款软件时,往往会弹出选项——是否退出用户体验改良打算。点击确定后,软件就会收集用户的应用信息。在呈现解体、Bug 等场景下,软件还会弹出信息,询问是否容许上传本次解体信息以帮忙改良,比方 Windows 呈现的各种错误报告。

点击提交后,软件开发商的工程师们会剖析错误报告,以找出呈现解体、Bug 的起因,进而批改代码并在下次更新后予以解决。

用户在应用过程中遇到的所有问题均能够通过此种形式解决,周而复始,一直优化软件性能与应用体验,这就是一种传统的数据闭环。

这个过程能够用下图简略概括:

以上过程中,用户的应用数据是关键因素,它能够帮忙工程师疾速定位问题,并予以解决。

随着技术的提高,传统的数据闭环形式并没有被时代所淘汰,在主动驾驶技术开发中仍被广泛应用,但与以往又有些许不同。

主动驾驶时代的数据闭环

主动驾驶零碎的研发与优化,与传统软件开发存在很多不同。

传统软件更多是在代码端解决各类问题,但主动驾驶零碎除代码以外,还有更为要害的 AI 模型。代码端的问题能够通过传统的数据闭环形式予以解决,但模型端的调整则须要从新训练或优化 AI 算法模型。

因而,主动驾驶数据闭环须要在传统数据闭环形式上,引入一些新货色:

模型问题的解决流程能够进一步细化为:

而反对主动驾驶数据闭环实现周而复始、一直向前的要害,也是新场景数据的一直投喂。

数据之于主动驾驶的重要性正被从新扫视,各大主动驾驶厂商纷纷推出本人的数据闭环计划。

Tesla:外围为 Autopilot 数据引擎框架。取得数据后,先通过单元测试确认模型误差,而后进行数据荡涤与标注,最初实现模型训练与部署。

目前 Tesla 曾经积攒了上百亿英里的行驶数据,这些海量的实在路况数据,既是 Tesla 外围资产,同时也帮忙 Tesla 实现了模型的疾速迭代与降级,为率先抢占高级别的主动驾驶技术洼地平添一大助力。

Waymo:相较于 Tesla,Waymo 引入了数据挖掘、被动学习、主动标注等模块,但根本的框架相差无几。取得数据起源后,通过数据标注取得数据真值,其中波及到数据筛选、开掘和被动学习,模型优化实现测试后,进行公布或部署。

其余主动驾驶公司还会在数据闭环中引入仿真、计算等功能模块,但主动驾驶数据闭环通用根本框架可简化为:

数据采集 - 数据标注 - 模型训练 - 部署,如此周而周而复始。

数据高效流转是要害

事实驾驶场景难以穷尽,极其简单且不可预测,须要 AI 模型疾速迭代降级。实现主动驾驶数据闭环的疾速循环迭代,以满足新场景模型适配问题,同时也须要各“长尾场景”数据的高效流转。

模型训练方面,目前 AI 算法模型已阶段性根本成熟。在理论利用时,不同场景须要解决的问题不尽相同。这并非算法模型的问题,而是场景适配度的问题。主动驾驶 AI 模型后续调优次要以数据迭代为主,须要投喂海量新场景数据。

数据采集方面,依附遍布车身的各类传感器,车辆每小时采集的数据量可达数 TB 之多。然而采集失去数据为非结构化数据,这些未经解决的数据并不能间接用于模型训练,标注后能力产生应用价值。

横亘在数据与模型训练之间的首要问题是如何高效解决海量数据集,实在数据规模未然成为智能驾驶行业的“命根子”。

然而与指数型增长的数据服务需要相比,无论数据处理效率亦或是数据产出品质均难以满足市场需求。

产能方面,大部分数据服务商业务规模、执行效率与项目经理能力高度绑定,产能瓶颈问题凸显; 数据产出品质方面,以点云数据为代表的数据处理需要占比逐步扩充,传统依附简略工具和依赖人力的业务执行形式,也早已无奈满足垂直市场的需要。

主动驾驶实现规模化量产,数据服务畛域是否率先实现冲破将成为要害。

AI 驱动的数据闭环

作为行业当先的数据服务厂商,曼孚科技深知主动驾驶数据服务行业痛点。

相较于传统 SLG 模式业务增长须要沉积人力的形式,曼孚科技回归科技翻新实质,以 PLG(产品驱动增长) 模式代替 SLG 模式,器重产品力塑造,构建起高效的数据闭环,直击数据产能与数据产出品质两大外围痛点。

曼孚科技数据闭环计划以 AI 为次要驱动力,器重 AI 对数据标注的反哺作用,实现低成本量产高质量结构化数据; 数据处理能力的晋升为算法的训练与调优提供短缺燃料,优质算法既可再次反哺数据标注,也可在部署利用中源源不断产出新数据,如此造成正向周而复始,实现高效迭代降级。

AI 驱动的数据闭环

在主动驾驶数据标注方面,作为行业惟一聚焦主动驾驶赛道的数据智能平台,MindFlow SEED 平台既反对 2D 图像场景下的车道线、车辆行人、泊车、全景语义宰割等类型标注,也同步反对 3D 点云场景下的车路协同、间断帧、点云交融、点云语义宰割等标注类型。

在增效降本方面,平台还创新性地引入自动化生命周期治理、AI 加强等模块,AI 标注均匀准确率可达 90% 以上,局部场景可实现齐全 AI 标注量产。

(注:依据训练模型在已标注的测试集上进行预处理后通过 IoU 算法进行计算,IoU 阈值在 0.9 以上算正确计算)。

凭借产品与流程上的翻新改革,过往沉积人力的执行形式被平台产品所取代,业务执行规模不再与项目经理人数绑定,从源头端解决 AI 利用场景继续拓展对高质量多源异构数据的海量需要。

将来,曼孚科技将继续聚焦主动驾驶数据闭环构建,专一晋升实在数据规模量产能力,为主动驾驶商业落地削减更多助力。

正文完
 0