关于人工智能:供需失衡如何填补自动驾驶数据标注供需鸿沟

6次阅读

共计 2746 个字符,预计需要花费 7 分钟才能阅读完成。

2022 年,国内主动驾驶商业化过程迎来新的倒退篇章。

相干统计数据显示,往年一月份,国内新车前装标配搭载 L2 级辅助驾驶零碎上险量为 48.45 万辆,同比增长 63.21%,前装搭载率 22.13%,同比增长近 10%。

目前,全国已凋谢路线测试里程超 5000 公里,发放测试牌照 900 余张。8 月 1 日,《深圳经济特区智能网联汽车管理条例》正式失效,深圳作为后行示范区,齐全主动驾驶汽车自此可非法上路。

能够说,主动驾驶产业在商业化方面交出了一份相当不错的答卷,此前预估的万亿产业规模正被市场逐渐兑现。而随同着汽车产业智能化倒退门路的逐步清晰,市场需求也在倒逼主动驾驶公司进一步晋升技术水准以及为消费者提供更优质的驾驶体验,在推动 L3、L4 级主动驾驶技术落地的路上,仍有泛滥问题亟待解决。指数级增长的数据需要主动驾驶技术属于人工智能的一个重要分支。

现阶段,实现人工智能次要以机器学习,尤其是深度学习形式为主。在理论利用中,无论是采纳有监督学习模式,亦或是半监督学习模式,对标注数据均有强依赖性需要。

对场景积攒度与感知能力要求更高的主动驾驶技术对数据的依赖度也更高。当下两种支流视觉感知门路,无论是特斯拉的毫米波雷达 + 摄像头解决方案,还是 Waymo 的高精地图 + 激光雷达解决方案,感知算法的训练与调优都离不开大规模的路测数据。

这些路测数据规模有多大,须要多少能力满足齐全主动驾驶的需要,兰德公司对此的预估是,主动驾驶汽车须要在实在或者虚拟环境中至多进行 177 亿公里的测试,一直利用新数据调优算法,能力证实主动驾驶零碎比人类驾驶员更牢靠。

假如车队规模 100 辆,全年 24 小时无休并以 45 千米每小时的速度进行测试,大略须要 500 年。

500 年的工夫显然过于漫长了,最简略粗犷的解决方案是裁减车队规模。当车队规模达到 1000 辆时,工夫周期能够缩短至 50 年,而当车队规模裁减至 10000 辆时,只需 5 年就能够实现所有的路测,并采集到相干的数据。

一个问题,如果有解决方案却没有付诸实施,则意味着该解决方案是不可行的。

当下各主动驾驶公司在裁减车队方面均没有过于激进,显然,单纯裁减车队规模并不足以解决主动驾驶技术调优问题。问题的本源在于如何解决这些路况数据。

基于深度学习算法的主动驾驶技术,绕不过数据的标注和训练。采集失去的路况数据均为非结构化数据集,这些原始数据集未经解决是无奈间接用于算法的训练与调优。

凋谢路段下的主动驾驶汽车对于感知零碎的实时性与安全性要求极高,与之绝对应,相干算法的准确度与场景适应度也须要达到一个很高的水准,这就对数据标注的规模与数据产出品质提出了更高的要求。

换言之,主动驾驶技术提高带动了规模宏大的数据标注需要。但数据标注行业量产能力是否跟得上主动驾驶行业疾速裁减的步调呢?

答案是没有。

线性增长的数据供应

与指数型增长的主动驾驶数据标注需要相比,则是线性增长的数据供应。

数据标注行业倒退晚期,行业准入门槛较低,数据处理场景较为简单,算法模型尚处于实验室验证阶段,往往简略的标注工具 + 大量的数据即可满足需要。

但如此得来的算法模型过于根底,最终落实到实在场景仍需不停晋升算法性能。

目前,晋升算法性能的形式次要有两种,一种是进步算法模型的设计复杂度;另一种则是以数据迭代为核心,通过投喂海量数据以晋升算法的性能。

从实际后果上来看,第二种形式更具劣势,且被大规模采纳。进步算法模型的设计复杂度实质上仍然离不开数据投喂,且针对特定场景设计算法仍旧须要特定的数据。

从算法倒退门路来看,通用场景的泛化算法曾经根本成熟,大多数新算法是在老算法的根底上倒退而来。

目前,一些成熟且失去大范畴利用的算法模型架构在很多年前曾经根本确定,后续算法迭代则次要以数据为主。

在理论利用去解决问题时,不同场景须要解决的问题不尽相同。这并不是算法模型的问题,而是场景适配度的问题。

算法架构与技术门路并无问题,场景不同,须要解决的数据也就不同。以主动驾驶场景为例,目前主动驾驶感知算法技术架构曾经根本成熟,关闭场景如矿山、机场、港口等因场景较为固定且繁多,算法迭代根本成熟,因而商业化倒退之路较为顺畅,已进入本质商业化经营阶段。

而凋谢路线下所须要解决的场景过于简单,仅简略一个路口所演化出的场景类别就堪称海量,算法模型迭代须要的数据量也呈指数型快速增长。

但数据标注行业长久以来粗放的执行形式以及依赖简略标注工具的业务执行形式,却无奈在供应端疾速满足市场的爆发性需要。尤其随着主动驾驶 3D 点云数据的利用与遍及,点云数据处理对数据供应商的产品力以及交付能力提出了更高的要求,传统 SLG(销售驱动增长)重销售轻产品的模式在数据标注量产能力方面逐步裸露弊病,数据标注行业供应侧与需要侧之间的鸿沟愈发被拉大。

供需平衡的要害翻新与改革是晋升生产力的要害,数据标注行业亦然。数据处理难度与解决规模的晋升对产品力提出了更高的要求,传统以销售为外围驱动力的业务模式并不能构建起深度护城河,效率晋升与老本升高的要害是技术创新与执行形式的改革。

作为行业当先的数据服务企业,曼孚科技长期聚焦主动驾驶行业,并对主动驾驶数据标注领有本人的了解。相较于 SLG 模式业务增长须要沉积人力的形式,曼孚科技回归科技翻新实质,以 PLG(产品驱动增长)模式代替 SLG 模式,器重塑造产品力,构建技术护城河。

产品方面,曼孚科技推出了第三代数据服务平台——MindFlow SEED 数据服务平台。相较于传统标注工具,SEED 定位平台而非工具,起因在于 SEED 平台在解决数据标注问题的同时,也很好地解决了数据生命周期治理问题。

借助 AI 算法驱动的主动标注,以及针对主动驾驶场景推出的布尔运算、交融点云车道线、主动关键帧等性能,MindFlow SEED 数据服务平台在数据处理尤其是主动驾驶 3D 点云数据处理方面建设了深厚的技术壁垒,均匀标注效率晋升 10 倍以上,并在业内维持了较高的技术当先性。

而在数据生命周期治理方面,MindFlow SEED 数据服务平台建设了一整套笼罩非结构化数据接入至结构化数据导出的管理机制,性能涵盖数据集治理、团队人员治理、工作流治理、数据统计分析等模块,流程周转更晦涩,无效节约治理老本并显著晋升业务执行效率。

与传统依赖人力的业务执行形式不同,曼孚科技还更加重视自动化建设。通过晋升 RPA(自动化)程度,以平台产品取代过往人力沉积的执行形式,业务执行规模不再与项目经理人数绑定,产能天花板问题得以无效冲破。

凭借产品与执行形式上的翻新改革,曼孚科技实现了主动驾驶数据标注的规模化量产,从源头端解决了 AI 利用场景继续拓展对于高质量多源异构数据的海量需要。

随着主动驾驶商业化在更多场景实现落地利用,曼孚科技也将摸索更多数据生产与解决的新形式,用高质量数据助力人工智能交融利用走深向实。

正文完
 0