乐趣区

关于算法:CVPR-2023-GPT4与文心一言同台竞技居然是为了自动驾驶UniAD工作

以下文章来源于 OpenDriveLab,作
者 OpenDriveLab
编辑:一点人工一点智能
原文:CVPR 2023 | GPT- 4 与文心一言同台竞技,竟然是为了主动驾驶 UniAD 工作!

00  前言

都说 ChatGPT 是自然语言解决中技术大魔王,国内百度的文心一言是国内技术一霸,那主动驾驶中的技术魔王,你听过说吗?另外,ChatGPT 和文心一言都好评的主动驾驶端到端模型,大家不好奇吗?

图源:文心一言;关键词:技术大魔王
ChatGPT 的横空出世解决了自然语言中绝大多数的工作:包含语言生成、文本分类、机器翻译、文本摘要和对话生成。ChatGPT 对自然语言解决工作体现出弱小的“统治能力”,曾经一统语言解决的江湖。国内百度的文心一言也兼顾解决了汇集中文环境中的自然语言解决的工作。看着这些自然语言解决的技术大魔王,再看看 OpenDriveLab 本人的钻研畛域——主动驾驶。不禁提问:一个大的工作只须要一个模型就足够了吗?会存在主动驾驶畛域的大魔王吗?

主动驾驶是一项高度简单的技术,须要多个学科畛域的常识和技能,包含传感器技术、机器学习、门路布局等方面。主动驾驶还须要适应不同的路线规定和交通文化,与其余车辆和行人进行良好的交互,以实现高度牢靠和平安的主动驾驶零碎。面对这种简单的场景,大部分主动驾驶相干的工作都聚焦在具体的某个模块,对于框架性的研究则绝对匮乏。
主动驾驶是个绝对艰难的工作,然而上海人工智能试验 OpenDriveLab 主动驾驶团队迎难而上,勇攀高峰的精力让咱们团队的精力小伙们摸索出主动驾驶中魔王级别的算法框架——Unified Autonomous Driving(UniAD)!
从工作看,UniAD 首次将检测,跟踪,建图,轨迹预测,占据栅格预测以及布局整合到一个基于 Transformer 的端到端网络框架下。从性能看,UniAD 在 nuScenes 数据集下的所有相干工作都达 SOTA 性能,尤其是预测和布局成果远超其余模型。目前论文已被 CVPR 2023 接管。UniAD 完满符合了大魔王“多任务”和“高性能”的特点,可称为主动驾驶中的技术大魔王。同时 UniAD 也取得了 ChatGPT 和文心一言的认可,堪称是通过了技术魔王的“同行评议”:
ChatGPT 版本:
咱们把论文中的文字局部输出给 ChatGPT,让他来了解 UniAD。文中其余的答复也都基于在模型了解完论文之后给出的回答。

文心一言版本:
同样,咱们把论文的文字局部输出到文心一言中,让他来了解 UniAD。文中其余的答复也都基于在模型了解完论文之后给出的回答。

想晓得的更多 UniAD 的细节,上面的两个链接会给你答案。

  1. 我的项目地址:https://github.com/OpenDriveLab/UniAD
  2. 论文地址:https://arxiv.org/abs/2212.10156

    01  魔王诞生

    无关 UniAD 的诞生,要不先听听技术大佬们:青年研究员陈立、ChatGPT 和文心一言怎么说?UniAD 为什么会诞生?
    能够先听听咱们团队青年才俊、主动驾驶研究员陈立的认识:

    ChatGPT 是这样认为的
    文心一言也剖析得有条有理:通过咱们的青年研究员和两个技术大魔王的剖析,置信大家必定有所理解。接下来给大家具体论述为什么 UniAD 会诞生,这必然会回到一个问题:“为什么之前的模型没有同时做到这么多的工作呢?”或者还要从主动驾驶的框架开始剖析:主动驾驶 UniAD 框架比照(a)传统模块化(b)多任务模块(c)端到端主动驾驶模块
    如上图所示,现有主动驾驶零碎可大抵归为三类:
    a. 传统模块化每个模型负责独自的子工作,劣势在于易于调试迭代,然而解耦就会失落最优性,各个模块的优化指标并不是以驾驶为最终目标,并且每个模块的误差会传递到之后的模块。
    b. 多任务模块多任务范式利用一个共享的特征提取器来实现多个子工作,益处是节俭计算成本,毛病在于不同工作之间可能会存在负面影响。
    c. 端到端模块端到端(End-to-end,E2E)范式以最终的驾驶性能为指标,具体又能够细分为两种范式:隐式的端到端和显式的端到端。其中隐式端到端是以传感器数据作为输出,间接输入布局或者控制指令。这种范式的益处是较为简洁,毛病是不足可解释性,难以调式及迭代。显式端到端则是将多个模块囊括在端到端模型之中,每个模块有各自的输入,并且会将提取到的特色传递到上游工作。
    咱们对目前显式端到端主动驾驶工作进行了比拟:

    端到端主动驾驶工作比照
    能够发现,大多数工作都关注了感知、决策和布局三局部,但具体任务存在差别,且没有框架交融所有的工作。那为什么会呈现这种状况呢?一方面受限于对主动驾驶的意识,研究者们没有对工作之间的关联和构建形式钻研分明;另一方面受限于模型的最终成果,或者有人已经尝试过把全副工作交融,然而成果不佳。
    为了探讨这一问题,UniAD 首次将所有检测,跟踪,建图,轨迹预测,占据栅格预测与布局都蕴含进来,从实现方面解决了这一难点。另一方面,通过严格的融化试验发现,在正确的交融形式下,所有的工作对最终的驾驶性能都是有收益的。至此,主动驾驶方面的技术魔王为了解决理论问题而来。

    02  魔王登基

    那为什么咱们的模型能够解决不同工作的交融难的问题,从而实现多任务和高性能呢?让咱们开始揭晓主动驾驶技术大魔王的真身:
    整体而言,UniAD 利用多组 query 实现了全栈 Transformer 的端到端模型。如图所示,UniAD 由 2 个感知模块,2 个预测模块以及一个布局模块组成。其中感知和预测模块是通过 transformer 架构进行预测,每个模块输入的特色会传递到之后的模块来辅助上游工作。

    UniAD 整体框架图

    秘密武器 1:多组 query 的全 Transformer 模型

    UniAD 利用多组 query 实现了全栈 Transformer 的端到端模型,咱们能够从具体 Transformer 的输入输出感触到信息交融。在 TrackFormer 中,Track query 通过与 BEV 特色通过 attention 的形式进行交互,对特色进行输入。相似的,Map query 通过 MapFormer 的更新后,失去相应的特色。MotionFormer 应用 Motion query 与 BEV 特色进行交互,失去将来轨迹。
    OccFormer 以密集的 BEV 特色和稠密的特色对应的地位信息来构建实例级别的占据栅格。

    秘密武器 2:基于最终“布局”为指标

    在 TrackFormer 中,Track query 中蕴含一个特定的 ego-vehicle  query 用来示意自车属性。布局模块 (Planner) 将 MotionFormer 更新后的 ego-vehicle  query 与 BEV 特色进行交互,此时 ego-vehicle query 蕴含对整个环境的感知与预测信息,因而能更好的学习 planning 工作。为了缩小碰撞,咱们还利用占据栅格预测模块 OccFormer 的输入对自车门路进行优化,防止行驶到将来可能有物体占用的区域。在这个过程中,全副的模块通过输入特定的特色来帮忙实现最终的指标“布局”。

    03  魔王雄风

    UniAD 在 nuScenes 数据集中的所有工作都达到了 SOTA,尤其是预测和布局局部,具体的定量指标咱们不多赘述。上面给出 UniAD 在不同场景的可视化后果。在技术大魔王的框架之下,如果咱们能有机会坐在实车中,肯定会享受整个驾驶过程。ChatGPT 和文心一言也抱有雷同的认识呢:
    ChatGPT 版本:
    文心一言版本:
    1)晴天直行
    UniAD 能够感知左前方期待的彩色车辆,预测其将来轨迹(行将左转驶入自车的车道),并立刻加速以进行避让,待彩色驶离后再恢复正常速度直行。
    2)晴天转弯得益于 UniAD 的地图宰割模块,其能够沿着宰割失去的路线构造适时地转弯。
    3)雨天直行在视线烦扰较大的雨天环境中,UniAD 也能感知到四周车辆进行失常行驶。
    4)雨天转弯在视线烦扰较大且场景简单的十字路口,UniAD 能通过宰割模块生成十字路口的整体路线构造(如右侧 BEV 图中的绿色宰割后果所示),并实现大幅度的左转。
    5)夜晚直行
    在夜晚视线变暗的状况下,UniAD 依然能感知到后方以及右侧的车辆(双车道场景),确保自车行驶。6)夜晚转弯
    在夜晚视线变暗的状况下,UniAD 能感知到前车并实现先静止,后左转的布局。

    04  将来瞻望

    图源:文心一言;关键词:主动驾驶
    UniAD 的倒退还在热火朝天的进行,那他的将来会是什么样呢?让咱们一起来听听 ChatGPT 和文心一言怎么说,毕竟同行最理解同样,技术魔王最懂技术魔王呀!
    ChatGPT 版本
    文心一言版本
    总的来说,UniAD 作为一项极具创新性的主动驾驶技术,具备很大的后劲和利用价值。只管该技术目前仍处于倒退初期,但其曾经引起了人们的宽泛趣味和关注,将来的发展前景十分值得期待。
    1、举荐 -《ChatGPT 调研报告》- 哈尔滨工业大学
    2、万字拆解!追溯 ChatGPT/GPT3.5 各项能力的起源
    3、复旦邱锡鹏:深度分析 ChatGPT 类大语言模型的关键技术
    4、张俊林:由 ChatGPT 反思大语言模型(LLM)的技术精要
    5、书籍举荐 -《深度学习及其在 NLP 和语音辨认中的利用》
    6、为什么检测人工智能生成的文本如此艰难
    7、一文读懂 chatGPT 模型原理(无公式)

退出移动版