共计 3425 个字符,预计需要花费 9 分钟才能阅读完成。
CVPR作为 计算机视觉和模式识别畛域的世界级学术顶会 ,不仅是学者们展现前沿科技成果的学术会议,也是企业界摸索前沿利用的一大平台。近年来,随着 大模型技术 的爆发式倒退,基于大模型技术的翻新利用正逐渐在产业界开释出微小价值空间。
作为人工智能技术畛域的领军者与深耕者,百度在大模型技术畛域领有弱小的技术劣势和深厚技术积攒,截至 2022 年 11 月,百度自主研发的产业级常识加强大模型体系文心大模型 曾经蕴含 36 个大模型,涵盖根底大模型、工作大模型、行业大模型三级体系,全面满足产业利用需要,构建了业界规模最大的产业大模型体系。作为文心大模型的外围之一,文心·CV 大模型 VIMER 已广泛应用在主动驾驶、云智一体、挪动生态等外围业务。
为了进一步推动视觉大模型技术的倒退,往年百度将在 CVPR 2023 上举办首届大模型 workshop,邀请大模型畛域内的顶级学者和精英们独特探讨大模型技术的现状和将来,同时将在智能交通畛域举办首个多任务大模型的国内较量,提供大模型利用技术交换和切磋的平台。咱们于 2023 年 3 月 28 日 正式启动 第一届大模型技术国内比赛,向寰球开发者凋谢报名通道。
本次大模型技术比赛咱们瞄准 智能交通方向 ,开源了Open-TransMind v1.0 给选手作为较量基线,为寰球挑战者切磋交换前沿大模型技术提供绝佳机会。
- 对于 Open-TransMind v1.0
百度在 2022 年中提出了对立特色示意优化技术(UFO:Unified FeatureOptimization),并公布了当年寰球最大视觉模型 VIMER-UFO 2.0(文心·CV 大模型),笼罩 20+ CV 根底工作,实现了 28 项公开数据集 SOTA,随后百度 Apollo 将 UFO 技术以及智能交通 AI 能力独特整合为多模态多场景多任务的文心交通大模型之【ERNIE-Traffic-TransMind】,可同时反对点云、视觉、文本三种模态,蕴含主动驾驶、车路协同、智慧交管、智能网联、智慧停车、智慧高速等多种场景下的百余种交通个性,并且创始式引入了文本图像对话的凋谢世界理解能力和文本图像模态转化能力,目前已陆续利用到了百度智能交通的各类解决方案和产品线中。
01 赛题背景|双赛道挑战降级 摸索大模型技术革新之道
近年来,智慧汽车、人工智能等产业倒退,为智能交通倒退发明了良好的倒退时机。智能交通相干技术曾经渗透到咱们的日常生活中,然而现有大模型的多任务处理模式以及传统的感知办法(如分类、检测、宰割等)无奈满足咱们对更广交通场景以及更高主动驾驶程度的追赶。咱们 从以后理论技术钻研中的关键问题登程 ,设置了 两大赛道:
赛道一:解决多任务、多数据间抵触的问题
之前支流的视觉模型生产流程,通常采纳单任务“trainfrom scratch”计划。每个工作都从零开始训练,各个工作之间也无奈互相借鉴。因为单任务数据有余带来偏置问题,实际效果过分依赖工作数据分布,场景泛化成果往往不佳。近两年蓬勃发展的大数据预训练技术,通过应用大量数据学到更多的通用常识,而后迁徙到上游工作当中,实质上是不同工作之间互相借鉴了各自学到的常识。基于海量数据取得的预训练模型具备较好的常识齐备性,在上游工作中基于大量数据 fine-tuning 仍然能够取得较好的成果。不过基于预训练 + 上游工作 fine-tuning 的模型生产流程,须要针对各个工作别离训练模型,存在较大的研发资源耗费。
百度提出的 VIMER-UFO All in One 多任务训练计划,通过应用多个工作的数据训练一个功能强大的通用模型,可被间接利用于解决多个工作。不仅通过跨工作的信息晋升了单个工作的成果,并且免去了上游工作 fine-tuning 过程。VIMER-UFO All in One 研发模式可被广泛应用于各类多任务 AI 零碎,以智慧城市场景为例,VIMER-UFO 能够用单模型实现人脸识别、人体和车辆 ReID 等多个工作的 SOTA 成果,同时多任务模型可取得显著优于单任务模型的成果,证实了多任务之间信息借鉴机制的有效性。
赛道二:对场景文本图像的了解与感知
在交通场景中高性能的图像检索能力对于交通执法、治安治理具备非常重要的作用,传统的图像检索形式通常应用先对图像进行属性辨认再通过与冀望属性的比照实现检索能力。随着多模态大模型技术的倒退,文本与图像的表征对立和模态转换已有广泛应用,应用该能力能够进一步 晋升图像检索的精度和灵活性。
02 赛题详情
赛道一:对立多任务大模型赛道
本赛道旨在解决多任务、多数据的合并抵触问题。对于设计精良的网络结构和损失函数,多个工作独特训练能大幅晋升模型的泛化性。因为特定工作的数据存在 noise,仅应用繁多工作的数据进行训练,存在过拟合的危险。对立多任务大模型通过将多个工作的数据整合进行对立训练,可能对不同工作的 noise 做一个均匀,进而使模型学到更好的特色。为了进一步摸索对立多任务大模型的能力下限,本赛道 以交通场景典型工作为题,笼罩了分类、检测、宰割三大类 CV 工作至繁多大模型中,使得繁多大模型具备能力的同时取得当先于特定单任务模型的性能。 最终 All in One 大模型在分类、检测、宰割工作上的加权指标会作为获奖规范。
较量工作
本赛题则基于交通场景,抉择了分类、检测、宰割三大代表性工作进行 All in One 联结训练。参赛选手们须要依据给出的分类、检测、宰割三工作的数据集,应用对立大模型进行 All in One 联结训练,使得繁多模型可能具备分类、检测、宰割的能力。
数据集介绍
赛道二:跨模态图像检索赛道
本赛道旨在 晋升文本图像检索的精度。在交通场景中高性能的图像检索能力对于交通执法、治安治理具备非常重要的作用,传统的图像检索形式通常应用先对图像进行属性辨认再通过与冀望属性的比照实现检索能力。随着多模态大模型技术的倒退,文本与图像的表征对立和模态转换已有广泛应用,应用该能力能够进一步晋升图像检索的准确性和灵活性。
较量工作
本赛道旨在晋升交通场景中文本图像检索的精度。因而咱们将多种公开数据集中的交通参与者图像进行了文本形容标注从而 构建了多对多的图像 - 文本对,选手能够在此基础上进行多模态技术的钻研工作,晋升文本检索图像的精度。
数据集介绍
本赛题构建了一个多交通参与者的文本检索图像数据集,该数据集以开源数据集为根底,同时应用网络爬虫技术裁减数据的丰盛度。在标注方面,首先利用 CV 大模型丰盛图像标注属性,而后利用大语言模型结构图像对应的文本标注。目前数据集的总量有 153766 张,其中训练集 136155 张,评测集 17611 张。数据集蕴含行人和车辆 2 大类,数据分布具体见下表:
为了升高研究者参加挑战赛的门槛,咱们为每个赛道提供了数据阐明、评估指标与复现脚本,更多详细信息请关注文末大赛详情页。
03 赛程次要安顿
04 奖项设置
本次大赛 总奖池 10,000 美元 ,每个赛道奖池各 5,000 美元。两个赛道中取得前三名的团队均会予以丰富的资金处分,同时获奖团队将会受邀加入在 加拿大温哥华举办的 CVPR 2023 Foundation Model Workshop 颁奖典礼 (也可线上加入), 在 workshop 上宣讲团队技术计划、提交论文(能够不通过 cmt 零碎提交,仅限 extended abstract 论文)。
05 大赛加油站|技术、平台、收费算力,百度间断三年助力 CVPR 大模型比赛!
作为人工智能技术畛域的领军者与深耕者,百度在大模型技术畛域领有弱小的技术劣势和深厚利用积攒。通过此次比赛,百度冀望与寰球开发者就大模型技术开展宽泛交换与学习,独特推动大模型技术的倒退。
百度飞桨作为中国首个自主研发、功能丰富、开源凋谢的产业级深度学习平台,为本次比赛参赛者提供了平台和 GPU 算力等技术支持,助力 AI 人才破除参赛枷锁。除了“以赛促学”、通过比赛开掘 AI 人才外,百度以飞桨为翻新基座构建起涵盖学习、实际、较量、认证、待业在内的全周期服务体系。
往年的比赛为各位参赛者提供了丰盛的参赛专属福利:报名即可收费申领 100h Tesla V100 GPU 算力(团队中每位成员均可支付)。
大模型技术在智能交通畛域的翻新,将一直满足人们对于平安便捷、高质量出行的期待。CVPR 2023 大模型赛道为寰球各地的参赛者们提供了现实的展现技术和翻新的舞台。咱们诚挚欢送智能交通、大模型畛域的专业人士、钻研人员、学生以及相干企业加入本次比赛,为解决交通畛域要害科技问题关上新视角、产生新思维、提出新办法。期待在 CVPR 2023 颁奖典礼上与您相见!