关于图像识别:CVPR-2022字节跳动多项竞赛夺冠模拟人脑感知长视频理解挑战双料冠军

4次阅读

共计 4608 个字符,预计需要花费 12 分钟才能阅读完成。

作为一年一度 AI 计算机视觉畛域的顶级盛会,CVPR 2022 曾经落下帷幕。

字节跳动旗下的极光 - 多模态技术团队、智能创作团队、火山引擎多媒体实验室团队斩获了多项比赛冠军,笼罩「视觉问答」、「图像实例宰割」、「长视频内容了解」、「图片复原」,以及「图片视频压缩技术」等场景。

其中,两项研究成果有助于视障人群克服日常生活中的视觉挑战、晋升残障人士出行的安全性,助力打造无障碍环境。‍

帮忙视障人士精准「识图」,视觉问答比赛高精度技术计划夺冠

「视觉问答」是通向多模人工智能的一项根底挑战。

一个天然的利用就是帮忙视障人群克服他们日常生活中的视觉挑战,如视障群体通过手机镜头捕捉视觉内容,再通过语言对镜头中的内容发动发问。AI 算法须要辨认和形容物体或场景,并以自然语言的形式进行答复。

在 CVPR 2022 上,权威视觉问答比赛 VizWiz 提出了新的挑战:AI 在答复(Talk)无关的视觉问题时,必须准确地高亮出(Show)相应的视觉证据。

凭借端到端的 DaVI(Dual Visual-Linguistic Interaction)视觉语言交互新范式,字节跳动极光 - 多模态技术团队胜利拿下 VizWiz 2022 Answer Grounding 比赛的第 1 名,相干论文也被 CVPR 2022 Workshop 接管。

具体技术计划见:https://drive.google.com/file…

VizWiz 大赛曾经举办了 4 届,主办学者来自卡内基梅隆大学(CMU)、华盛顿大学、科罗拉多大学、微软和苹果,在多模态视觉问答畛域有深厚的学术成就和技术积淀。

极光 - 多模态团队专一于医学人工智能的钻研,致力于通过影像、语音、文本等大数据打造业界顶尖人工智能企业医疗平台,团队积极参与前沿技术的钻研和落地,参加发表柳叶刀、MICCAI、AAAI 等多篇医疗畛域和计算机视觉畛域的顶会顶刊论文,并取得多项国内医疗 AI 比赛冠军。

本届比赛中,极光 - 多模态团队与来自国内外出名钻研机构和高校的 60+ 团队同台竞技,包含 Google DeepMind、纽约大学、浪潮国家重点实验室、西安电子科技大学和特拉华大学等。

夺冠计划的精度相比基线算法晋升 43.14%,当先在多模畛域深耕已久的 DeepMind 团队 3.65%。‍

无障碍出行更平安!AVA 较量夺冠

在基于合成数据的实例宰割挑战赛(Accessibility Vision and Autonomy Challenge,下文简称 AVA) 中,字节跳动智能创作 AI 平台「Byte-IC-AutoML」团队怀才不遇,成为该较量惟一赛道的冠军。

具体技术计划见:https://arxiv.org/abs/2206.10845

本届 AVA 比赛由波士顿大学 (Boston University) 和卡耐基梅隆大学 (Carnegie Mellon University) 联结举办。

比赛通过渲染引擎失去一个合成的实例宰割数据集,其中蕴含与残疾行人交互的自治零碎的数据样例。比赛指标是为无障碍相干人与物提供指标检测和实例宰割的基准和办法。

Byte-IC-AutoML 团队提出了一个 Parallel Pre-trained Transformers (PPT)框架,框架次要由:1)并行的大规模预训练的 Transformers;2)Balance Copy-Paste 数据加强;3)像素级别的非极大值克制和模型交融三个模块组成,较好地解决了较量数据集存在的畛域泛化、长尾 / 少样本和宰割鲁棒性问题。

目前,城市和交通数据集次要是面向通用场景,只蕴含失常的交通工具和行人,数据集中不足残疾人、行动不便者及其辅助设施的类别,利用以后已有数据集失去的检测模型无奈检测出这些人与物体。

夺冠技术计划对目前主动驾驶和街道场景了解有广泛应用:通过这些合成数据失去的模型能够辨认出「轮椅」、「在轮椅上的人」、「拄拐杖的人」等少见的类别,岂但能更加精密地对人群 / 物体进行划分, 而且不会错判误判导致场景了解谬误。

此外,通过这种合成数据的形式,能够结构出真实世界中比拟少见类别的数据,从而训练更加通用,更加欠缺的指标检测模型。

模仿人脑感知,长视频了解挑战双料冠军

通用事件边界检测(Generic Event Boundary Detection,GEBD)赛道

认知科学钻研表明,人类大脑会感知事件的边界,将事件划分若干语义靠近的子单元。

在这个背景下,CVPR2022 在长视频了解挑战中提出的 GEBD 赛道,旨在模仿人脑,感知视频中各事件的变动,将整个视频宰割为若干绝对独立的,且通用、无分类 (taxonomy-free) 的事件边界。

凭借自研的 SC-Transformer++ 框架,字节跳动智能创作—视觉智能团队夺得该项赛道冠军。

团队在 Structured Context Transformer(SC-Transformer)根底上进行了改良和优化,提出了 SC-Transformer++ 框架来实现这一挑战。

SC-Transformer++ 次要由五个模块组成:

  • 用于视频信息特征提取的 Backbone;
  • 用于提取视频时序上下文信息的 SC-Transformer;
  • 用于边界检测的 Boundary-Prediction;
  • 用于边界帧类别检测的 Category-Prediction;
  • 用于检测后果交融的 Final-Selection。

可能较好地对间断的长视频在时序上建模并捕获时序上下文信息,并帮忙模型更好地了解视频中事件变动的边界,学习各事件简单的语义。

具体技术计划见:https://arxiv.org/abs/2206.12634

在理论利用中,通用事件边界检测将中长视频拆分为若干短视频片段。

因为许多视频了解相干的算法都是基于短视频片段进行的,将中长视频拆分为若干条较短的片段在视频了解算法链路上具备重要意义。

通用事件边界形容赛道(Generic Event Boundary Captioning Challenge,GEBC)

通用事件边界形容是一项具备挑战性的多模态了解工作,是视频了解更精细化的重要一步。

传统的视频形容的目标是了解整个视频片段,而通用事件边界形容只关注视频中霎时触发场景状态变动的时刻,旨在主动生成给定视频边界时刻的状态、边界时刻之前的状态和之后的状态的形容。

智能创作—视觉智能团队提出了一个 Dual-Stream Transformer(DST)框架,并夺得比赛冠军。

DST 次要由多模态特征提取模块和多模态特色交融编码模块两个局部组成。

1、多模态特征提取模块

为了失去更好的视觉特色示意,团队应用了三种不同的特征提取器提取不同维度的视觉特色:

(1)应用在 4 亿「图像 - 文本」对上预训练过的 CLIP 提取视频的外观特色;
(2)应用在 Kinetics400 数据集上预训练过的 VideoSwin 提取视频的静止特色;
(3)应用在 Visual Genome 数据集上预训练过的 Faster R-CNN 提取视频的区域特色。

同时,应用在 Wikipedia 上预训练过的 Glove 模型对文本进行编码,这里的文本次要蕴含视频的类别信息和视频的形容。

2、多模态特色交融编码模块

为了实现不同模态信息的充沛交融,团队设计了一个基于 Transformer 的双分支网络结构,一个分支的输出为视频的外观特色、静止特色以及文本,另一个分支的输出为区域特色和文本。

网络结构中的自注意力模块负责同一分支中不同特色的特色对齐,穿插注意力模块负责不同分支的特色之间的特色交互。

最初,两个分支都输入各自的预测文本,并通过穿插熵损失函数实现模型训练。

图片复原技术哪家强,NTIRE ESR 挑战赛主赛道夺冠

New Trends in Image Restoration and Enhancement(NTIRE)是近年来计算机图像复原畛域最具影响力的全球性赛事。

智能创作音视频团队凭借自研的 RLFN 算法从 43 支队伍中怀才不遇,拿下 NTIRE 2022 Challenge on Efficient Super-Resolution(ESR)主赛道冠军,在子赛道 Overall Performance 也位列第二。

比赛旨在设计一种网络:在维持 Peak Signal-to-Noise Ratio(PSNR)指标与 Baseline 相当程度的同时(PSNR 在验证集放弃 29.00dB),从运行工夫、参数量、FLOPs、Activations 以及内存占用等方面进行至多一个维度的优化。

其工作以 4 倍超分为基准,验证集以及测试集均为 DIV2K,下采样形式为 bicubic。

团队在基于 Convolutional Neural Network(CNN)的 RFDN 构造根底上,提出了一个更高效的网络结构 RLFN,在推理速度和成果之间获得良好的均衡,并且从新思考 contrastive loss 的应用,设计了一个更适宜超分工作的浅层特征提取器,此外还提出了更无效的多阶段 warm-start 训练策略。

具体技术计划见:http://arxiv.org/abs/2205.07514

智能创作是字节跳动的多媒体翻新科技研究所和综合型服务商。笼罩了计算机视觉、图形学、语音、拍摄编辑、特效、客户端、AI 平台、服务端工程等技术畛域,在部门外部实现了前沿算法 - 工程零碎 - 产品全链路的闭环,旨在以多种形式向公司外部各业务线以及内部单干客户提供业界最前沿的内容了解、内容创作、互动体验与生产的能力和行业解决方案。

团队技术能力正通过火山引擎对外开放。

基于深度学习的图像压缩大赛:高、低码率双赛道夺冠

(Challenge on Learned Image Compression,CLIC)

随着以深度学习为代表的新一代人工智能技术一直获得冲破,基于深度学习的图像视频压缩技术被视为超过传统压缩技术能力极限的明日之星。

CLIC 旨在激励基于深度学习的图像视频压缩技术的钻研,展现深度学习技术在图像视频压缩畛域的最新进展,为深度学习技术在压缩畛域的进一步摸索指明方向。

火山引擎多媒体实验室团队的参赛平台 Neutron Star(中子星)在高码率视频压缩和低码率视频压缩两个赛道,主客观指标均以绝对优势夺冠。

另外,Neutron Star 在图像赛道以峰值信噪比(PSNR)计算的主观指标排名第一。

火山引擎 Neutron Star 平台有机交融了传统压缩技术与深度学习压缩技术。

针对传统编码模块,火山引擎退出了非对称四叉树划分、历史仿射模型继承等翻新技术;针对智能编码模块,引入了基于深度学习的环路滤波、自适应变采样等技术。

通用仿真测试结果表明,相比最新的视频编码标准 H.266/VVC,火山引擎 Neutron Star 平台对编码效率的晋升均匀超过 28%。

具体技术计划见:A Neural-Network Enhanced Video Coding Framework Beyond VVC

火山引擎多媒体实验室致力于钻研、摸索多媒体畛域的前沿技术,参加国内、国内多媒体方向的标准化工作,为多媒体内容分析、解决、压缩、传输、翻新交互等畛域提供软硬件解决方案,泛滥翻新算法曾经广泛应用在抖音、西瓜视频等产品的点播、直播、实时通信、图片等多媒体业务,并向火山引擎的企业级客户提供技术服务。

火山引擎是字节跳动旗下的云服务平台,将字节跳动疾速倒退过程中积攒的增长办法、技术能力和工具凋谢给内部企业,提供云根底、视频与内容散发、大数据、人工智能、开发与运维等服务,帮忙企业在数字化降级中实现持续增长。

正文完
 0