关于人工智能:ECCV2022-Oral任务范式大统一微软提出UniTAB用Seq2Seq模式统一多模态任务

3次阅读

共计 6116 个字符,预计需要花费 16 分钟才能阅读完成。

【写在后面】

作者提出了对立文本和框输入的 UniTAB,用于根底视觉语言 (VL) 建模。ground 的 VL 工作(例如 grounded captioning)须要模型生成文本形容并将预测的单词与对象区域对齐。为此,模型必须同时生成所需的文本和框输入,同时批示单词和框之间的对齐形式。与应用多个独自模块用于不同输入的现有解决方案相比,UniTAB 应用共享 token 序列示意文本和框输入,并引入非凡的 \<obj> token 以天然地批示序列中的单词框对齐。UniTAB 因而能够通过将生成的单词自在地定位到对象区域来提供更全面和可解释的图像形容。在 grounded captioning 方面,UniTAB 提供了一种具备单个输入头的更简略的解决方案,并且在 grounding 和 captioning 评估方面显著优于现有技术。在具备不同所需输入格局(即文本、框或它们的组合)的个别 VL 工作上,具备单个网络的 UniTAB 比特定工作的现有技术实现了更好或相当的性能。试验涵盖 7 个 VL 基准。此外,UniTAB 的对立多任务网络和与工作无关的输入序列设计使模型参数高效且可推广到新工作。

1. 论文和代码地址

UniTAB: Unifying Text and Box Outputs for
Grounded Vision-Language Modeling

论文地址:https://arxiv.org/abs/2111.12085

代码地址:https://github.com/microsoft/UniTAB

2. Motivation

文本序列和边界框是图像了解工作的两种代表性输入格局。文本非常适合生成图像级预测,例如用句子形容图像或应用关键字标记图像,但无奈援用密集图像区域。另一方面,box 能够指向任何图像区域,但它提供语义丰盛的形容的能力无限。一个天然的问题是,是否有一个对立文本和框输入的模型,即在将预测词与框对齐的同时生成文本和框输入。对立这两种输入格局能够让模型更好地表白图片。以字幕为例,这样一个对立的模型能够将字幕中的所有名词实体返回到对齐的图像区域,从而提供更全面和可解释的图像形容。这个问题被称为 grounded captioning。此外,对立输入格局是朝着构建与工作无关的通用视觉零碎的雄伟愿景迈出的重要一步,该零碎具备参数效率和良好的泛化性。

最近的工作开发了能够生成文本和框输入的模型。具体来说,该零碎将预测框的在线或离线对象检测模块与生成文本的视觉语言模型相结合。而后别离生成单词和框对齐作为附加预测,例如相关性分数。别离预测文本、框和它们的对齐形式会减弱对立零碎的益处。独自的模块阻止了框架的简略和参数效率。此外,显式指标检测组件减少了模型运行工夫,并可能限度其在给定预设检测器词汇的状况下的泛化能力,如之前的 VL 钻研中所探讨的。除了这些胜利的初步摸索之外,作者还提出了一个更大胆的问题:是否在没有独自模块的状况下对立输入格局?具体来说,作者探讨 1)如何在没有显式检测器联结生成文本和框的状况下领有繁多架构 ,以及 2) 如何在输入中天然地示意词框对齐以防止额定的对齐预测。为此,作者将文本和框预测建模为自回归 token 生成工作,并提出在文本、框和对齐预测之间齐全共享的单个编码器 - 解码器模型。

本文的框预测建模灵感来自 Pix2seq,这是一项对象检测钻研,表明以自回归形式预测框会产生良好的检测性能。其核心思想是将每个 box 中的四个坐标量化为四个离散的 box token,并以固定的形式排列为 token 序列:$\left[y_{\min}, x_{\min}, y_{\max}, x_{\max}\right]$。而后能够将框预测建模为多步分类工作,而不是传统的坐标回归。与文本生成中雷同的分类建模使得对立文本和框预测成为可能。然而,Pix2seq 是为单模态指标检测工作而设计的,不反对开放式文本生成,也不反对多模态输出和输入。此外,尚不分明文本和框对齐如何以对立的程序出现。

在这项钻研中,作者提出了对立文本和框输入的 UniTAB。如上图所示,作者将开放式文本生成 和离散框标记预测对立到一个共享解码器中。在自回归解码期间,UniTAB 在任何要 ground 的文本词之后立刻切换到框标记,并在预测框后切换回文本标记。在 UniTAB 中,作者钻研如何解决这种文本框代码切换并天然地示意词框对齐。作者引入了一个非凡的 \<obj> token,插入到要 ground 的文本词之前,以及生成的框标记之后。\<obj> 标记通过提供 code-switching 提醒来简化序列生成,并且天然地示意词框对齐。也就是说,一对 \<obj> 标记中的单词和框指的是同一个实体,如上图中雷同色彩的单词框对所示。通过 \<obj> 标记和输入序列设计,UniTAB 靠近 ground VL 工作,例如应用单个解码器的 grounded captioning 和 phrase grounding,与应用多个输入头别离预测文本、框及其对齐形式造成比照。

作者进一步将 UniTAB 利用于个别 VL 工作 并察看到两个独特的属性。首先,文本、框和对齐预测的对立架构使 UniTAB 可能执行多任务训练,它为不同的 VL 工作学习一组参数,而无需引入特定于工作的头。多任务训练防止了特定于工作的模型正本,从而保留了要存储的参数。它还有助于在不同工作中应用数据,从而进步某些 VL 工作的性能。其次,如上图所示,UniTAB 的输入序列设计为与工作无关,并且在不同的 VL 工作中共享雷同的文本 + 框设计。与工作无关的输入设计能够帮忙 UniTAB 泛化到某些看不见的工作,办法是将新工作的所需输入从新格式化为可见的文本 + 框序列。

作者在 7 个 VL 基准上评估 UniTAB,包含 grounded captioning、visual grounding、image captioning 和视觉问答,所有这些都具备单个编码器 - 解码器网络架构,由穿插熵语言建模指标训练。借助对立的框架和最低限度的特定工作假如,本文的模型能够实现与特定工作的现有技术更好或相当的性能。在 grounded captioning 中,UniTAB 不仅通过打消独自的工作特定头提供了一种更简略的解决方案,而且还显着优于现有技术。本文的奉献总结如下:

  • UniTAB 是第一个能够解决宽泛工作的 ground VL 模型,包含具备挑战性的 grounded captioning,而无需独自的输出模块。作者引入了 \<obj> token,它能够帮忙文本和框输入协同工作,并天然地示意它们的对齐形式。
  • UniTAB 在 7 个 VL 基准测试中实现了与现有技术更好或相当的性能。其对立的多任务网络和与工作无关的输入序列设计使其参数高效且可推广到新工作。

3. 办法

3.1 Architecture Overview

作者应用构建在单模态图像和文本编码器之上的 Transformer 编码器 - 解码器架构来实现 UniTAB,如上图所示。对于图像,作者应用 ResNet-101 对原始图像输出 v 进行编码,并将网格特色展平作为视觉示意。对于文本,应用 $RoBERTa_{BASE}$ 将输出文本 l 编码为暗藏词特色。作者应用一个 6 层的 Transformer 编码器,它接管 concat 的图像和文本特色序列作为输出,以及用于生成输入序列的 6 层 Transformer 解码器。解码器以自回归形式生成输入 token,相似于语言建模。UniTAB 解码器能够从文本和方框词汇中生成 token,如上图右侧所示。

3.2 UniTAB Target Output Sequence

作者展现了如何构建实在的指标输入序列,使得文本和框能够用蕴含在行内的词框对齐来联结示意。

Box token sequence

作者首先回顾 Pix2seq 中引入的边界框量化办法。如上图底部所示,二维图像中的矩形边界框能够用四个浮点数示意,即 $\left[x_{\min}, y_{\min}, x_{\max}, y_{\max}\right]$。已建设的对象检测范式预测四个间断浮点值以在单个步骤中回归坐标。相比之下,Pix2seq 将每个坐标量化为一个 $n_{\text {bins}}$ 个 离散 bin,并用顺序排列的四个标记示意每个框。作者采纳相似的想法,将每个框示意为四个离散的 token

其中 \<x>,\<y> 是量化的框 token,范畴从 $\left\langle0\right\rangle$,到 $\left\langle n_{\text {bins}}-1\right\rangle$。

Unified decoding sequence with \<obj> token

本文的指标是有一个对立的解码序列 s 能够联结示意文本和框,同时示意词框对齐。对于前者,作者对立了文本和框词汇表,这样单个解码器就能够在任何解码步骤中自在生成文本或框 token。具体来说,UniTAB 的解码词汇蕴含文本和框 token,大小为 $n_{\text {text}}+n_{\text {bins}}+2$。$n_{\text {text}}$ 和 $n_{\text {bins}}$ 是文本词汇大小和坐标 bin 的数量。作者对所有四个框坐标应用雷同的 $n_{\text {bins}}$ 个框 token。每个解码步骤的输入 token 抉择是在整个对立词汇表上进行的。

剩下的问题是如何示意输入序列中的词 - 框对齐。作者没有用额定的对齐分数预测,而是应用两个引入的非凡 token \<obj> 和 <\obj> 内联示意词框对齐。具体来说,模型在任何要 ground 的文本词之后立刻切换到框 token,并别离在第一个文本词之前和最初一个框 token 之后插入 \<obj> token。例如,在上图中,作者将纯文本题目中的文本短语“a donut”扩大为扩大指标中的“\<obj> a donut <90> <83> <184> <180> <\obj>”序列,其中 90, 83, 184, 180 是蓝色框的量化框坐标。而后能够很容易地从预测序列中提取词框对齐,即,一对 \<obj> token 中的词和框指的是同一实体,例如“a donut”。

3.3 UniTAB Training

Objective

作者应用繁多语言建模指标训练模型,即在每个解码步骤 t 中,最大化指标 token $s_t$ 以输出图像 v、输出文本 l 和先前指标 token$S<t$ 为条件的可能性:

其中 θ 示意模型参数,T 是指标序列长度。

Training stages

UniTAB 的对立构造有助于应用雷同语言建模指标的预训练和微调。作者最多训练三个阶段的 UniTAB。第一个是 视觉语言预训练 ,它利用大规模图像文本数据集可选地带有 ground 框正文。而后,执行 多任务微调 ,将多个带有监督正文的上游工作数据汇合并,为不同的 VL 工作微调单个模型。最初,进行 特定于工作的微调,使模型适应每个特定工作以进一步改良。这三个阶段的训练指标雷同,但具备不同的训练语料库和输入输出设计。

1.Pre-training

预训练旨在应用与上游工作涣散相干的大规模数据进行通用 VL 示意学习。应用繁多语言建模指标对模型进行预训练,以预测指标序列 s,以图像 v 和输出文本 l 为条件。作者将输出文本 l 随机设置为空字符串或纯文本图像形容,雷同的概率为 0.5。训练模型生成上图所示的文本 + 框序列。因而,该模型在预训练期间学习执行相似 captioning(应用空字符串输出)和相似 grounding(应用图像形容输出)的 VL 工作。

2.Multi-task finetuning

多任务微调旨在应用来自多个上游工作数据集的监督正文来训练单个模型,从而防止特定工作的模型复制并进一步提高模型性能。UniTAB 的对立架构和训练指标促成了多任务微调的独特属性。多任务微调不是让预训练模型有多个正本,每个正本都针对上游工作进行了优化,而是训练一组参数来执行所有不同的 VL 工作。作者从所有 7 个实验性 VL 工作中收集监督数据正文,并应用语言建模指标训练单个模型。多任务微调的一个次要长处是单个模型能够反对多个 VL 工作,从而节俭模型参数。多任务微调还能够通过应用来自不同工作的正文来进步某些上游工作的性能。

3.Task-specific finetuning

UniTAB 还能够执行规范的特定工作微调,如 VLP 钻研。此外,作者察看到多任务微调不仅会生成在不同 VL 工作中体现良好的单个模型,而且还能够作为第二阶段特定工作微调的良好初始化点。作者将此设置称为“预微调”。

Inference

作者应用 argmax 采样来取得序列预测。而后,从离线序列中提取文本和框预测以进行最终评估。例如,作者抛弃框 token 以取得文本预测,并去量化框 token 以取得框预测。最初,作者在每个上游工作上评估模型及其所需的输入格局,例如,用于 VQA 的文本、用于 visual ground 的框,或用于 ground captioning 的文本和框。

4. 试验

上表展现了 Flickr30k 实体测试集上的 Grounded image captioning 后果。

上表展现了 REC 工作和 phrase grounding 工作的试验后果。

上表为 Karparthy 测试拆分的 COCO 图像字幕后果。

上表为 VQA v2 上的视觉问答后果。

上表为 UniTAB 及其变体取得的后果。

上表为 ImageNet 上的 Zero-Shot 指标定位后果。

应用额定的图像 - 文本对进行 UniTAB 预训练后果。

上图为 UniTAB 的定性后果。

5. 总结

作者提出了对立文本和框输入的 UniTAB,用于 ground VL 建模。应用非凡的 \<obj> token,UniTAB 能够生成文本和框预测,字框对齐天然地示意在输入序列中。对立文本和框输入使模型可能更好地解决 ground 的 VL 工作,例如 grounded captioning。此外,对立的多任务网络和与工作无关的输入序列设计使 UniTAB 参数高效且可推广到新工作。作者看到了 UniTAB 的微小后劲,并置信它为构建具备更强智能的视觉零碎铺平了路线。

【技术交换】

已建设深度学习公众号——FightingCV,关注于最新论文解读、基础知识坚固、学术科研交换,欢送大家关注!!!

请关注 FightingCV 公众号,并后盾回复 ECCV2022 即可取得 ECCV 中稿论文汇总列表。

举荐退出 FightingCV交换群 ,每日会发送论文解析、算法和代码的干货分享,进行学术交流,加群请增加小助手 wx:FightngCV666,备注: 地区 - 学校(公司)- 名称

面向小白的顶会论文外围代码库:https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向小白的 YOLO 指标检测库:https://github.com/iscyy/yoloair

【赠书流动】

为感激各位老粉和新粉的反对,FightingCV 公众号 将在 9 月 10 日包邮送出 4 本 《深度学习与指标检测:工具、原理与算法》 来帮忙大家学习,赠书对象为当日浏览榜和分享榜前两名。想要参加赠书流动的敌人,请增加小助手微信FightngCV666(备注“城市 - 方向 -ID”),不便分割取得邮寄地址。

本文由 mdnice 多平台公布

正文完
 0