关于计算机视觉:华为联合北大悉尼大学对-Visual-Transformer-的最新综述

61次阅读

共计 1723 个字符,预计需要花费 5 分钟才能阅读完成。

作者 | CV 君
报道 | 我爱计算机视觉(微信 id:aicvml)

Transformer 技术最开始起源于自然语言解决畛域,但往年 5 月份 Facebook 的一篇文章将其利用于计算机视觉中的指标检测 (DETR 算法,目前已有 78 次援用) 使其大放异彩,并迅速失去 CV 钻研社区的关注。

已有钻研表明,Transformer 在计算机视觉畛域不仅实用于高级工作如图像分类、指标检测、车道线检测等,在低级工作如图像增强中也获得了突破性停顿,毫无疑问,Transformer 是目前计算机视觉畛域最值得关注的方向之一。

一时间,在各种视觉工作 + Transformer 的论文正如雨后春笋般涌出。

明天,来自华为诺亚方舟实验室、北京大学、悉尼大学的学者颁布论文 A survey on Visual Transformer,对该畛域进行了较为零碎的文献总结,置信对于想要钻研、应用 Visual Transformer 技术必定会有帮忙。

该文作者信息:

Transformer 技术倒退的里程碑事件:

Transformer 的重要事件

下表列出了 Visual Transformer 代表作品:

Transformer 曾经进入的视觉方向:图像分类、指标检测、宰割、图像增强、图像生成、视频修补、视频形容等,为解决 Transformer 计算效率问题,业界也有多篇论文提出了新的改良。以推动 Transformer 在 CV 工业界的尽快落地。

Transformer 是什么?

Transformer 的提出最开始用于机器翻译,下图展现了原汁原味 Transformer 的构造:

用于晚期自然语言解决工作的 Transformer 架构图

这里输出是一种语言的句子,每个单词变换为 512 维的向量嵌入,Transformer 时对其进行屡次的编码和解码,编码模块中每一个编码器 Encoder 把上一阶段的后果进行编码,最初一个编码器将数据通过多个解码器 Decoder 进行解码,解码器之间也进行串联,最初一个解码器输入另一种语言的句子。

每一个编码器 Encoder 内含有自注意力(self-attention layer)层和一个前馈神经网络(feed-forward neural network)模块。每一个解码器含有自注意力(self-attention layer)层、编码器 - 解码器注意力层和一个前馈神经网络(feed-forward neural network)模块。

Transformer 的具体结构图

基于 Transformer 的语言模型 取得了胜利利用:

基于 Transformer 构建的代表性语言模型列表

Vision Transformer(ViT,出自谷歌论文 An image is worth 16×16 words: Transformers for image recognition at scale)示意图:

Vision Transformer 框架

IPT 的架构图

分类工作上,在 JFT300M 数据集上预训练的 Vision Transformer 在多个图像识别基准上靠近或优于 SOTA,在 ImageNet 上达到 88.36% 的准确率,在 CIFAR-10 上达到 99.50%,在 CIFAR-100 上达到 94.55%,在 VTAB 套件的 19 个工作上达到 77.16%。

iGPT、ViT、BiT- L 的具体后果如下表:

Transformer 用于指标检测突破性算法 DETR(出自 Facebook 论文 End-to-end object detection with transformers)流程图:

DETR 的整体架构

为使得 Visual transformer 模型参数量和计算量更小,使其更具实用性,业界提出了不少算法。

下表列举了基于 transformer 的模型压缩代表作:

作者指出了一些将来的钻研方向:

开发更适宜视觉工作的 transformer 模型;

自然语言解决中的 transformer 往往一个模型能够在多个工作中无效,CV 畛域中也值得摸索;

钻研更加计算高效的 transformer。

全文参考 156 篇文献,欢送下载查看详情。

https://arxiv.org/abs/2012.12556

点击浏览原文亦可中转。

或者在我爱计算机视觉公众号后盾回复“transformer”,即可收到下载地址。

正文完
 0