关于计算机视觉:华为联合北大悉尼大学对-Visual-Transformer-的最新综述

作者 | CV 君
报道 | 我爱计算机视觉（微信 id：aicvml）

Transformer 技术最开始起源于自然语言解决畛域，但往年 5 月份 Facebook 的一篇文章将其利用于计算机视觉中的指标检测 (DETR 算法，目前已有 78 次援用) 使其大放异彩，并迅速失去 CV 钻研社区的关注。

已有钻研表明，Transformer 在计算机视觉畛域不仅实用于高级工作如图像分类、指标检测、车道线检测等，在低级工作如图像增强中也获得了突破性停顿，毫无疑问，Transformer 是目前计算机视觉畛域最值得关注的方向之一。

一时间，在各种视觉工作 + Transformer 的论文正如雨后春笋般涌出。

明天，来自华为诺亚方舟实验室、北京大学、悉尼大学的学者颁布论文 A survey on Visual Transformer，对该畛域进行了较为零碎的文献总结，置信对于想要钻研、应用 Visual Transformer 技术必定会有帮忙。

该文作者信息：

Transformer 技术倒退的里程碑事件：

Transformer 的重要事件

下表列出了 Visual Transformer 代表作品：

Transformer 曾经进入的视觉方向：图像分类、指标检测、宰割、图像增强、图像生成、视频修补、视频形容等，为解决 Transformer 计算效率问题，业界也有多篇论文提出了新的改良。以推动 Transformer 在 CV 工业界的尽快落地。

Transformer 是什么？

Transformer 的提出最开始用于机器翻译，下图展现了原汁原味 Transformer 的构造：

用于晚期自然语言解决工作的 Transformer 架构图

这里输出是一种语言的句子，每个单词变换为 512 维的向量嵌入，Transformer 时对其进行屡次的编码和解码，编码模块中每一个编码器 Encoder 把上一阶段的后果进行编码，最初一个编码器将数据通过多个解码器 Decoder 进行解码，解码器之间也进行串联，最初一个解码器输入另一种语言的句子。

每一个编码器 Encoder 内含有自注意力（self-attention layer）层和一个前馈神经网络（feed-forward neural network）模块。每一个解码器含有自注意力（self-attention layer）层、编码器 - 解码器注意力层和一个前馈神经网络（feed-forward neural network）模块。

Transformer 的具体结构图

基于 Transformer 的语言模型 取得了胜利利用：

基于 Transformer 构建的代表性语言模型列表

Vision Transformer(ViT，出自谷歌论文 An image is worth 16×16 words: Transformers for image recognition at scale)示意图：

Vision Transformer 框架

IPT 的架构图

分类工作上，在 JFT300M 数据集上预训练的 Vision Transformer 在多个图像识别基准上靠近或优于 SOTA，在 ImageNet 上达到 88.36% 的准确率，在 CIFAR-10 上达到 99.50%，在 CIFAR-100 上达到 94.55%，在 VTAB 套件的 19 个工作上达到 77.16%。

iGPT、ViT、BiT- L 的具体后果如下表：

Transformer 用于指标检测突破性算法 DETR(出自 Facebook 论文 End-to-end object detection with transformers)流程图：

DETR 的整体架构

为使得 Visual transformer 模型参数量和计算量更小，使其更具实用性，业界提出了不少算法。

下表列举了基于 transformer 的模型压缩代表作：

作者指出了一些将来的钻研方向：

开发更适宜视觉工作的 transformer 模型；

自然语言解决中的 transformer 往往一个模型能够在多个工作中无效，CV 畛域中也值得摸索；

钻研更加计算高效的 transformer。

全文参考 156 篇文献，欢送下载查看详情。

https://arxiv.org/abs/2012.12556

点击浏览原文亦可中转。

或者在我爱计算机视觉公众号后盾回复“transformer”，即可收到下载地址。