关于计算机视觉:华为联合北大悉尼大学对-Visual-Transformer-的最新综述

作者 | CV君
报道 | 我爱计算机视觉（微信id：aicvml）

Transformer 技术最开始起源于自然语言解决畛域，但往年5月份Facebook 的一篇文章将其利用于计算机视觉中的指标检测(DETR算法，目前已有78次援用)使其大放异彩，并迅速失去CV钻研社区的关注。

已有钻研表明，Transformer 在计算机视觉畛域不仅实用于高级工作如图像分类、指标检测、车道线检测等，在低级工作如图像增强中也获得了突破性停顿，毫无疑问，Transformer 是目前计算机视觉畛域最值得关注的方向之一。

一时间，在各种视觉工作 + Transformer 的论文正如雨后春笋般涌出。

明天，来自华为诺亚方舟实验室、北京大学、悉尼大学的学者颁布论文 A survey on Visual Transformer，对该畛域进行了较为零碎的文献总结，置信对于想要钻研、应用Visual Transformer 技术必定会有帮忙。

该文作者信息：

Transformer 技术倒退的里程碑事件：

Transformer 的重要事件

下表列出了 Visual Transformer 代表作品：

Transformer 曾经进入的视觉方向：图像分类、指标检测、宰割、图像增强、图像生成、视频修补、视频形容等，为解决Transformer 计算效率问题，业界也有多篇论文提出了新的改良。以推动 Transformer 在CV工业界的尽快落地。

Transformer 是什么？

Transformer 的提出最开始用于机器翻译，下图展现了原汁原味 Transformer 的构造：

用于晚期自然语言解决工作的 Transformer 架构图

这里输出是一种语言的句子，每个单词变换为512维的向量嵌入，Transformer 时对其进行屡次的编码和解码，编码模块中每一个编码器Encoder把上一阶段的后果进行编码，最初一个编码器将数据通过多个解码器Decoder 进行解码，解码器之间也进行串联，最初一个解码器输入另一种语言的句子。

每一个编码器Encoder内含有自注意力（self-attention layer）层和一个前馈神经网络（feed-forward neural network）模块。每一个解码器含有自注意力（self-attention layer）层、编码器-解码器注意力层和一个前馈神经网络（feed-forward neural network）模块。

Transformer 的具体结构图

基于Transformer的语言模型取得了胜利利用：

基于Transformer构建的代表性语言模型列表

Vision Transformer(ViT，出自谷歌论文 An image is worth 16×16 words: Transformers for image recognition at scale)示意图：

Vision Transformer 框架

IPT的架构图

分类工作上，在 JFT300M 数据集上预训练的 Vision Transformer 在多个图像识别基准上靠近或优于 SOTA，在 ImageNet 上达到 88.36% 的准确率，在 CIFAR-10上达到 99.50%，在 CIFAR-100 上达到 94.55%，在 VTAB 套件的 19个工作上达到 77.16%。

iGPT 、 ViT 、BiT-L的具体后果如下表：

Transformer 用于指标检测突破性算法DETR(出自Facebook 论文 End-to-end object detection with transformers)流程图：

DETR 的整体架构

为使得Visual transformer 模型参数量和计算量更小，使其更具实用性，业界提出了不少算法。

下表列举了基于 transformer 的模型压缩代表作：

作者指出了一些将来的钻研方向：

开发更适宜视觉工作的transformer 模型；

自然语言解决中的transformer往往一个模型能够在多个工作中无效，CV畛域中也值得摸索；

钻研更加计算高效的transformer。

全文参考156篇文献，欢送下载查看详情。

https://arxiv.org/abs/2012.12556

点击浏览原文亦可中转。

或者在我爱计算机视觉公众号后盾回复“transformer”，即可收到下载地址。

关于计算机视觉:华为联合北大悉尼大学对-Visual-Transformer-的最新综述

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于计算机视觉:华为联合北大悉尼大学对-Visual-Transformer-的最新综述

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复