关于人工智能:一幅图像能顶16×16字用于大规模图像缩放识别的变压器对ICLR-2021年论文的简要回顾

9次阅读

共计 2357 个字符,预计需要花费 6 分钟才能阅读完成。

作者 |Stan Kriventsov
编译 |Flin
起源 |medium

在这篇博文中,我想在不作太多技术细节的状况下,解释其作者提交给 2021 ICLR 会议的新论文“一张图等于 16×16 个字:用于大规模图像识别的变压器”的意义(目前为止匿名)。

另一篇文章中,我提供了一个示例,该示例将这种新模型(称为 Vision Transformer,视觉变压器)与 PyTorch 一起用于对规范 MNIST 数据集进行预测。

自 1960 年以来深度学习(机器学习利用神经网络有不止一个暗藏层)曾经问世,但促使深度学习真正来到了前列的,是 2012 年的时候 AlexNet,一个卷积网络(简略来说,一个网络,首先查找小的图案在图像的每个局部,而后尝试将它们组合成一张整体图片),由 Alex Krizhevsky 设计,博得了年度 ImageNet 图像分类比赛的冠军。

  • AlexNet:https://en.wikipedia.org/wiki…
  • ImageNet 图像分类比赛:https://en.wikipedia.org/wiki…

在接下来的几年里,深度计算机视觉技术经验了一场真正的反动,每年都会呈现新的卷积体系结构(GoogleNet、ResNet、DenseNet、EfficientNet 等),以在 ImageNet 和其余基准数据集(如 CIFAR-10、CIFAR-100)上创下新的精度记录。

下图显示了自 2011 年以来 ImageNet 数据集上机器学习模型的最高精度(第一次尝试时正确预测图像所含内容的准确性)的停顿状况。

然而,在过来的几年里,深度学习最乏味的倒退不是在图像畛域,而是在自然语言解决(NLP)中,这是由 Ashish Vaswani 等人在 2017 年的论文“注意力是你须要的所有”中首次提出的。

  • 论文地址:https://arxiv.org/abs/1706.03762

注意力的思维,指的是可训练的权重,模仿输出句子不同局部之间的每个连贯的重要性,对 NLP 的影响相似于计算机视觉中的卷积网络,极大地提高了机器学习模型对各种语言工作(如自然语言了解)的成果还有机器翻译的成果。

注意力之所以对语言数据特地无效,是因为了解人类语言通常须要跟踪长期依赖关系。咱们可能会先说“咱们达到了纽约”,而后说“城市的天气很好”。对于任何人类读者来说,应该很分明,最初一句话中的“城市”指的是“纽约”,但对于一个只基于在左近数据(如卷积网络)中找到模式的模型,这种分割可能无奈检测。

长期依赖性的问题能够通过应用递归网络来解决,例如 LSTMs,在变压器到来之前,LSTMs 实际上是 NLP 中的顶级模型,但即便是那些模型,也很难匹配特定的单词。

变压器中的全局注意力模型掂量了文本中任意两个单词之间每一个连贯的重要性,这解释了它们性能的优越之处。对于注意力不那么重要的序列数据类型(例如,日销售额或股票价格等时域数据),递归网络依然具备很强的竞争力,可能仍是最佳抉择。

尽管在 NLP 等序列模型中,远距离对象之间的依赖关系可能具备非凡的意义,但在图像工作中,它们必定不能被疏忽。要造成一幅残缺的图画,通常须要理解图像的各个局部。

到目前为止,注意力模型在计算机视觉中始终体现不佳的起因在于缩放它们的难度(它们的缩放比例为 N²,因而 1000×1000 图像的像素之间的全套注意力权重将具备一百万项)。

兴许更重要的是,事实上,与文本中的单词相同,图片中的各个像素自身并不是很有意义,因而通过注意力将它们连接起来并没有太大作用。

这篇新论文提出了一种办法,即不关注像素点,而是关注图像的小块区域(可能是题目中的 16×16,只管最佳块尺寸实际上取决于模型的图像尺寸和内容)。

下面的图片(摘自论文)显示了视觉变压器的工作形式。

通过应用线性投影矩阵将输出图像中的每个色块展平,并向其增加地位嵌入(学习的数值,其中蕴含无关该色块最后在图像中的地位的信息)。这是必须的,因为变压器会解决所有输出,而不思考其程序,因而领有此地位信息有助于模型正确评估注意力权重。额定的类标记连贯到输出(图像中的地位 0),作为要在分类工作中预测的类的占位符。

相似于 2017 版,该变压器编码器由多个注意力,规范化和齐全连贯的层组成,这些层具备残差(跳过)连贯,如图中的右半局部所示。

在每个关注区域中,多个头部能够捕捉不同的连贯模式。如果你有趣味理解无关变压器的更多信息,我倡议浏览 Jay Alammar 撰写的这篇杰出的文章。

  • http://jalammar.github.io/ill…

输入端齐全连贯的 MLP 头可提供所需的类别预测。当然,与当今一样,主模型能够在大型图像数据集上进行预训练,而后能够通过规范的迁徙学习办法将最终的 MLP 头微调为特定工作。

新模型的一个特点是,只管依据本文的钻研,它比卷积办法更无效地以更少的计算量取得雷同的预测精度,但随着它承受越来越多的数据训练,其性能仿佛在一直进步,这比其余模型更甚。

这篇文章的作者在一个蕴含 3 亿的公有 googlejft-300M 数据集上训练了视觉变换器图像,从而在许多基准测试中都取得了最先进的准确性。人们能够期待这个事后训练过的模型很快就会公布进去,以便咱们都能够试用。

  • 数据集:https://arxiv.org/abs/1707.02968

看到神经注意力在计算机视觉畛域的新利用,切实太令人兴奋了!心愿在将来的几年里,在这种倒退的根底上,能获得更大的提高!

原文链接:https://medium.com/swlh/an-im…

欢送关注磐创 AI 博客站:
http://panchuang.net/

sklearn 机器学习中文官网文档:
http://sklearn123.com/

欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/

正文完
 0