关于人工智能:一幅图像能顶16×16字用于大规模图像缩放识别的变压器对ICLR-2021年论文的简要回顾

47次阅读

共计 2357 个字符，预计需要花费 6 分钟才能阅读完成。

作者 |Stan Kriventsov
编译 |Flin
起源 |medium

在这篇博文中，我想在不作太多技术细节的状况下，解释其作者提交给 2021 ICLR 会议的新论文“一张图等于 16×16 个字：用于大规模图像识别的变压器”的意义（目前为止匿名）。

另一篇文章中，我提供了一个示例，该示例将这种新模型（称为 Vision Transformer，视觉变压器）与 PyTorch 一起用于对规范 MNIST 数据集进行预测。

自 1960 年以来深度学习（机器学习利用神经网络有不止一个暗藏层）曾经问世，但促使深度学习真正来到了前列的，是 2012 年的时候 AlexNet，一个卷积网络（简略来说，一个网络，首先查找小的图案在图像的每个局部，而后尝试将它们组合成一张整体图片），由 Alex Krizhevsky 设计，博得了年度 ImageNet 图像分类比赛的冠军。

AlexNet：https://en.wikipedia.org/wiki…
ImageNet 图像分类比赛：https://en.wikipedia.org/wiki…

在接下来的几年里，深度计算机视觉技术经验了一场真正的反动，每年都会呈现新的卷积体系结构（GoogleNet、ResNet、DenseNet、EfficientNet 等），以在 ImageNet 和其余基准数据集（如 CIFAR-10、CIFAR-100）上创下新的精度记录。

下图显示了自 2011 年以来 ImageNet 数据集上机器学习模型的最高精度（第一次尝试时正确预测图像所含内容的准确性）的停顿状况。

然而，在过来的几年里，深度学习最乏味的倒退不是在图像畛域，而是在自然语言解决（NLP）中，这是由 Ashish Vaswani 等人在 2017 年的论文“注意力是你须要的所有”中首次提出的。

论文地址：https://arxiv.org/abs/1706.03762

注意力的思维，指的是可训练的权重，模仿输出句子不同局部之间的每个连贯的重要性，对 NLP 的影响相似于计算机视觉中的卷积网络，极大地提高了机器学习模型对各种语言工作（如自然语言了解）的成果还有机器翻译的成果。

注意力之所以对语言数据特地无效，是因为了解人类语言通常须要跟踪长期依赖关系。咱们可能会先说“咱们达到了纽约”，而后说“城市的天气很好”。对于任何人类读者来说，应该很分明，最初一句话中的“城市”指的是“纽约”，但对于一个只基于在左近数据（如卷积网络）中找到模式的模型，这种分割可能无奈检测。

长期依赖性的问题能够通过应用递归网络来解决，例如 LSTMs，在变压器到来之前，LSTMs 实际上是 NLP 中的顶级模型，但即便是那些模型，也很难匹配特定的单词。

变压器中的全局注意力模型掂量了文本中任意两个单词之间每一个连贯的重要性，这解释了它们性能的优越之处。对于注意力不那么重要的序列数据类型（例如，日销售额或股票价格等时域数据），递归网络依然具备很强的竞争力，可能仍是最佳抉择。

尽管在 NLP 等序列模型中，远距离对象之间的依赖关系可能具备非凡的意义，但在图像工作中，它们必定不能被疏忽。要造成一幅残缺的图画，通常须要理解图像的各个局部。

到目前为止，注意力模型在计算机视觉中始终体现不佳的起因在于缩放它们的难度（它们的缩放比例为 N²，因而 1000×1000 图像的像素之间的全套注意力权重将具备一百万项）。

兴许更重要的是，事实上，与文本中的单词相同，图片中的各个像素自身并不是很有意义，因而通过注意力将它们连接起来并没有太大作用。

这篇新论文提出了一种办法，即不关注像素点，而是关注图像的小块区域（可能是题目中的 16×16，只管最佳块尺寸实际上取决于模型的图像尺寸和内容）。

下面的图片（摘自论文）显示了视觉变压器的工作形式。

通过应用线性投影矩阵将输出图像中的每个色块展平，并向其增加地位嵌入（学习的数值，其中蕴含无关该色块最后在图像中的地位的信息）。这是必须的，因为变压器会解决所有输出，而不思考其程序，因而领有此地位信息有助于模型正确评估注意力权重。额定的类标记连贯到输出（图像中的地位 0），作为要在分类工作中预测的类的占位符。

相似于 2017 版，该变压器编码器由多个注意力，规范化和齐全连贯的层组成，这些层具备残差（跳过）连贯，如图中的右半局部所示。

在每个关注区域中，多个头部能够捕捉不同的连贯模式。如果你有趣味理解无关变压器的更多信息，我倡议浏览 Jay Alammar 撰写的这篇杰出的文章。