不到两年的工夫 ViT 曾经彻底改变了计算机视觉畛域,利用 transformers 弱小的自留神机制来代替卷积,最近诸如 MLP-Mixer 和通过精心设计的卷积神经网络 (CNN) 等办法也曾经实现了与 ViT 相当的性能。
在新论文 Sequencer: Deep LSTM for Image Classification 中,来自 Rikkyo University 和 AnyTech Co., Ltd. 的钻研团队查看了不同演绎偏差对计算机视觉的适用性,并提出了 Sequencer,它是 ViT 的一种架构代替计划,它应用传统的 LSTM 而不是自注意力层。Sequencer 通过将空间信息与节俭内存和节俭参数的 LSTM 混合来升高内存老本,并在长序列建模上实现与 ViT 竞争的性能。
Sequencer 架构采纳双向 LSTM (BiLSTM) 作为构建块,并受 Hou 等人的 2021 Vision Permutator (ViP) 启发,并行处理垂直轴和程度轴。钻研人员引入了两个 BiLSTM,以实现上 / 下和左 / 右方向的并行处理,因为序列长度缩短,从而进步了 Sequencer 的准确性和效率,并产生了具备空间意义的感触野。
Sequencer 将不重叠的补丁作为输出,并将它们与特色图匹配。Sequencer 模块有两个子组件:1)BiLSTM 层能够全局地混合空间信息记忆 2)用于通道混合的多层感知机(MLP)。与现有架构一样,最初一个块的输入通过全局均匀池化层发送到线性分类器。
在他们的实际验证中,该团队将提议的 Sequencer 与基于 CNN、ViT 以及基于 MLP 和 FFT 的模型架构与 ImageNet-1K 基准数据集上的可比参数数量进行了比拟;并测试了它的迁徙学习能力。Sequencer 在评估中获得了令人印象粗浅的 84.6% 的 top-1 准确率,别离比 ConvNeXt-S 和 Swin-S 进步了 0.3% 和 0.2%,并且还体现出良好的可迁移性和弱小的分辨率适应性。
该团队心愿他们的工作可能提供新的见解并加深对各种演绎偏差在计算机视觉中的作用的了解,并激发对这一一直倒退的畛域中优化架构设计的进一步钻研。
论文 Sequencer: Deep LSTM for Image Classification 的地址如下:
https://avoid.overfit.cn/post/fda6031f019a46199c5730f27a4c0e8e