关于人工智能:DHVT在小数据集上降低VIT与卷积神经网络之间差距解决从零开始训练的问题

40次阅读

共计 2020 个字符，预计需要花费 6 分钟才能阅读完成。

VIT 在演绎偏置方面存在空间相关性和信道示意的多样性两大缺点。所以论文提出了动静混合视觉变压器 (DHVT) 来加强这两种感应偏差。

在空间方面，采纳混合结构，将卷积集成到补丁嵌入和多层感知器模块中，迫使模型捕捉令牌特色及其相邻特色。

在信道方面，引入了 MLP 中的动静特色聚合模块和多头注意力模块中全新的“head token”设计，帮忙从新校准信道示意，并使不同的信道组示意互相交互。

1、程序重叠补丁嵌入 (Sequential Overlapping Patch Embedding)

改良后的补丁嵌入称为 Sequential overlap patch embedding(SOPE)，它蕴含了 3×3 步长 s = 2 的卷积、BN 和 GELU 激活的几个间断卷积层。卷积层数与 patch 大小的关系为 P =2^k。SOPE 可能打消以前嵌入模块带来的不连续性，保留重要的底层特色。它能在肯定水平上提供地位信息。

在一系列卷积层前后别离采纳两次仿射变换。该操作对输出特色进行了缩放和移位，其作用相似于归一化，使训练性能在小数据集上更加稳固。

SOPE 的整个流程能够表述如下。

这里的 α 和 β 为可学习参数，别离初始化为 1 和 0。

2、编码器整体架构

而后将特色映射重塑为补丁并与 cls 令牌连贯，并发到编码器层。每个编码器蕴含层归一化、多头自注意力和前馈网络。将 MHSA 网络改良为头部交互多头自留神网络(HI-MHSA)，将前馈网络改良为动静聚合前馈网络(DAFF)。在最初的编码器层之后，输入类标记将被馈送到线性头部进行最终预测。

3、动静聚合前馈 (Dynamic Aggregation Feed Forward)

ViT 中的一般前馈网络 (FFN) 由两个全连贯层和 GELU 组成。DAFF 在 FFN 中集成了来自 MobileNetV1 的深度卷积 (DWCONV)。因为深度卷积带来的演绎偏差，模型被迫捕捉相邻特色，解决了空间视图上的问题。它极大地缩小了在小型数据集上从头开始训练时的性能差距，并且比规范 CNN 收敛得更快。还应用了与来自 SENet 的 SE 模块相似的机制。

Xc、Xp 别离示意类标记和补丁标记。类标记在投影层之前从序列中拆散为 Xc。残余的令牌 Xp 则通过一个外部有残差连贯的深度集成多层感知器。

而后将输入的补丁标记均匀为权重向量 W。在 squeeze-excitation 操作之后，输入权重向量将与类标记通道相乘。而后从新校准的类令牌将与输入补丁令牌以复原令牌序列。

4、相互作用多头自留神(HI-MHSA)

在最后的 MHSA 模块中，每个留神头都没有与其余头交互。在不足训练数据的状况下，每个通道组的表征都太弱而无奈辨认。

在 HI-MHSA 中，每个 d 维令牌，包含类令牌，将被重塑为 h 局部。每个局部蕴含 d 个通道，其中 d =d×h。所有拆散的标记在它们各自的局部中取平均值。因而总共失去 h 个令牌，每个令牌都是 d 维的。所有这样的两头令牌将再次投影到 d 维，总共产生 h 个头部令牌。最初，将它们与补丁令牌和类令牌连接起来。

5、模型变体

DHVT-T: 12 层编码器，嵌入维度为 192,MLP 比为 4,CIFAR-100 和 DomainNet 上的留神头为 4,ImageNet-1K 上的留神头为 3。DHVT-S: 12 层编码器，嵌入维度为 384,MLP 比 4,CIFAR-100 上留神头为 8，DomainNet 和 ImageNet-1K 上留神头为 6。

须要阐明的是：论文和模型的重点是在小数据集上从零开始训练。

1、DomainNet & ImageNet-1K

在 DomainNet 上，DHVT 体现出比规范 ResNet-50 更好的后果。在 ImageNet-1K 上，DHVT- T 的准确率达到 76.47,DHVT- S 的准确率达到 82.3。论文说这是在 VIT 的最佳性能。

2、CIFAR-100

DHVT- T 在 5.8M 参数下达到 83.54。DHVT- S 仅用 2280 万个参数即可达到 85.68。与其余基于 vit 的模型和 CNN（ResNeXt, SENet, SKNet, DenseNet 和 Res2Net）相比，所提出的模型参数更少，性能更高。

3、融化钻研

DeiT-T 4 头，从头开始训练 300 次，基线问题 67.59。当移除相对地位嵌入时，性能急剧下降至 58.72。当采纳 SOPE 并勾销相对地位嵌入时，性能降落幅度并不大。

同时采纳 SOPE 和 DAFF 时，能够对地位信息进行全面编码，SOPE 也有助于解决这里的不重叠问题，在晚期保留了细粒度的底层特色。

table6 发现了跨不同模型构造的 head 令牌带来的稳定性能增益。

当采纳这三种批改时，取得了 +13.26 的精度增益，胜利地弥合了与 CNN 的性能差距。

4、可视化

不同的 head 令牌在不同的补丁上激活

https://avoid.overfit.cn/post/806ce15b180440d988de5f76e22a2aaf

作者：Sik-Ho Tsang

正文完

人工智能

发表至：人工智能

2023-05-31

0

关于人工智能:解读-ChatGPT-背后的技术重点RLHFIFTCoT红蓝对抗

关于人工智能:什么是物联网常见IoT-物联网协议最全讲解基础知识

关于人工智能:使用-ChatGPT-生成数据4-个示例

关于人工智能:全新API产品正式发布技术驱动更安全的API能力闭环

关于kubernetes:聊聊部署在K8S的项目如何获取客户端真实IP

关于人工智能:DHVT在小数据集上降低VIT与卷积神经网络之间差距解决从零开始训练的问题

Dynamic Hybrid Vision Transformer (DHVT)

后果展现

Just My Socks（注册教程内含优惠码）

关于人工智能:DHVT在小数据集上降低VIT与卷积神经网络之间差距解决从零开始训练的问题

Dynamic Hybrid Vision Transformer (DHVT)

后果展现

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）