关于transformer:带你读AI论文丨用于细粒度分类的Transformer结构TransFG

摘要：本文解读了《TransFG: A Transformer Architecture for Fine-grained Recognition》，该论文针对细粒度分类工作，提出了对应的TransFG。

本文分享自华为云社区《论文解读系列二十：用于细粒度分类的Transformer构造—TransFG》，作者： BigDragon 。

论文地址：https://arxiv.org/abs/2103.07976

GitHub地址：https://github.com/TACJu/TransFG

近来，细粒度分类钻研工作次要集中在如何定位差异性图片区域，以此进步网络捕获渺小差别的能力，而大部分工作次要通过应用不同的基模型来提取特定区域的特色，但这种形式会使流程复杂化，并从特定区域提取出大量冗余特色。因而，本文将所有原始注意力权重整合至注意力映射中，以此来领导模型高效地选取差异性图片区域，提出用于细粒度分类的Transformer构造TransFG。

图1 TransFG 构造

1 问题定义

细粒度分类工作次要以定位办法及特色编码方法为主，定位办法次要通过定位差异性部分区域来进行分类，而特色编码方法通过高维信息或寻找差别对之间关系来学习更多信息。TransFG通过整合注意力权重，计算区域的比照损失，来定位差异性部分区域，以此进行细粒度分类。

2 TransFG

2.1 图像序列化

原有Vision Transformer将图片宰割为互相不重叠的patch，但这会侵害部分相邻构造，可能会导致差异性图像区域被拆散。因而，为解决这个问题，本文采纳滑动窗口产生重叠patch，所产生的patch数量N依据公式(1)进行计算。其中，H、W别离为图像长宽，P为图像patch尺寸，S为滑动窗口步长。

2.2 Patch Embedding 和 Transformer Encoder

TransFG在Patch Embedding 和 Transformer Encoder两个模块遵循了原有ViT的模式，并未进行改变

2.3 部分选取模块(PSM)

图2 TransFG的注意力映射及所选取的token

首先假如模型中具备K个自留神首部，各层注意力权重如公式（2）所示，其中al指第l层K个首部注意力权重。

如公式（3）所示，将所有层的注意力权重进行矩阵相乘，afinal 捕获了图像信息从输出到更深层的整个过程，绝对于原有ViT，蕴含了更多信息，更加有助于选取具备识别性的区域

选取afinal中K个不同注意力首部的最大值A1、A2、…、AK，并将其与分类token进行拼接，其后果如公式（4）所示。该步骤不仅保留了全局信息，也让模型更加关注与不同类别之间的渺小差别。

2.4 比照损失

如公式（5）所示，比照损失的指标是最小化不同类别对应的分类tokens的类似度，并最大化雷同类别对应的分类tokens的类似度。其中，为缩小loss被简略负样本影响，采纳α来管制对loss有奉献的负样本对。

3 试验后果

TranFG在CUB-200-2011、Stanford Cars、Stanford Dogs、NABirds及iNat2017五个数据集进行了验证，并在CUB-200-2011、Standford Dogs、NABirds数据集上获得了SOTA后果。

4. 总结

在图像序列化局部，绝对于采纳非重叠的patch宰割办法，采纳重叠办法的精度进步了0.2%
PSM整合所有注意力权重，保留全局信息，让模型更加关注于不同类别的渺小差异，让模型精度进步了0.7%。
采纳比照损失函数，能缩小不同类别的类似度，进步雷同类别的类似度，让模型精度进步了0.4%-0.5%。

参考文献

[1] He, Ju, et al. “TransFG: A Transformer Architecture for Fine-grained Recognition.” arXiv preprint arXiv:2103.07976 (2021).

想理解更多的AI技术干货，欢送上华为云的AI专区，目前有AI编程Python等六大实战营供大家收费学习

点击关注，第一工夫理解华为云陈腐技术~

关于transformer:带你读AI论文丨用于细粒度分类的Transformer结构TransFG

1 问题定义

2 TransFG

2.1 图像序列化

2.2 Patch Embedding 和 Transformer Encoder

2.3 部分选取模块(PSM)

2.4 比照损失

3 试验后果

4. 总结

参考文献

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于transformer:带你读AI论文丨用于细粒度分类的Transformer结构TransFG

1 问题定义

2 TransFG

2.1 图像序列化

2.2 Patch Embedding 和 Transformer Encoder

2.3 部分选取模块(PSM)

2.4 比照损失

3 试验后果

4. 总结

参考文献

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复