摘要:本文解读了《TransFG: A Transformer Architecture for Fine-grained Recognition》,该论文针对细粒度分类工作,提出了对应的 TransFG。
本文分享自华为云社区《论文解读系列二十:用于细粒度分类的 Transformer 构造—TransFG》,作者:BigDragon。
论文地址:https://arxiv.org/abs/2103.07976
GitHub 地址:https://github.com/TACJu/TransFG
近来,细粒度分类钻研工作次要集中在如何定位差异性图片区域,以此进步网络捕获渺小差别的能力,而大部分工作次要通过应用不同的基模型来提取特定区域的特色,但这种形式会使流程复杂化,并从特定区域提取出大量冗余特色。因而,本文将所有原始注意力权重整合至注意力映射中,以此来领导模型高效地选取差异性图片区域,提出用于细粒度分类的 Transformer 构造 TransFG。
图 1 TransFG 构造
1 问题定义
细粒度分类工作次要以定位办法及特色编码方法为主,定位办法次要通过定位差异性部分区域来进行分类,而特色编码方法通过高维信息或寻找差别对之间关系来学习更多信息。TransFG 通过整合注意力权重,计算区域的比照损失,来定位差异性部分区域,以此进行细粒度分类。
2 TransFG
2.1 图像序列化
原有 Vision Transformer 将图片宰割为互相不重叠的 patch,但这会侵害部分相邻构造,可能会导致差异性图像区域被拆散。因而,为解决这个问题,本文采纳滑动窗口产生重叠 patch,所产生的 patch 数量 N 依据公式 (1) 进行计算。其中,H、W 别离为图像长宽,P 为图像 patch 尺寸,S 为滑动窗口步长。
2.2 Patch Embedding 和 Transformer Encoder
TransFG 在 Patch Embedding 和 Transformer Encoder 两个模块遵循了原有 ViT 的模式,并未进行改变
2.3 部分选取模块(PSM)
图 2 TransFG 的注意力映射及所选取的 token
首先假如模型中具备 K 个自留神首部,各层注意力权重如公式(2)所示,其中 al 指第 l 层 K 个首部注意力权重。
如公式(3)所示,将所有层的注意力权重进行矩阵相乘,afinal 捕获了图像信息从输出到更深层的整个过程,绝对于原有 ViT,蕴含了更多信息,更加有助于选取具备识别性的区域
选取 afinal 中 K 个不同注意力首部的最大值 A1、A2、…、AK,并将其与分类 token 进行拼接,其后果如公式(4)所示。该步骤不仅保留了全局信息,也让模型更加关注与不同类别之间的渺小差别。
2.4 比照损失
如公式(5)所示,比照损失的指标是最小化不同类别对应的分类 tokens 的类似度,并最大化雷同类别对应的分类 tokens 的类似度。其中,为缩小 loss 被简略负样本影响,采纳 α 来管制对 loss 有奉献的负样本对。
3 试验后果
TranFG 在 CUB-200-2011、Stanford Cars、Stanford Dogs、NABirds 及 iNat2017 五个数据集进行了验证,并在 CUB-200-2011、Standford Dogs、NABirds 数据集上获得了 SOTA 后果。
4. 总结
- 在图像序列化局部,绝对于采纳非重叠的 patch 宰割办法,采纳重叠办法的精度进步了 0.2%
- PSM 整合所有注意力权重,保留全局信息,让模型更加关注于不同类别的渺小差异,让模型精度进步了 0.7%。
- 采纳比照损失函数,能缩小不同类别的类似度,进步雷同类别的类似度,让模型精度进步了 0.4%-0.5%。
参考文献
[1] He, Ju, et al. “TransFG: A Transformer Architecture for Fine-grained Recognition.” arXiv preprint arXiv:2103.07976 (2021).
想理解更多的 AI 技术干货,欢送上华为云的 AI 专区,目前有 AI 编程 Python 等六大实战营供大家收费学习
点击关注,第一工夫理解华为云陈腐技术~