本周介绍了 5 个计算机视觉畛域的 SoTA 模型,均于最近发表于 2022 年顶会 CPVR 和 ECCV:
RepLKNet 特立独行专门钻研大卷积核,PoolFormer 示意 Transformer 的外围在于架构,Shunted Transformer 提出可能分流的新型注意力机制,QnA 用学习查问减速视觉模型,CoOp 第一个在计算机视觉畛域里摸索可学习的提醒。
如果你感觉咱们分享的内容还不错,请不要悭吝给咱们一些收费的激励:点赞、喜爱、或者分享给你的小伙伴。
https://github.com/towhee-io/towhee/tree/main/towhee/models
卷积模型里的清流 RepLKNet,大卷积核也有春天!
出品人:Towhee 技术团队 顾梦佳
由清华和旷视提出,收录于 CVPR2022,RepLKNet 专一于优化大卷积核的利用。减少卷积核尺寸能够 带来更大的感触野,同时可能提取到更加深层的语义信息,有助于确定指标的地位,因而善于精密的像素级宰割工作。此外,试验证实大卷积核也可能无效改良小特色图。在一些经典图像上游工作中(图像分类、语义宰割等),RepLKNet 以纯卷积的架构超过 Swin Transformer 在大型公开图像数据集 ImageNet 上的体现,甚至领有更小的提早。
Flow of RepLKNet
RepLKNet 将不同尺寸的深度可拆散卷积 (DepthWise convolution) 引入到卷积神经网络中,每个卷机领有从 3×3 到 31×31 大小不等的卷积核。大卷积核难免会带来大量的算力需要,而深度可拆散卷积的退出可能无效解决这一问题。另外,残差构造对大卷积核来说也至关重要,其收益远大于小卷积核。RepLKNet 尽管次要应用了大卷积核,但也利用小卷积核进行重参数化,用于进步模型性能。
更多材料:
- 模型代码:https://github.com/DingXiaoH/RepLKNet-pytorch
- 论文:Scaling Up Your Kernels to 31×31: Revisiting Large Kernel Design in CNNs
- 更多材料:https://www.paddlepaddle.org.cn/support/news?action=detail&id=3040
PoolFormer 引起 Transformer 的架构与模块之争
出品人:Towhee 技术团队 顾梦佳
始终以来,注意力机制都被认为是 Transformer 框架模型的外围之一。尽管最近有钻研表明应用 Spatial MLP 也能达到相似的性能,然而 PoolFormer 却用非常简单的空间池化操作取代了注意力模块,甚至在多个计算机视觉工作上都获得了具备竞争力的体现。这一后果不禁让人思考,难道 Transformer 的外围竞争力其实来自于其架构,与模块不甚无关?
MetaFormer Architectures: Transformer, MLPs, PoolFormer
PoolFormer 的作者认为以往的 Transformer 与近来改良的 MLP 模型之所以可能胜利,是因为采纳了一种通用的架构(MetaFormer)。为了证实这一实践,PoolFormer 在尽量不扭转模型架构的状况下,只将 Token Mixer 局部替换成简略的空间池化。因为该局部没有可学习的参数,PoolFormer 采纳相似传统卷积神经网络的分阶段办法和层级 Transformer 构造,将模型分为四个阶段,逐渐加倍下采样。
更多材料:
- 模型代码:https://github.com/sail-sg/poolformer
- 论文:MetaFormer Is Actually What You Need for Vision
新加坡国立大学 & 字节跳动联结提出 Shunted Transformer
出品人:Towhee 技术团队 张晨、顾梦佳
NUS 和字节跳动联结改良了视觉 Transformer,提出一种新的网络结构 —— Shunted Transformer,其论文被收录于 CVPR 2022 Oral。基于分流自注意力(Shunted Self-Attention)的 Transformer 在公开的图像数据集 ImageNet 上达到了 84.0% 的 Top-1 准确率,而且缩小了一半模型大小和计算成本。
Shunted Transformer 网络架构
视觉 Transformer 模型 (ViT) 在各种计算机视觉工作中体现呈现,次要归功于自注意力能过模仿图像 patches(或 token)的长距离依赖关系。然而,该能力须要指定每一层每个 token 特色的类似感触区,不可避免地限度了每个自注意力层捕获多尺度特色的能力,从而导致在解决具备不同尺度的多个物体的图像时性能降落。为了解决这个问题,Shunted Transformer 应用分流自注意力(SSA),容许 ViT 系列网络在每个注意力层的混合尺度上建设注意力模型。SSA 的要害思维是将异质性的感触野大小注入 token。在计算自留神矩阵之前,它会有选择地合并 token 来代表较大的物体特色,同时保留某些 token 以放弃细粒度的特色。这种新鲜的合并计划使自注意力可能学习不同大小的物体之间的关系,并同时缩小 token 数量和计算成本。
更多材料:
- 模型代码:https://github.com/OliverRensu/Shunted-Transformer
- 论文:https://arxiv.org/abs/2111.15193
- 更多材料:
https://blog.csdn.net/amusi1994/article/details/124011999;
https://blog.csdn.net/m0_63642362/article/details/124335344
CVPR 2022 Oral: 高效部分注意力的学习查问 QnA
出品人:Towhee 技术团队 王翔宇、顾梦佳
分层视觉模型 —— Query and Attention(QnA)的外围是 一种具备线性复杂性且平移不变的部分注意力层。其构造相似卷积,然而比卷积具备更强的表征能力。试验证实,引入学习查问的视觉模型不仅性能媲美其余 SoTA 模型,还显著地改良了内存复杂度,减速了模型推理。
QnA Overview
视觉 Transformer 能够捕捉数据中的长期依赖,然而其中重要的组成部分——自注意力机制,会受制于高提早以及低效的内存利用形式,使其不适宜于高分辨率的输出图片。为了减缓这这些毛病,档次视觉模型会在不重叠的窗口区域进行自注意力。这种办法尽管进步了效率,然而限度了跨窗口的交互,升高了模型的性能。为了解决这些问题,QnA 作为一种新的部分注意力层,以一种重叠的形式部分的汇聚输出数据。其核心思想是引入学习查问,从而实现疾速高效的实现。通过将其合并到分层视觉模型中来验证咱们层的有效性。
更多材料:
- 模型代码:https://github.com/moabarar/qna
- 论文:Learned Queries for Efficient Local Attention
- 更多材料:https://zhuanlan.zhihu.com/p/504934243
CV 畛域的新摸索,CoOP 将可学习提醒利用到视觉 - 语言模型
出品人:Towhee 技术团队 王翔宇、顾梦佳
通常视觉 - 语言预训练会在一个独特特色空间中对齐图片与文本,通过提醒的形式在上游工作进行零样本迁徙。其中提醒工程始终面临着一些挑战:对建模畛域的高要求,以及大量的工夫老本。提醒工程在 NLP 中失去了更好地利用和倒退,而 CoOp 率先基于 CLIP 开始摸索可学习的提醒在计算机视觉畛域中的可行性。它提出上下文优化的策略,可能简略地将此类大规模训练的视觉 - 语言模型利用于上游的图像识别工作。通过在 11 个上游工作上的验证,CoOp 证实了该策略的有效性,改善后的模型性可能超过原始预训练模型。
Overview of Context Optimization (CoOp)
CoOp 将视觉 - 语言模型中的提醒局部从手工设计替换成主动学习,旨在通过上下文找到最优的提醒。它利用可学习的向量构建一个提醒的上下文,并且只须要一两个示例就能够大幅度超过手工设计的提醒。CoOp 提出两个种提醒学习办法:第一种是 unified context,所有类别的样本学习的上下文都是一样的;第二种是 class-specific context,每个类别都有特定的上下文。
更多材料:
- 模型代码:https://github.com/KaiyangZhou/CoOp
- 论文:https://arxiv.org/abs/2109.01134
- 更多材料:https://zhuanlan.zhihu.com/p/492546332
如果你感觉咱们分享的内容还不错,请不要悭吝给咱们一些激励:点赞、喜爱或者分享给你的小伙伴!
流动信息、技术分享和招聘速递请关注:https://zilliz.gitee.io/welcome/
如果你对咱们的我的项目感兴趣请关注:
用于存储向量并创立索引的数据库 Milvus
用于构建模型推理流水线的框架 Towhee