本周介绍了 5 个计算机视觉畛域的 SoTA 模型,均于最近发表于寰球顶会 ECCV 2022:
AVS 提出新鲜的视听宰割工作,kMaX 无效利用经典聚类算法进行全景宰割,WSG-VQA 用弱监督学习 Transformer 冲破视觉问答 grounding 工作,COST 了解视频内容实现 AI 对话,HorNet 将新型视觉骨干插入卷积和 Transformer 架构
如果你感觉咱们分享的内容还不错,请不要悭吝给咱们一些收费的激励:点赞、喜爱、或者分享给你的小伙伴。
https://github.com/towhee-io/towhee/tree/main/towhee/models
是谁收回了声音?ECCV 2022 收录全新视听宰割工作 AVS
出品人:Towhee 技术团队 王翔宇、顾梦佳
什么是视听宰割 Audio-Visual Segmentation(AVS)?AVS 的论文被收录于 ECCV 2022,提出基于声音的图像宰割,依据音频找出图像中对应的发声对象。同时,AVS 还公布了第一个音频 - 视觉的宰割数据集(AVSBench)。这项全新的钻研设计了一个时序像素级别的音频 - 视觉交互模块,注入音频语义为视觉宰割做了疏导。
Overview of the AVS baseline
AVS 应用了一种档次编解码的构造。编码器将视频帧以及整段的音频作为输出,输入视觉和音频的特色。每一个阶段的视觉特色图之后送入了 ASPP 模块,而后传递到 TPAVI 模块。ASPP 为模型提供了不同的感触野去辨认物体,TPAVI 则专一于时序的像素级别的音频 - 视觉交互。解码器逐渐的扩充特色图最初生成掩码。模型训练过程中,AVS 设计并应用了一种正则化损失函数,用于提供音频 - 视觉的映射。
更多材料:
- 模型代码:https://github.com/OpenNLPLab/AVSBench
- 论文:Audio-Visual Segmentation
- 更多材料:ECCV2022 | 视听宰割:全新工作,助力视听场景像素级精细化了解
kMaX 全景宰割,利用传统聚类翻新视觉 Transformer
出品人:Towhee 技术团队 何俊辰、顾梦佳
谷歌与约翰霍普金斯大学单干,在 ECCV 2022 的论文中提出 kMaX (k-means Mask Transformer),从新摸索了视觉 Transformer 的外部运行机制,剖析了现有构造在图像识别工作上的弊病。同时该模型也提出 从聚类的角度从新思考像素特色与指标 query 之间的关系,联合 k-means 聚类构建一种端到端的全景宰割模型。kMaX-DeepLab 应用 k-means 解码器来替换多头注意力模块,在简化构造的同时也晋升了宰割成果。比照试验抉择了具备代表性的骨干网络,包含 ResNet-50、MaX-S、Swin Transformer、ConvNeXt 等。结果表明,kMaX-DeepLab 应用轻量骨干就可能超过目前其余 SOTA 模型,甚至优于很多更为简单的模型。
Convert to kMaX decoder
kMaX-DeepLab 次要由三个组件形成,蕴含像素编码器、加强像素编码器、kMaX 解码器。像素编码器能够应用任意的 CNN 或者 ViT backbone 来提取视觉特色,加强像素编码器负责将失去的特色图进行上采样复原到输出图像的高分辨率,同时依据 transformer 编码器计算自注意力特色,最初 kMaX 解码器从 k-means 聚类的角度将指标 query 向量(或者了解为聚类核心)转换为 mask 嵌入向量。
更多材料:
- 模型代码:https://github.com/google-research/deeplab2
- 论文:k-means Mask Transformer
- 更多材料:ECCV 2022|经典算法老当益壮,谷歌提出基于 k -means 聚类的视觉 Transformer
Transformer 引入弱监督学习搞定 VQA Grounding 工作
出品人:Towhee 技术团队 张晨、顾梦佳
用于视觉语言表征学习的 Transformer 曾经失去了很多人的关注,并在视觉问题答复(visual question answering, VQA)和 grounding 工作体现出优良的性能。然而,在这些工作中体现出良好的大多数零碎在训练过程中依然依赖事后训练好的指标检测模型,这使得适配零碎的物体类别受制于其余指标检测框架。为了缓解这一局限性,WSG-VQA 在视觉问答 Transformer 的根底上提出弱监督 grounding。作者在具备挑战性的 GQA 以及 VQA-HAT 视觉问答数据集上,通过 VQA grounding 工作对该策略进行评估。
SG-VQA: Proposed Architecture & Attention
WSG-VQA 首次在 VQA grounding 工作中,将胶囊(Capsule)的概念与 Transformer 架构联合。给定一对问题和图像,胶囊编码层首先提取出网格特色,用于取得视觉胶囊。而后 CLS token 通过文本 transformer 失去向量后,进行胶囊特征选择。选定的胶囊编码会带着地位信息进入视觉编码器。句子文本通过文本 transformer 后,为每个视觉 transformer 层的抉择胶囊。选定的胶囊会在视觉 transformers 中层层传递,最终在一个跨注意力模块中与文本特色进行细粒度交互,从而预测问题的答案。尽管从规范的 Transformer 架构中移除被遮蔽物体的信息会导致模型性能降落,但与视觉问答畛域的其余办法相比,capsules 的整合大大改善了此类零碎的 grounding 能力,并提供了新的 SoTA 的后果。该办法通过在视觉编码器中对每个视觉 token 进行分组来利用 capsules,并应用来自语言自我留神层的激活作为文本领导的抉择模块,在这些 capsules 被转发到下一个层之前对其进行屏蔽。
更多材料:
- 模型代码:https://github.com/aurooj/wsg-vqa-vltransformers
- 论文:https://arxiv.org/abs/2207.02334
ECCV 2022 基于视频的对话新框架 COST
出品人:Towhee 技术团队 顾梦佳
在视频对话工作中,零碎会依据视频内容生成自然语言答复相干问题。面对该工作带来的视觉、语言、推理挑战,COST 提出了一个新的视频对话框架,以对象为核心,反对神经推理。该框架通过在音频视觉场景感知对话数据集 AVSD 上的测试,用最先进的性能展现了它的竞争力。
COST: Visualization of the question-specific interaction matrices between objects
COST 首先将视频中的动静时空视觉内容解析为对象轨迹。在此基础上,框架会保护和跟踪与对象相干的对话状态,这些状态会在收到新问题时更新。这种对象交互是针对每个问题推断进去的,这个过程是动静并有条件的,造成了相互之间关系推理的根底。COST 还会保留答案的历史记录,这可能在之后的问答中检索以对象为核心的相干信息,以丰盛答案造成的过程。而后,框架会思考以后话语、现有对话、以后问题的上下文,逐渐生成自然语言模式的答案。
更多材料:
- 模型代码:https://github.com/hoanganhpham1006/COST
- 论文:Video Dialog as Conversation about Objects Living in Space-Time
ECCV 2022 新视觉骨干 HorNet 改良卷积与 Transformer
出品人:Towhee 技术团队 顾梦佳
HorNet 是一种新型的视觉骨干,其论文被收录于 ECCV 2022。它提出 递归门控卷积,并且将其插入各种视觉 Transformer 和基于卷积的模型。通过在 ImageNet 图像分类、COCO 指标检测、ADE20K 语义宰割上的试验比照,HorNet 的性能显著优于 Swin Transformers 和 ConvNeXt 网络。
Overview of the basic building block in HorNet with g^n Conv
HorNet 展现了视觉 Transformer 背地的要害因素,即输出自适应、近程和高阶空间交互,也能够通过基于卷积的框架无效实现。该构造具备高度的灵活性和可定制性,兼容各种卷积变体,并将自注意力中的二阶交互扩大到任意阶,却不会引入大量额定的计算。它提出了递归门控卷积 (g^n Conv),通过门控卷积和递归设计执行高效、可扩大和平移等变的高阶空间交互。
更多材料:
- 模型代码:https://github.com/raoyongming/hornet
- 论文:HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions
- 更多材料:涨点神器!HorNet:递归门控卷积的高效高阶空间交互
如果你感觉咱们分享的内容还不错,请不要悭吝给咱们一些激励:点赞、喜爱或者分享给你的小伙伴!
流动信息、技术分享和招聘速递请关注:https://zilliz.gitee.io/welcome/
如果你对咱们的我的项目感兴趣请关注:
用于存储向量并创立索引的数据库 Milvus
用于构建模型推理流水线的框架 Towhee