关于机器学习:2022-第四周全球-AI-模型周报

1次阅读

共计 3491 个字符,预计需要花费 9 分钟才能阅读完成。

本周持续介绍 5 个计算机视觉畛域的深度学习模型:
多尺度视觉模型 MViT, 可能解决更大图像的 Swin Transformer V2, 全能型多模态模型 CoCa, 端到端的视频语言学习 Violet, 实现视频了解大一统的 All in one

如果你感觉咱们分享的内容还不错,请不要悭吝给咱们一些收费的激励:点赞、喜爱、或者分享给你的小伙伴。
https://github.com/towhee-io/towhee/tree/main/towhee/models

MViT: 多尺度视觉 Transformers

出品人:Towhee 技术团队 顾梦佳

Facebook 人工智能研究院和加州大学伯克利分校在 2021 年联合推出计算机视觉畛域 SoTA 模型 Multi Vision Transformer (MViT),现在在图像分类、视频了解等工作中成为最热门的抉择之一。MViT 在视觉 Transformer 构造中引入多尺度特色分层,从而优化了模型性能。试验表明,MViT 在 ImageNet 图像分类、CoCo 图像指标检测、Kinetics-400 视频动作分类三个不同畛域的工作中均能获得优异的后果。

MViT (Multiscale Vision Transformers)

MViT 依据通道尺寸与分辨率分为不同的尺度阶段,在升高视觉分辨率的同时分层扩大特色的复杂性。随着阶段的变动,空间分辨率从初始输出值开始逐步减小,而通道容量则逐渐减少。该架构从始至终都应用全局注意力,通过升高图片分辨率来缩小计算量。

相干材料:

  • 模型代码:https://github.com/towhee-io/…
  • 论文:Multiscale Vision Transformers
  • 更多材料:FAIR 提出 MViT:多尺度视觉 Transformer

CVPR 2022 Swin Transformer V2:用更少的参数解决高分辨率图像

出品人:Towhee 技术团队 徐锦玲、顾梦佳

还在为模型变大,成果不好且不易收敛而懊恼吗?微软针对图像预训练模型 Swin Transformer 提出 Swin Transformer V2,解决了大型视觉模型训练的三个次要问题:训练不稳定性、预训练和微调之间的分辨率差距、对标记数据的强烈需要。Swin Transformer V2 胜利把 Swin Transformer 缩放到 30 亿个参数,并可能承受高达 1536×1536 分辨率的图像。

Swin Transformer V1 vs V2

Swin Transformer V2 次要改良了 Swin Transformer,在缩小参数量的同时,使得模型可能解决更高分辨率的图像。因为本来的 Swin Transformer 间接把残差模块加到了主分支上,网络深层的激活值变得很大,与浅层特色的激活值之间有很大的 gap,导致模型变大后会呈现训练不稳固的问题。Swin Transformer V2 把 LayerNorm 放到残差计算前面,并提出 scaled cosine attention 代替原来的缩放点击,用以解决缩放点击带来的被多数像素点主导的问题。另外,之前的 Swin Transformer 在解决图像分辨率不统一的问题时应用的办法会导致部分最优。而改良后的模型应用网络在对数空间产生间断的输出,以平滑绝对地位进行编码。

相干材料:

  • 模型代码:towhee.models.swin_transformer
  • 论文:Swin Transformer V2: Scaling Up Capacity and Resolution
  • 更多材料:Swin Transformer V2 论文解析

由 CVPR 2022 收录,谷歌发表全能型多模态模型 CoCa

出品人:Towhee 技术团队 顾梦佳

谷歌在往年在 CVPR 2022 上提出 CoCa(Contrastive Captioners),不仅可能胜任文本图像多模态畛域常见的比照工作,还减少了生成式工作,即生成图像对应的文本形容。生成式工作通常比比照学习工作更难,而 CoCa 则机智地抉择了联合两种工作。这使其在泛滥上游工作中都体现优良,比方图像分类、视频了解、跨模态检索等,尤其在 ImageNet-1K 图像分类中刷新了 top-1 记录,取得了 91.0% 的准确率!

Overview of Contrastive Captioners (CoCa)

多模态根底模型通常分为三种:单编码器分类(Single-Encoder Classification)、双编码器比照学习(Dual-Encoder Contrastive Learning)、编码器 - 解码器生成工作(Encoder-Decoder Captioning)。CoCa 在编码器 - 解码器的根底上交融了另外两个种构造。它将文本解码器均分成两个局部:单模态文本解码器(unimodal text decoder)和多模态文本解码器(multimodal text decoder)。与此同时,在输出文本的最初减少一个 cls token。其中,单模态文本解码器不参加对图像特色的 cross-attention,而 cls token 通过单模态解码器之后就能取得整个文本的全局特色。另外,CoCa 在图像编码器中应用 attention pooling 失去图像的全局特色。最初,CoCa 通过两个全局特色就能够实现图像 - 文本的比照学习。

相干材料:

  • 模型代码:towhee.models.coca
  • 论文:CoCa: Contrastive Captioners are Image-Text Foundation Models
  • 更多材料:CoCa:比照 + 生成式工作构建“全能型多模态模型”

性能 SOTA!端到端的视频语言学习 VIOLET

出品人:Towhee 技术团队 张晨、顾梦佳

VIOLET(VIdeO-LanguagE Transformer) 由 UCSB 和微软联结提出,是一个齐全端到端的 Video-Language Transformer。综合剖析证实,通过视频 Transformer 和 MVM 进行显式工夫建模更加无效。VIOLET 在 5 个视频问题答复工作和 4 个文本到视频检索工作中获得了新的最先进的性能。

Overview of the proposed end-to-end VIdeO-LanguagE Transformer

VIOLET 采纳了视频 Transformer 来明确地模仿视频输出的工夫动静。以前的钻研发现视频输出的预训练任务(如遮蔽帧建模)比拟低效,为此 VIOLET 设计了一个新的预训练任务:遮蔽视觉标记建模 Masked Visual-token Modeling(MVM),用以更好地进行视频建模。具体来说,原始视频帧斑块被 “tokenized “ 为离散的视觉 token,指标是依据被遮蔽的斑块复原原始视觉 token。

相干材料:

  • 模型代码:towhee.models.violet
  • 论文:End-to-End Video-Language Transformers with Masked Visual-token Modeling
  • 更多材料:https://zhuanlan.zhihu.com/p/440800319

All-in-one 一统视频了解模型

出品人:Towhee 技术团队

2022 年新推出的跨模态预训练视频模型 All-in-one 旨在摸索 对立视频了解的解决方案,缩小了模型参数,进步了推理速度,使视频了解更加落地。All-in-one 通过微调后可能被利用到各种上游视频 - 文本工作中,包含文本视频检索、视频问答、多项抉择和视觉常识推理,尤其性能屠榜各大视频问答通用数据集。

All-in-one: Model Overview

通常视频了解模型分为视频编码器、文本编码器、视频文本交融 Transformer 三局部。All-in-one 首次引入了一种端到端的视频语言模型,即 all-in-one Transformer,应用 unified backbone architecture 将原始视频和文本信号嵌入到 joint representations 中。另外,为了克服视频数据的独特工夫信息带来的跨模态挑战,All-in-one 引入了一种 token rolling operation,以非参数形式对 video clips 的时域示意进行编码。

相干材料:

  • 模型用例:towhee.models.allinone
  • 论文:All in One: Exploring Unified Video-Language Pre-training

更多我的项目更新及具体内容请关注咱们的我的项目(https://github.com/towhee-io/…),您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :)

正文完
 0