关于机器学习:2022-第四周全球-AI-模型周报

1次阅读

共计 3491 个字符，预计需要花费 9 分钟才能阅读完成。

本周持续介绍 5 个计算机视觉畛域的深度学习模型：
多尺度视觉模型 MViT, 可能解决更大图像的 Swin Transformer V2, 全能型多模态模型 CoCa, 端到端的视频语言学习 Violet, 实现视频了解大一统的 All in one

如果你感觉咱们分享的内容还不错，请不要悭吝给咱们一些收费的激励：点赞、喜爱、或者分享给你的小伙伴。
https://github.com/towhee-io/towhee/tree/main/towhee/models

出品人：Towhee 技术团队顾梦佳

Facebook 人工智能研究院和加州大学伯克利分校在 2021 年联合推出计算机视觉畛域 SoTA 模型 Multi Vision Transformer (MViT)，现在在图像分类、视频了解等工作中成为最热门的抉择之一。MViT 在视觉 Transformer 构造中引入多尺度特色分层，从而优化了模型性能。试验表明，MViT 在 ImageNet 图像分类、CoCo 图像指标检测、Kinetics-400 视频动作分类三个不同畛域的工作中均能获得优异的后果。

MViT (Multiscale Vision Transformers)

MViT 依据通道尺寸与分辨率分为不同的尺度阶段，在升高视觉分辨率的同时分层扩大特色的复杂性。随着阶段的变动，空间分辨率从初始输出值开始逐步减小，而通道容量则逐渐减少。该架构从始至终都应用全局注意力，通过升高图片分辨率来缩小计算量。

相干材料：

模型代码：https://github.com/towhee-io/…
论文：Multiscale Vision Transformers
更多材料：FAIR 提出 MViT：多尺度视觉 Transformer

出品人：Towhee 技术团队徐锦玲、顾梦佳

还在为模型变大，成果不好且不易收敛而懊恼吗？微软针对图像预训练模型 Swin Transformer 提出 Swin Transformer V2，解决了大型视觉模型训练的三个次要问题：训练不稳定性、预训练和微调之间的分辨率差距、对标记数据的强烈需要。Swin Transformer V2 胜利把 Swin Transformer 缩放到 30 亿个参数，并可能承受高达 1536×1536 分辨率的图像。

Swin Transformer V1 vs V2

Swin Transformer V2 次要改良了 Swin Transformer，在缩小参数量的同时，使得模型可能解决更高分辨率的图像。因为本来的 Swin Transformer 间接把残差模块加到了主分支上，网络深层的激活值变得很大，与浅层特色的激活值之间有很大的 gap，导致模型变大后会呈现训练不稳固的问题。Swin Transformer V2 把 LayerNorm 放到残差计算前面，并提出 scaled cosine attention 代替原来的缩放点击，用以解决缩放点击带来的被多数像素点主导的问题。另外，之前的 Swin Transformer 在解决图像分辨率不统一的问题时应用的办法会导致部分最优。而改良后的模型应用网络在对数空间产生间断的输出，以平滑绝对地位进行编码。

相干材料：

模型代码：towhee.models.swin_transformer
论文：Swin Transformer V2: Scaling Up Capacity and Resolution
更多材料：Swin Transformer V2 论文解析

出品人：Towhee 技术团队顾梦佳

谷歌在往年在 CVPR 2022 上提出 CoCa（Contrastive Captioners），不仅可能胜任文本图像多模态畛域常见的比照工作，还减少了生成式工作，即生成图像对应的文本形容。生成式工作通常比比照学习工作更难，而 CoCa 则机智地抉择了联合两种工作。这使其在泛滥上游工作中都体现优良，比方图像分类、视频了解、跨模态检索等，尤其在 ImageNet-1K 图像分类中刷新了 top-1 记录，取得了 91.0% 的准确率！

Overview of Contrastive Captioners (CoCa)

多模态根底模型通常分为三种：单编码器分类（Single-Encoder Classification）、双编码器比照学习（Dual-Encoder Contrastive Learning）、编码器 - 解码器生成工作（Encoder-Decoder Captioning）。CoCa 在编码器 - 解码器的根底上交融了另外两个种构造。它将文本解码器均分成两个局部：单模态文本解码器（unimodal text decoder）和多模态文本解码器（multimodal text decoder）。与此同时，在输出文本的最初减少一个 cls token。其中，单模态文本解码器不参加对图像特色的 cross-attention，而 cls token 通过单模态解码器之后就能取得整个文本的全局特色。另外，CoCa 在图像编码器中应用 attention pooling 失去图像的全局特色。最初，CoCa 通过两个全局特色就能够实现图像 - 文本的比照学习。

相干材料：

模型代码：towhee.models.coca
论文：CoCa: Contrastive Captioners are Image-Text Foundation Models
更多材料：CoCa：比照 + 生成式工作构建“全能型多模态模型”

出品人：Towhee 技术团队张晨、顾梦佳

VIOLET(VIdeO-LanguagE Transformer) 由 UCSB 和微软联结提出，是一个齐全端到端的 Video-Language Transformer。综合剖析证实，通过视频 Transformer 和 MVM 进行显式工夫建模更加无效。VIOLET 在 5 个视频问题答复工作和 4 个文本到视频检索工作中获得了新的最先进的性能。

Overview of the proposed end-to-end VIdeO-LanguagE Transformer

VIOLET 采纳了视频 Transformer 来明确地模仿视频输出的工夫动静。以前的钻研发现视频输出的预训练任务（如遮蔽帧建模）比拟低效，为此 VIOLET 设计了一个新的预训练任务：遮蔽视觉标记建模 Masked Visual-token Modeling（MVM），用以更好地进行视频建模。具体来说，原始视频帧斑块被 “tokenized “ 为离散的视觉 token，指标是依据被遮蔽的斑块复原原始视觉 token。

相干材料：

模型代码：towhee.models.violet
论文：End-to-End Video-Language Transformers with Masked Visual-token Modeling
更多材料：https://zhuanlan.zhihu.com/p/440800319

出品人：Towhee 技术团队

2022 年新推出的跨模态预训练视频模型 All-in-one 旨在摸索 对立视频了解的解决方案，缩小了模型参数，进步了推理速度，使视频了解更加落地。All-in-one 通过微调后可能被利用到各种上游视频 - 文本工作中，包含文本视频检索、视频问答、多项抉择和视觉常识推理，尤其性能屠榜各大视频问答通用数据集。

All-in-one: Model Overview

通常视频了解模型分为视频编码器、文本编码器、视频文本交融 Transformer 三局部。All-in-one 首次引入了一种端到端的视频语言模型，即 all-in-one Transformer，应用 unified backbone architecture 将原始视频和文本信号嵌入到 joint representations 中。另外，为了克服视频数据的独特工夫信息带来的跨模态挑战，All-in-one 引入了一种 token rolling operation，以非参数形式对 video clips 的时域示意进行编码。

相干材料：