乐趣区

关于机器学习:2022-全球-AI-模型周报

本周介绍了 5 个视频相干的 SoTA 模型:
VideoMAE 胜利在视频模型中退出超高遮蔽率、ViS4mer 解决长视频高效又低成本、Flamingo 只需小样本就能胜任多种视觉语言工作,VDTN 用多模态的概念从新定义对话状态追踪工作,ActionFormer 率先将 Transformer 利用到时空动作定位工作。

如果你感觉咱们分享的内容还不错,请不要悭吝给咱们一些收费的激励:点赞、喜爱、或者分享给你的小伙伴。
https://github.com/towhee-io/towhee/tree/main/towhee/models


第一个视频 MAE 框架:高遮挡、高性能

出品人:Towhee 技术团队 顾梦佳

受到 ImageMAE 的启发,南大与腾讯联结提出 VideoMAE,率先将 MAE 引入视频了解模型。VideoMAE 应用视频掩码自编码器,高效利用数据进行自监督视频预训练 (SSVP)。应用一些简略的设计,模型就可能无效地克服视频重建过程中因为工夫相关性引起的信息透露问题。 即便当遮挡率很高的时候(90%-95%),模型依然能够取得良好的性能。不仅如此,VideoMAE 在小数据集上(大概 3 - 4 千视频)上获得了令人印象粗浅的后果。此外,无需任何额定数据,VideoMAE 搭配 ViT(视觉 Transformer)骨干网络,在各种公开视频数据集上均能达到优良的成果(Kinetics-400:83.9%,Something-Something V2:75.3%,UCF101:90.8%,HMDB51:61.1%)。

VideoMAE 的要害是与掩码相干的两个设计:极高的掩蔽率和 tube 掩蔽策略。相比于图像 MAE,视频数据在时空维度上存在更多的冗余。为了不让模型从高度类似的相邻帧学到重建的常识,模型应用十分高的遮蔽率从视频中删除工夫立方体。同时,这一操作也升高了编码器 - 解码器架构的预训练老本。为了升高重建过程中的信息泄露危险,模型采纳了 tube 掩蔽策略退出工夫的相关性。

相干材料:

  • 模型代码:https://github.com/MCG-NJU/VideoMAE
  • 论文:Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
  • 更多材料:VideoMAE:南大 MCG& 腾讯 AI Lab 提出第一个视频版 MAE 框架,应用 90% 甚至 95% 遮挡,性能 SOTA!

ViS4mer 仅需 1 / 8 内存,数倍提速长视频分类

出品人:Towhee 技术团队 顾梦佳

Vis4mer 是一种高效的长视频模型,联合了自注意力的劣势和最近引入的结构化状态空间序列(S4)层。比照相应的纯自注意力模型,Vis4mer 的速度晋升了 2.63 倍,而且节俭了 8 倍的显存占用。在长视频了解(LVU)基准的 9 个电影视频分类工作中,ViS4mer 获得了其中 6 个工作的最先进成绩。此外,试验证实 Vis4mer 可能胜利地被推广到其余畛域,在 Breakfast 和 COIN 两个视频动作数据集中获得了具备竞争力的成绩。

已有的大多数视频模型都更实用于短视频,须要简单的计算和长时间的推理能力实现长视频了解工作。最近引入的视频 Transformer 通过应用近程工夫自注意力解决局部问题,然而这须要十分低廉的老本二次运行注意力机制。Vis4mer 应用规范的 Transformer 编码器提取短距离时空特色,随后应用多尺度的工夫 S4 解码器进行长距离的时空推理。逐渐缩小每层解码器的时空特色分辨率和通道维度,Vis4mer 能从视频中学习简单的长距离时空依赖性。

相干材料:

  • 模型代码:https://github.com/md-mohaiminul/ViS4mer
  • 论文:Long Movie Clip Classification with State-Space Video Models

DeepMind 又一力作,超小样本学习,视觉语言模型 Flamingo 刷新各种多模态工作榜单!

出品人:Towhee 技术团队 张晨、顾梦佳

仅应用大量正文示例构建能够疾速适应泛滥工作的模型,是多模态机器学习钻研的一项公开挑战。由 DeepMind 在往年提出的 Flamingo —— 一种视觉语言模型 (VLM) 的新架构,就可能仅靠小样本学习就为各种多模态工作(如图像形容、VQA)刷新 SOTA!在许多基准测试中,Flamingo 的性能超过了那些应用数千倍的特定工作数据进行微调的模型。

Flamingo 的关键在于对架构的翻新:连贯弱小的预训练视觉和语言模型、解决任意交织的视觉和文本数据序列、无缝摄取图像或视频作为输出。因为该架构的灵活性,Flamingo 系列模型能够在蕴含任意交织的文本和图像的大规模多模式网络语料库上进行训练,这也是取得上下文小样本学习能力的要害。Flamingo 摸索了开放式多模态工作(例如视觉问答、形容工作)以及封闭式工作(例如多项抉择视觉问答),证实了该架构的单个模型就能够应用大量学习的最新技术,只需通过特定工作示例提醒模型即可。

相干材料:

  • 模型代码:https://github.com/lucidrains/flamingo-pytorch
  • 论文:Flamingo: a Visual Language Model for Few-Shot Learning
  • 更多材料:少到 4 个示例,击败所有少样本学习:DeepMind 新型 800 亿模型真学会了

多模态模型 VDTN 从新定义对话状态追踪工作

出品人:Towhee 技术团队 王翔宇、顾梦佳

为了在对话中跟踪用户的指标,对话零碎中须要一个重要的组件,即对话状态跟踪器。然而,对话状态跟踪很大受限于单模态模式,状态中的字段 (slots) 都须要依据专业知识事后设计。为了解决这一问题,VDTN 将对话状态拓展成了多模态的模式,追踪视频对话中提到的视觉对象,从新定义了对话状态追踪工作。这一翻新胜利优化了状态生成工作和自监督学习的视频了解工作(如视频宰割、指标辨认),让大家看到了多模态对话零碎的更多后劲。

VTDN 联合物体级别和片段级别的特色,学习视频和对话之间的上下文依赖,从而生成多模态对话状态。该模型由 4 个外围局部形成:视觉感知和编码、对话编码、多模态 Transformer 网络、状态和视觉解码。视觉感知和编码器应用预训练好的 Faster R-CNN 提取视频帧中的物体特色,并应用 ResNeXt 模型提取视频片段级别的表征。对话编码器将对话文本进行编码,并且与传统对话状态追踪相似,将状态信息开展作为序列解决。而后视觉特色与对话特色一起通过多模态 Transformer 架构后,别离进行解码解决,最终生成多模态对话状态。

相干材料:

  • 模型代码:https://github.com/henryhungle/mm_dst
  • 论文:Multimodal Dialogue State Tracking

ActionFormer 率先将 Transformer 利用到时空动作定位工作

出品人:Towhee 技术团队 何俊辰、顾梦佳

ActionFormer 构造简略但设计正当,首次在时空动作定位(TAL)工作中提出 single-stage 与 anchor-free,摸索了将 Transformer 用于 TAL 的要害设计因素。ActionFormer 在 TAL 上胜利取得了 SOTA 体现。例如,ActionFormer 在大型视频数据集 THUMOS14 上大幅超过之前的模型,获得 71.0% mAP;在其余公开的视频数据集上,比方 ActivityNet 1.3 和 EPIC-Kitchens 100,也都体现优异。

ActionFormer 的根本思维很简略,将长视频中的每一帧都当作 action candidate,而后做分类和回归工作。通过分类失去动作类别,回归失去和动作边界的间隔。该模型架构次要由以下局部组成:用于特征提取的骨干网络、用于投影的浅层卷积、重叠数层 Transformer 模块组成的编码器、利用卷积神经网络的解码器。

相干材料:

  • 模型代码:https://github.com/happyharrycn/actionformer_release
  • 论文:ActionFormer: Localizing Moments of Actions with Transformer
  • 更多材料:https://zhuanlan.zhihu.com/p/493296461

如果你感觉咱们分享的内容还不错,请不要悭吝给咱们一些激励:点赞、喜爱或者分享给你的小伙伴!

流动信息、技术分享和招聘速递请关注:https://zilliz.gitee.io/welcome/

如果你对咱们的我的项目感兴趣请关注:

用于存储向量并创立索引的数据库 Milvus

用于构建模型推理流水线的框架 Towhee

退出移动版