Valley: Video Assistant with Large Language model Enhanced abilitY

大家好,我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」~ 负责某大厂的算法工程师,带来最新的前沿AI常识和工具,包含AI相干技术、ChatGPT、AI绘图等, 欢送大家交换~。

近期基于LLaMA微调的模型有很多,Alpaca,Vicuna都是基于ChatGPT等数据进行文本场景指令微调,LLaVA也应用图文对数据进行了图文场景多模态能力的扩大(这几个模型往期文章都有波及,不分明/感兴趣的能够看)。

而本文提到的Valley则是字节公布的视频场景多模态指令微调LLaMA模型

其中这几个指令微调版本的模型都大差不差,次要还是数据与训练的差别。本文形容Valley当然对标的是其相似模型LLaVA,原文introduction局部翻译批改后如下:

在Valley中,咱们遵循 LLaVA 的先预训练而后指令调整的流程,采纳一个简略的投影模块作为视频、图像和语言模式之间的桥梁。 咱们采纳 CLIP (Radford et al., 2021) 的 ViT-L/14 (Dosovitskiy et al., 2021) 作为视觉编码器(与LLaVA统一),而后提出一种时空池化操作来对立视频和图像输出的视觉编码(模型差别点)。 通过更新投影模块进行预训练,以使对立的视觉嵌入与 LLM 保持一致,其中 Stable-Vicuna (Chiang et al., 2023) 因为其多语言能力而成为抉择的 LLM。 此外,咱们引入了从各种视频工作中收集的多模态指令跟踪数据集,包含视频问答、长形容、随便关系推理和动作辨认。 通过指令微调,最终提出了咱们的视频了解谷多模态根底模型。 作为人工智能助手,咱们预计Valley将在各种视频相干工作中失去宽泛的利用,并帮忙用户以相似于在事实世界中与人聊天的形式更好地了解和解释简单的视频。

联合论文内容,我对Valley的奉献作了概括:

  • 模型:基于LLaVA的办法,增加了时空池化模块应答视频(多帧)场景,将LLaVA从单图扩大为多图(动静长度),同时将LLaVA的Vicuna语言模型换为Stable-Vicuna模型。;
  • 数据:搞了多模态的instruction-following数据集,聚焦于视频了解、比拟多样的工作(包含multi-short captions,带工夫戳的时间性形容、长视频的简单陈说。同时应用了ChatGPT生成对话人和视频内容的对话,进一步加强数据集的品质和多样性。
  • 开源:LLM时代,开源也是奉献~

Related Work

感兴趣的能够通过 相干工作来理解一下LLM的现状,以下为局部机翻:

现有的办法能够分为两种技术路线,一种是利用LLM作为调度器来调度现有的多模态模型,另一种是基于LLM来训练多模态模型。 前者在接管到用户指令和各个根底模型的性能后,将LLM作为控制器逐渐调用相应的模型,并整合各个模型的输入内容生成后果(Wu等,2023;Shen等,2023)。 ,2023;Yang 等人,2023)。 例如,HuggingGPT(Shen et al., 2023)利用ChatGPT依据其性能形容在Hugging Face1中抉择适合的模型并总结其执行后果。 后者为法学硕士装备辅助模块,帮忙他们通过端到端训练了解多模态内容(Li et al., 2023c; Zhu et al., 2023; Zhu et al., 2023; Zhu et al., 2023; Liu et al., 2023; Su 等人,2023;戴等人,2023)。 例如,LLaVA (Liu et al., 2023) 和 MiniGPT-4 (Zhu et al., 2023) 通过投影层将 LLaMA (Touvron et al., 2023) 与视觉编码器连接起来,赋予其了解图像的能力 。 Video-LLaMA (Zhang et al., 2023) 通过 Q-Former 为 LLaMA (Touvron et al., 2023) 提供视觉和音频信息,赋予其基于视频的对话能力。

办法局部

网络结构

在LLaVA(如上图)根底上进行了扩大,将其单图扩大为多图(视频),如下图:

多帧的解决通过时空池化模块,具体:

  1. 有T个图,每个图的特色为 Vcls + 256 个patch token;

  1. 在patch token上做工夫维度的均匀,即T个图均匀,则残余特色为 T个Vcls + 256个均匀后的patch token,下图为patch token的均匀;

  1. 因为patch token的工夫均匀会损失工夫信息(保留空间信息),所以将Vcls token 拼接在patch token前面,最终失去 T+256个视觉Token的输出,下图的V均匀就是patch token;

空间tokens:256 patch(均匀),时序tokens:T个CLS Token;这两个Token最终会通过映射层(Projection)与Text tokens连接在一起送给大模型;

指令微调数据收集

作者基于MSRVTT(10k)、VATEX(22k)、AativityNet(10k)、VIOLIN(5.8k)共多个数据集构建了视频核心多模态指令数据,蕴含3种上下文类型,这些对应的问答对生成通过stable-vicuna生成,如下图

参考LLaVA和VideoChat中生成Prompt的形式,作者也用了下面的3种上下文文本和Stable-Vicuna生成了指令微调数据,如下图。累积42k对话5.8k的问答对,其中对话数据涵盖根底视频内容形容(指标信息等)、工夫内容了解。问答数据蕴含因果推理、字符识别和视频简单内容了解。

训练

同LLaVA相似的两阶段训练形式,第一阶段通过预训练映射层来进行特色对齐第二阶段微调语言模型映射层

映射层预训练

应用图文对、视频文本对两种数据进行预训练,其中图文对为LLaVA的595k CC3M数据,视频文本对为参考LLaVA过滤办法进行过滤的 702K WebVid2M 数据。两种类型数据的Prompt组织形式统一,均为:

如果输出单个图像,则帧数为1。图像-文本对和视频-文本对构建为单轮对话,应用各种问题询问视频内容,并应用相应的题目进行答复。

微调

不止下面提到的42k对话和5.8k的问答对,为了加强对视觉内容的强调,还从LLaVA中收集了150k的图片指令数据、以及VideoChat收集的11k视频指令。

试验局部

没有什么指标,给了几个case大家感触下性能就行

Limitation

  1. 退出音频信息,构建 音、画、文三种模态可感知的多模态模型;
  2. 提供中文感知能力,构建更多的中文多模态数据来加强模型;
  3. 存在LLM固有的幻觉问题(hallucination problem)须要解决。幻觉问题指大模型的输入是谬误的、无意义的、输入与输出是显著不合乎的(比方在摘要生成工作上)等状况,具体可参考:

    1. GPT-4的“hallucination”(幻觉)相干对策
    2. 对话大模型中的事实谬误:ChatGPT 的缺点文本工作_问题
    3. Survey of Hallucination in Natural Language Generation arXiv:2202.03629v5