共计 1897 个字符,预计需要花费 5 分钟才能阅读完成。
出品人:Towhee 技术团队
作者:张晨
架构
Video-LLaMA 旨在使解冻的 LLM 可能了解视频中的视觉和听觉内容。如图所示,本文设计了两个分支,即视觉语言分支和音频语言分支,别离将视频帧和音频信号转换为与 LLM 的文本输出兼容的查问示意。
1.1 视觉 - 语言分支
视觉语言分支旨在使 LLM 可能了解视觉输出。如图左侧所示,它由用于从视频帧中提取特色的解冻预训练图像编码器、用于将工夫信息注入视频帧的地位 embedding 层、用于聚合帧的视频 Q-former 组成级示意和线性层,用于将输入视频示意投影到与 LLM 的文本 embeddings 雷同的维度。
1.2 音频分支
为了解决给定视频的听觉内容,本文引入了音频语言分支。具体来说,它包含一个预训练的音频编码器,(用的是用预训练的 Imagebind),它用于计算给定一小段原始音频的特色,一个地位 embedding 层,用于将工夫信息注入音频片段,一个音频 Q-former,用于交融不同音频片段的特色,和一个线性层,用于将音频示意映射到 LLM 的 embedding 空间。
训练
本文别离训练视觉语言和音频语言分支。第一阶段应用大规模视觉 - 字幕数据集进行训练,第二阶段应用高质量的指令遵循数据集进行 fine-tuning 训练。
2.1 视觉 - 语言分支训练
对于预训练视觉语言分支,本文应用了 Webvid-2M,这是一个大型短视频数据集,带有来自素材网站的文本形容。此外,应用了图像题目数据集 CC595k,该数据集来自 CC3M。在预训练阶段采纳视频到文本生成工作,即给定视频示意,促使解冻的 LLM 生成相应的文本形容。本文发现很大一部分文字描述不足以反映视频的全部内容。因而,视频中的视觉语义与视频形容中的文本语义并不完全一致。然而,这一阶段旨在利用大量数据并使视频特色蕴含尽可能多的视觉常识。
通过预训练阶段后,模型能够生成视频中的信息内容,但其遵循指令的能力有所降落。因而,在第二阶段,本文 fine-tune 应用高质量的指令数据来构建模型,整合了来自 MiniGPT- 4 的图像细节形容数据集、来自 LLaVA 的图像指令数据集和来自 Video-Chat 的视频指令数据集。在 fine-tuning 之后,Video-LLaMA 在遵循指令和了解图像和视频方面体现出不凡的能力。
2.2 音频分支训练
因为此类数据的稀有性,间接应用音频文本数据训练音频语言分支十分具备挑战性。音频语言分支中可学习参数的指标是将解冻音频编码器的输入 embedding 与 LLM 的 embedding 空间对齐。鉴于音频文本数据的稀缺性,本文采纳变通策略来实现这一指标。用作音频编码器的 ImageBind 具备将不同模态的 embeddings 对齐到一个公共空间的不凡能力,在跨模态检索和生成工作上展现了令人印象粗浅的性能。因为音频文本数据的稀缺性和视觉文本数据的丰富性,本文应用视觉文本数据训练音频语言分支,遵循与视觉分支雷同的数据和过程。因为 ImageBind 提供的共享 embedding 空间,Video-LLaMA 展现了在推理过程中了解音频的能力,即便音频接口从未在音频数据上进行过训练。
限度
只管 Video-LLaMA 在了解视频中的视觉和听觉内容方面体现出了令人印象粗浅的能力,但它仍处于晚期原型阶段并且存在一些局限性,包含:(1) 无限的感知能力:Video-LLaMA 的性能受到品质和以后训练数据集的规模。本文正在踊跃构建高质量的音频 - 视频 - 文本对齐数据集,以加强模型的感知能力 (2) handle 长视频的能力无限。长视频(如电影和电视节目)蕴含大量信息,对计算资源提出更高要求。这一挑战依然是钻研界正在踊跃致力解决的一个关键问题(3) 幻觉。Video-LLaMA 继承了解冻 LLM 的幻觉问题。将来更弱小的 LLM 的提高无望缓解这个问题。
参考链接:
代码地址:https://github.com/DAMO-NLP-SG/Video-LLaMA
论文地址:https://arxiv.org/abs/2306.02858
在线测试:https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA
🌟全托管 Milvus SaaS/PaaS 行将上线,由 Zilliz 原厂打造!笼罩阿里云、百度智能云、腾讯云、金山云。目前已反对申请试用,企业用户 PoC 申请或其余商务单干请分割 business@zilliz.com。
- 如果在应用 Milvus 或 Zilliz 产品有任何问题,可增加小助手微信“zilliz-tech”退出交换群。
- 欢送关注微信公众号“Zilliz”,理解最新资讯。
本文由 mdnice 多平台公布