关于人工智能:VideoLLaMA-开源大语言模型也能读懂视频了

出品人：Towhee 技术团队

作者：张晨

架构

Video-LLaMA 旨在使解冻的 LLM 可能了解视频中的视觉和听觉内容。如图所示，本文设计了两个分支，即视觉语言分支和音频语言分支，别离将视频帧和音频信号转换为与 LLM 的文本输出兼容的查问示意。

1.1 视觉-语言分支

视觉语言分支旨在使 LLM 可能了解视觉输出。如图左侧所示，它由用于从视频帧中提取特色的解冻预训练图像编码器、用于将工夫信息注入视频帧的地位 embedding 层、用于聚合帧的视频 Q-former 组成级示意和线性层，用于将输入视频示意投影到与 LLM 的文本 embeddings 雷同的维度。

1.2 音频分支

为了解决给定视频的听觉内容，本文引入了音频语言分支。具体来说，它包含一个预训练的音频编码器，（用的是用预训练的 Imagebind），它用于计算给定一小段原始音频的特色，一个地位 embedding 层，用于将工夫信息注入音频片段，一个音频 Q-former，用于交融不同音频片段的特色，和一个线性层，用于将音频示意映射到 LLM 的 embedding 空间。

训练

本文别离训练视觉语言和音频语言分支。第一阶段应用大规模视觉-字幕数据集进行训练，第二阶段应用高质量的指令遵循数据集进行fine-tuning训练。

2.1 视觉-语言分支训练

对于预训练视觉语言分支，本文应用了 Webvid-2M，这是一个大型短视频数据集，带有来自素材网站的文本形容。此外，应用了图像题目数据集 CC595k，该数据集来自 CC3M 。在预训练阶段采纳视频到文本生成工作，即给定视频示意，促使解冻的 LLM 生成相应的文本形容。本文发现很大一部分文字描述不足以反映视频的全部内容。因而，视频中的视觉语义与视频形容中的文本语义并不完全一致。然而，这一阶段旨在利用大量数据并使视频特色蕴含尽可能多的视觉常识。

通过预训练阶段后，模型能够生成视频中的信息内容，但其遵循指令的能力有所降落。因而，在第二阶段，本文 fine-tune 应用高质量的指令数据来构建模型，整合了来自 MiniGPT-4的图像细节形容数据集、来自 LLaVA 的图像指令数据集和来自 Video-Chat 的视频指令数据集。在 fine-tuning 之后，Video-LLaMA 在遵循指令和了解图像和视频方面体现出不凡的能力。

2.2 音频分支训练

因为此类数据的稀有性，间接应用音频文本数据训练音频语言分支十分具备挑战性。音频语言分支中可学习参数的指标是将解冻音频编码器的输入 embedding 与 LLM 的 embedding 空间对齐。鉴于音频文本数据的稀缺性，本文采纳变通策略来实现这一指标。用作音频编码器的 ImageBind 具备将不同模态的 embeddings 对齐到一个公共空间的不凡能力，在跨模态检索和生成工作上展现了令人印象粗浅的性能。因为音频文本数据的稀缺性和视觉文本数据的丰富性，本文应用视觉文本数据训练音频语言分支，遵循与视觉分支雷同的数据和过程。因为 ImageBind 提供的共享 embedding 空间，Video-LLaMA 展现了在推理过程中了解音频的能力，即便音频接口从未在音频数据上进行过训练。

限度

只管 Video-LLaMA 在了解视频中的视觉和听觉内容方面体现出了令人印象粗浅的能力，但它仍处于晚期原型阶段并且存在一些局限性，包含：(1) 无限的感知能力：Video-LLaMA 的性能受到品质和以后训练数据集的规模。本文正在踊跃构建高质量的音频-视频-文本对齐数据集，以加强模型的感知能力(2) handle 长视频的能力无限。长视频（如电影和电视节目）蕴含大量信息，对计算资源提出更高要求。这一挑战依然是钻研界正在踊跃致力解决的一个关键问题(3)幻觉。 Video-LLaMA 继承了解冻 LLM 的幻觉问题。将来更弱小的 LLM 的提高无望缓解这个问题。

参考链接：

代码地址：https://github.com/DAMO-NLP-SG/Video-LLaMA
论文地址：https://arxiv.org/abs/2306.02858
在线测试：https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA

🌟全托管 Milvus SaaS/PaaS 行将上线，由 Zilliz 原厂打造！笼罩阿里云、百度智能云、腾讯云、金山云。目前已反对申请试用，企业用户 PoC 申请或其余商务单干请分割 business@zilliz.com。

如果在应用 Milvus 或 Zilliz 产品有任何问题，可增加小助手微信 “zilliz-tech” 退出交换群。
欢送关注微信公众号“Zilliz”，理解最新资讯。

本文由mdnice多平台公布

关于人工智能:VideoLLaMA-开源大语言模型也能读懂视频了

架构

1.1 视觉-语言分支

1.2 音频分支

训练

2.1 视觉-语言分支训练

2.2 音频分支训练

限度

参考链接：

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于人工智能:VideoLLaMA-开源大语言模型也能读懂视频了

架构

1.1 视觉-语言分支

1.2 音频分支

训练

2.1 视觉-语言分支训练

2.2 音频分支训练

限度

参考链接：

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复