共计 1521 个字符,预计需要花费 4 分钟才能阅读完成。
在数字时代,视频曾经成为一种次要的内容模式。然而了解和解释视频内容是一项简单的工作,不仅须要视觉和听觉信号的整合,还须要解决上下文的工夫序列的能力。本文将重点介绍称为 video – llama 的多模态框架。Video-LLaMA 旨在使 LLM 可能了解视频中的视觉和听觉内容。论文设计了两个分支,即视觉语言分支和音频语言分支,别离将视频帧和音频信号转换为与 llm 文本输出兼容的查问示意。
video – llama 联合了视频中的视觉和听觉内容,能够进步语言模型对视频内容的了解。他们提出了一个视频 Q -former 来捕获视觉场景的工夫变动,一个音频 Q -former 来整合视听信号。该模型在大量视频图像题目对和视觉指令调优数据集上进行训练,使视觉和音频编码器的输入与 LLM 的嵌入空间对齐。作者发现 video – llama 展现了感知和了解视频内容的能力,并依据视频中出现的视觉和听觉信息产生有意义的反馈。
Video-LLaMa 的外围组件
1、Video Q-former: 一个动静的视觉解释器
Video Q-former 是 video – llama 框架的要害组件。它旨在捕获视觉场景中的工夫变动,提供对视频内容的动静了解。视频 Q -former 跟踪随工夫的变动,以一种反映视频演变性质的形式解释视觉内容。这种动静解释为了解过程减少了一层深度,使模型可能以更细致入微的形式了解视频内容。
VL 分支模型:ViT-G/14 + BLIP-2 Q-Former
- 引入了一个两层视频 Q -Former 和一个帧嵌入层 (利用于每帧的嵌入) 来计算视频示意。
- 在 Webvid-2M 视频题目数据集上训练 VL 分支,并实现视频到文本的生成工作。还将图像 - 文本对 (来自 LLaVA 的约 595K 图像题目) 增加到预训练数据集中,以加强对动态视觉概念的了解。
- 预训练后,应用 MiniGPT-4, LLaVA 和 VideoChat 的指令调优数据进一步微调咱们的 VL 分支。
2、Audio Q-former: 视听集成
Audio Q-former 是 Video-LLaMa 框架的另一个重要组件。它集成了视听信号,确保模型残缺地了解视频内容。Audio Q-former 同时解决和解释视觉和听觉信息,加强对视频内容的整体了解。这种视听信号的无缝集成是 Video-LLaMa 框架的一个要害特色,它在其有效性中起着至关重要的作用。
- AL 分支(音频编码器:ImageBind-Huge)
- 引入两层音频 Q -Former 和音频段嵌入层 (利用于每个音频段的嵌入) 来计算音频示意。
- 因为应用的音频编码器 (即 ImageBind) 曾经跨多个模态对齐,所以只在视频 / 图像指令数据上训练 AL 分支,只是为了将 ImageBind 的输入连贯到语言解码器。
训练过程
模型是在视频图像题目对和视觉指令调优数据集的大量数据集上训练的。这个训练过程将视觉和音频编码器的输入与语言模型的嵌入空间对齐。这种对齐确保了高水平的准确性和理解力,使模型可能依据视频中出现的视觉和听觉信息生成有意义的响应。
作者还提供了预训练的模型:
咱们能够间接下载测试或者微调
影响和后劲
video – llama 模型展现了一种令人印象粗浅的感知和了解视频内容的能力。它基于视频中出现的视觉和听觉信息。这种能力标记着视频了解畛域的重大提高,为各个领域的利用开拓了新的可能性。
例如,在娱乐行业,Video-LLaMa 可用于为视障观众生成精确的语音形容。在教育领域,它能够用来创立交互式学习材料。在平安畛域,它能够用来剖析监控录像,辨认潜在的威逼或异常情况。
论文和源代码在这里:
https://avoid.overfit.cn/post/491be8977ea04aaeb260918c04cc8dac
作者:TutorMaster