关于机器学习:多模态大语言模型-LlaVA-论文解读Visual-Instruction-Tuning

60次阅读

共计 2554 个字符，预计需要花费 7 分钟才能阅读完成。

代码：https://github.com/haotian-liu/LLaVA

在这篇论文中，作者首次尝试应用 纯语言 GPT-4 生成多模态语言图像指令遵循数据 （insruction-following data）。通过对此类生成数据进行指令调整，推出了 大型语言和视觉助手（Large Language and Vision Assistant，LLaVA）。一种端到端训练的大型多模态模型，连贯视觉编码器和 LLM 以实现通用视觉和语言了解。

背景等相干办法：大型语言模型（LLM）表明语言能够施展更宽泛的作用：通用助手的通用接口，各种工作指令能够用语言明确示意并领导端到端训练有素的神经助手切换到感兴趣的工作来解决它。例如，最近 ChatGPT 和 GPT-4 的胜利证实了对齐 LLM 在遵循人类指令方面的力量，并激发了人们对开发开源 LLM 的极大趣味。其中，LLaMA [44] 是一个与 GPT-3 性能相匹配的开源 LLM。Alpaca [43]、Vicuna [45]、GPT-4-LLM [34]利用各种机器生成的高质量指令追随样本来进步 LLM 的对齐能力，与专有 LLM 相比，报告了令人印象粗浅的性能。重要的是，这行工作是纯文本的。

不同于下面文本的指令微调，作者提出了视觉指令微调，第一个尝试将指令微调拓展到多模态畛域调整。奉献如下：

数据方面：应用 ChatGPT/GPT- 4 来将数据转化为多模态指令遵循数据（multimodel instrustion-following data）；
模型方面：应用 CLIP+LLaMA 进行指令微调，构建了多模态大模型 LLaVA，失去了较好的后果；
开源，开源，还是开源！这年头大模型开源都算次要 contribution 了。

这部分我写的比拟细，因为当初大模型论文在模型上区别并不大，次要还是数据的区别。

基于已有的大量图片对数据，利用 ChatGPT/GPT- 4 进行多模态指令遵循数据的收集。次要问题集中在如何用 Language-only/Text-only 的 ChatGPT/GPT- 4 模型来为图片内容生成对应的指令。

最根本的形式：图片 Xv和其对应的 阐明文字 Xc，构建一个 问题汇合 Xq来提醒大模型助手对图片内容进行形容。通过提醒 GPT- 4 能够构建这样一个问题序列，如下图：

而后能够将图文对扩大成指令遵循版本的数据格式：Human: Xq Xv <STOP> \n Assistant: Xc <STOP> \n。

但这样结构的数据都 不足多样性和深刻推理性 ，为了补救这一问题，作者 将视觉内容编码送进 ChatGPT来进步指令的品质，用了两类的合乎示意：文字说明 （通常从不同的角度形容视觉场景）和 编辑框 BBox（通常对场景中的物体进行定位，每个边界框对物体的概念及其空间地位进行编码），如下图：

通过这两类合乎示意，将视觉内容传播给了大模型，而后手工设计了 3 种对话形式，利用 GPT- 4 进行生成和裁减，别离是 对话、细节形容 和简单推理。

这里的每种类型应用的问题（Question）也是通过 GPT 进行 in-context-learning 来模拟生成的。其中，图片 / 形容 / 边界框等信息应用 COCO 数据集的数据。

以对话为例，作者采纳了下图的形式生成更多的对话标签。

最终累积 158K 的语言 - 图片指令遵循样本，58K 对话、23K 细节形容和 77K 简单推理。同时在应用 ChatGPT 和 GPT- 4 时，作者发现 GPT- 4 生成的指令遵循数据品质更高，比方空间推理能力。

与 GPT-4-LLM[34], Alpaca[43], Vicuna[45]相似，作者应用 LLaMA 来做指令微调工作，网络结构如下。整体比较简单，再语言模型前（LLaMA）增加了一个视觉编码器（CLIP）将图片转化为 Patch features，而后这些图片特色通过一个映射层 W 转化为视觉 Token，Vison Token 与 Language Token 指令在同一个特色空间，一起拼接（concantate）一起送进大模型。

这里的映射层 W 能够替换为更简单的网络来晋升性能。

应用如下图的形式组织输入输出，其中绿色局部为参加损失计算的局部，损失应用自回归模型的损失，即 next token prediction。

作者应用了两阶段的训练形式：

预训练特色对齐模块（映射层 W）；
端对端的微调语言模型 + 映射层。

miniGPT- 4 的同期工作: 微软 LLaVa 模型论文笔记：https://zhuanlan.zhihu.com/p/625723805

Visual Instruction Tuning：https://zhuanlan.zhihu.com/p/624071363

[34] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, and Jianfeng Gao. Instruction tuning with GPT-4.

[43] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Stanford alpaca: An instruction-following llama model. https://github.com/tatsu-lab/stanford_alpaca, 2023

[44] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timo- thée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[45] Vicuna. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality. https: //vicuna.lmsys.org/, 2023.

正文完

机器学习

发表至：机器学习

2023-06-26

0

关于机器学习:OpenAI-和谷歌最怕的是一张开源笑脸

关于机器学习:446k-Stars-一键运行全网最强深度学习教程

PCA降维

关于机器学习:YOLOv5LabVIEWYOLOv5快速实现实时物体识别Object-Detection含源码

关于数据库:云原生时代数据治理的变革与创新

关于机器学习:多模态大语言模型-LlaVA-论文解读Visual-Instruction-Tuning

总览

GPT- 帮助的数据生成

网络结构

模型训练

试验成果

其余能够学习的文章

参考文献

Just My Socks（注册教程内含优惠码）

关于机器学习:多模态大语言模型-LlaVA-论文解读Visual-Instruction-Tuning

总览

GPT- 帮助的数据生成

网络结构

模型训练

试验成果

其余能够学习的文章

参考文献

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）