关于chatgpt:Visual-ChatGPT跟聊天机器人一起绘画

出品人：Towhee 技术团队顾梦佳

从 AI 作画背地的 Diffusion 到智能聊天里的 ChatGPT，生成模型的热潮一浪接着一浪，仿佛也预示着超大预训练模型就是人工智能的将来。在万众瞩目的 GPT 4.0“官宣”之前，微软率先公布交融了大语言模型和大视觉模型的 Visual ChatGPT。智能对话不再局限于文本类的交换，机器人不仅能够“看图谈话”，还能沟通作画。不同模态的大模型各有千秋却无一全能，因而它们的联合势在必行。Visual ChatGPT 无疑是一个好的开始，正式开启了以 ChatGPT 为根底的拓展钻研。

Architecture of Visual ChatGPTVisual

ChatGPT 没有抉择从头训练一个多模态的模型，而是间接让 ChatGPT“吸取”各种大视觉模型的常识。它设计了一系列“提醒”（Prompts）将来自 22 个大视觉模型的信息注入 ChatGPT。这些提醒会明确通知 ChatGPT 每个大视觉模型的能力，并指定输出和输入的格局。它们还会将不同的视觉信息转换成语言的模式，以帮忙 ChatGPT 更好地了解图像。另外，提醒也会帮忙解决不同大视觉模型的历史、优先级、抵触。Visual ChatGPT 抉择利用这些提醒一直迭代来自大视觉模型的反馈，直到满足用户的要求或达到完结条件。通过在许多案例上进行大量的零样本迁徙试验，Visual ChatGPT 胜利证实了其了解和生成的能力。

相干材料：
我的项目地址：https://github.com/microsoft/visual-chatgpt
论文链接：Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
更多材料：https://github.com/microsoft/visual-chatgpt