共计 762 个字符,预计需要花费 2 分钟才能阅读完成。
出品人:Towhee 技术团队 顾梦佳
从 AI 作画背地的 Diffusion 到智能聊天里的 ChatGPT,生成模型的热潮一浪接着一浪,仿佛也预示着超大预训练模型就是人工智能的将来。在万众瞩目的 GPT 4.0“官宣”之前,微软率先公布交融了大语言模型和大视觉模型的 Visual ChatGPT。智能对话不再局限于文本类的交换,机器人不仅能够“看图谈话”,还能沟通作画。不同模态的大模型各有千秋却无一全能,因而它们的联合势在必行。Visual ChatGPT 无疑是一个好的开始,正式开启了以 ChatGPT 为根底的拓展钻研。
Architecture of Visual ChatGPTVisual
ChatGPT 没有抉择从头训练一个多模态的模型,而是间接让 ChatGPT“吸取”各种大视觉模型的常识。它设计了一系列“提醒”(Prompts)将来自 22 个大视觉模型的信息注入 ChatGPT。这些提醒会明确通知 ChatGPT 每个大视觉模型的能力,并指定输出和输入的格局。它们还会将不同的视觉信息转换成语言的模式,以帮忙 ChatGPT 更好地了解图像。另外,提醒也会帮忙解决不同大视觉模型的历史、优先级、抵触。Visual ChatGPT 抉择利用这些提醒一直迭代来自大视觉模型的反馈,直到满足用户的要求或达到完结条件。通过在许多案例上进行大量的零样本迁徙试验,Visual ChatGPT 胜利证实了其了解和生成的能力。
相干材料:
我的项目地址:https://github.com/microsoft/visual-chatgpt
论文链接:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
更多材料:https://github.com/microsoft/visual-chatgpt