共计 1259 个字符,预计需要花费 4 分钟才能阅读完成。
最近在 GitHub 上发现了一个爆火的开源我的项目。
好家伙,凑近一看,竟然还是 由微软开源,并且和最近煊赫一时的ChatGPT 非亲非故。
我的项目的名字叫做:Visual ChatGPT。
https://github.com/microsoft/visual-chatgpt
这个我的项目最早是 3 月上旬微软开源的,我的项目发表开源后仅用了短短一周,就斩获了 2w+ star。
到当初为止,间隔当初我的项目开源大概过来了 3 周多,仓库 star 数则来到了 28k+,亦堪称是火箭式上涨(doge)。
家喻户晓,ChatGPT 自 2022 年 11 月推出以来,继续走红。
ChatGPT 具备弱小的会话能力,能够了解文字、聊天、写小说、解答问题、编写代码 … 然而目前还并不能间接解决或生成图像。
而 Visual ChatGPT 这个我的项目则能够把 ChatGPT 和一系列视觉根底模型(VFM,Visual Foundation Model)给分割起来,以便实现在 ChatGPT 聊天的过程中来发送和接管图像,也使得 ChatGPT 可能解决更为简单的视觉工作。
讲白了,就是通过 Visual ChatGPT,能够把一系列视觉根底模型给接入 ChatGPT,使得 ChatGPT 能胜任更为简单的视觉解决工作。
Visual ChatGPT 的整体技术架构图如上所示,咱们能够分明地看到 ChatGPT 和视觉根底模型(VFM,Visual Foundation Model)别离位于其中的地位。
一方面,ChatGPT(或 LLM)作为一个通用接口,持续施展它自身的劣势,提供对不同话题的智能了解。另一方面,根底视觉模型 VFM 则通过提供特定畛域的深刻常识来充当领域专家,它们通过交互治理模块(Prompt Manger)进行连贯和适配。
这样聊可能比拟形象,咱们能够拿官网给的一个例子来进行阐明:
1、首先是用户:输出一张黄色的向日葵图片,并且要求 ChatGPT 依据该图像预测深度来生成一朵红花,而后再一步一步将其做成卡通画。
2、接着是交互治理模块(Prompt Manger)发挥作用,在它的协调和管制下,VFM 模块开始发挥作用:
- 首先须要使用深度预计模型来预测并生成图像的深度信息;
- 而后须要使用深度图像模型来生成对应空间深度的红花图像;
- 最初使用 Stable Diffusion 的格调迁徙模型来实现图像格调的变换。
3、最初 Visual ChatGPT 零碎再将最终后果返回给用户,实现本次对话。
说到这里,有趣味的小伙伴能够能够看看微软给出的一篇无关 Visual ChatGPT 的论文。
外面对于这部分的流程解释得十分具体,而且还给出了多轮对话的案例、以及试验后果,有趣味的小伙伴能够看看。
好了,明天的分享就到这里了,感激大家的收看,咱们下篇见。
注:本文在 GitHub 开源仓库「编程之路」https://github.com/rd2coding/Road2Coding 中曾经收录,外面有我整顿的 6 大编程方向 (岗位) 的自学路线 + 知识点大梳理、面试考点、我的简历、几本硬核 pdf 笔记,以及程序员生存和感悟,欢送 star。