关于javascript:一个令人惊艳的ChatGPT项目开源了

39次阅读

共计 1259 个字符，预计需要花费 4 分钟才能阅读完成。

最近在 GitHub 上发现了一个爆火的开源我的项目。

好家伙，凑近一看，竟然还是 由微软开源，并且和最近煊赫一时的ChatGPT 非亲非故。

我的项目的名字叫做：Visual ChatGPT。

https://github.com/microsoft/visual-chatgpt

这个我的项目最早是 3 月上旬微软开源的，我的项目发表开源后仅用了短短一周，就斩获了 2w+ star。

到当初为止，间隔当初我的项目开源大概过来了 3 周多，仓库 star 数则来到了 28k+，亦堪称是火箭式上涨（doge）。

家喻户晓，ChatGPT 自 2022 年 11 月推出以来，继续走红。

ChatGPT 具备弱小的会话能力，能够了解文字、聊天、写小说、解答问题、编写代码 … 然而目前还并不能间接解决或生成图像。

而 Visual ChatGPT 这个我的项目则能够把 ChatGPT 和一系列视觉根底模型（VFM，Visual Foundation Model）给分割起来，以便实现在 ChatGPT 聊天的过程中来发送和接管图像，也使得 ChatGPT 可能解决更为简单的视觉工作。

讲白了，就是通过 Visual ChatGPT，能够把一系列视觉根底模型给接入 ChatGPT，使得 ChatGPT 能胜任更为简单的视觉解决工作。

Visual ChatGPT 的整体技术架构图如上所示，咱们能够分明地看到 ChatGPT 和视觉根底模型（VFM，Visual Foundation Model）别离位于其中的地位。

一方面，ChatGPT(或 LLM)作为一个通用接口，持续施展它自身的劣势，提供对不同话题的智能了解。另一方面，根底视觉模型 VFM 则通过提供特定畛域的深刻常识来充当领域专家，它们通过交互治理模块（Prompt Manger）进行连贯和适配。

这样聊可能比拟形象，咱们能够拿官网给的一个例子来进行阐明：

1、首先是用户：输出一张黄色的向日葵图片，并且要求 ChatGPT 依据该图像预测深度来生成一朵红花，而后再一步一步将其做成卡通画。

2、接着是交互治理模块（Prompt Manger）发挥作用，在它的协调和管制下，VFM 模块开始发挥作用：

3、最初 Visual ChatGPT 零碎再将最终后果返回给用户，实现本次对话。

说到这里，有趣味的小伙伴能够能够看看微软给出的一篇无关 Visual ChatGPT 的论文。

外面对于这部分的流程解释得十分具体，而且还给出了多轮对话的案例、以及试验后果，有趣味的小伙伴能够看看。

好了，明天的分享就到这里了，感激大家的收看，咱们下篇见。

注：本文在 GitHub 开源仓库「编程之路」https://github.com/rd2coding/Road2Coding 中曾经收录，外面有我整顿的 6 大编程方向 (岗位) 的自学路线 + 知识点大梳理、面试考点、我的简历、几本硬核 pdf 笔记，以及程序员生存和感悟，欢送 star。

正文完

发表至： javascript

2023-04-04

0

关于前端:函数柯里化的概念及案例