上个月 GPT- 4 公布时,我曾写过一篇文章分享过无关 GPT- 4 的几个要害信息。
过后的分享就提到了 GPT- 4 的一个重要个性,那就是 多模态能力。
比方发布会上演示的,输出一幅图(手套掉下去会怎么样?)。
GPT- 4 能够了解并输入给到:它会掉到木板上,并且球会被弹飞。
再比方给 GPT- 4 一张长相奇怪的充电器图片,问为什么这很可笑?
GPT- 4 答复道,VGA 线充 iPhone。
用户甚至还能够间接画一个网站草图拍照丢给 GPT-4,它就能够立马帮忙生成代码。
然而工夫过来了这么久,GPT- 4 像这样的识图性能也迟迟没有凋谢。
就在大家都在期待这个性能凋谢的时候,一个名为 MiniGPT-4 的开源我的项目轻轻做了这件事件。
https://github.com/Vision-CAIR/MiniGPT-4
没错,就是为了加强视觉语言了解。
MiniGPT- 4 背地团队来自 KAUST(沙特阿卜杜拉国王科技大学),是几位博士开发的。
我的项目除了是开源的之外,而且还提供了网页版的 demo,用户能够间接进去体验。
MiniGPT- 4 也是基于一些开源大模型来训练失去的。
团队把图像编码器与开源语言模型 Vicuna(小羊驼)整合起来,并且解冻了两者的大部分参数,只须要训练很少一部分。
训练分为两个阶段。
传统预训练阶段,在 4 张 A100 上应用 500 万图文对,10 个小时内就能够实现,此时训练进去的 Vicuna 已可能了解图像,但生成能力无限。
而后在第二个调优阶段再用一些小的高质量数据集进行训练。这时候的计算效率很高,单卡 A100 只须要 7 分钟。
并且团队正在筹备一个更轻量级的版本,部署起来只须要 23GB 显存,这也就意味着将来能够在一些生产级的显卡中或者就能够进行本地训练了。
这里也给大家看几个例子。
比方丢一张食物的照片进去来取得菜谱。
或者给出一张商品的照片来让其帮忙写一篇文案。
当然也能够像之前 GPT- 4 发布会上演示的那样,画出一个网页,让其帮忙生成代码。
能够说,GPT- 4 发布会上演示过的性能,MiniGPT- 4 根本也都有。
这一点能够说十分 amazing 了!
可能因为目前应用的人比拟多,在 MiniGPT- 4 网页 demo 上试用时会遇到排队的状况,须要在队列中期待。
然而用户也能够自行本地部署服务,过程并不简单。
首先是下载我的项目 & 筹备环境:
git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4
而后下载预训练模型:
最初在本地启动 Demo:
python demo.py --cfg-path eval_configs/minigpt4_eval.yaml
通过这个我的项目咱们也再一次看出大模型在视觉畛域的可行性,将来在图像、音频、视频等方面的利用前景应该也是十分不错的,咱们能够期待一下。
好了,明天的分享就到这里了,感激大家的收看,咱们下期见。
注:本文在 GitHub 开源仓库「编程之路」https://github.com/rd2coding/Road2Coding 中曾经收录,外面有我整顿的 6 大编程方向 (岗位) 的自学路线 + 知识点大梳理、面试考点、我的简历、几本硬核 pdf 笔记,以及程序员生存和感悟,欢送 star。