JARVIS,一个将LLMs(大模型们)与ML(机器学习)社区连接起来的零碎。

随着ChatGPT的诞生,泛滥大模型也如雨后春笋般涌现,包含斯坦福的Alpaca,Meta的LLAMA,OpenAI的whisper以及stable-diffusion,还有清华大学开源的中文大语言模型ChatGLM。这些大模型专一于各自的畛域,并具备杰出的工作实现能力。目前你只能用alpaca去生成文本,用whisper解决语音,stable-diffusion生成图像。

应用midjourney或者stable-diffusion时,为了生成适合的图像,须要输出失当的prompt(提醒词),不同的prompt生成进去的图像可能有微小的差别,因而许多人会先应用chatGPT,依据形容生成prompt,再将其输出到midjourney中生成图像。

而ChatGPT本就是作为生产力工具呈现的,如此简单的步骤在工程师眼中是不可容忍的。因而JARVIS应运而生。通过将各种不相干的大模型(LLM)串联在一起,去实现繁多大模型无奈实现的工作。在下图的例子中能够很分明的看到大模型能力的晋升。

如图,给JARVIS提出的需要是:生成一张小女孩看书的图片,并且她的姿态和提供的图片里小男孩的姿态一样。而后用语音形容这张新的图片。

这个需要因为波及到几个大模型协同工作,因而目前繁多的大模型无奈解决。而JARVIS会将这个需要分解成几个需要,每一个需要找到适合的大模型去解决,最终胜利实现工作。

零碎要求

  • Ubuntu 16.04 LTS
  • NVIDIA GeForce RTX 3090 * 1
  • RAM > 24GB

筹备工作

JARVIS通过ChatGPT串联各个大模型,因而须要筹备openai.key,JARVIS会须要从huggingface下载大模型,因而还须要筹备huggingface.cookie

我的项目形容

我的项目地址:https://github.com/microsoft/JARVIS

当有了以上资源后,就能够疾速开始你的JARVIS之旅了。

发问:这些图片里有几只斑马?

答复: