关于人工智能:HuggingGPT强势来袭LLM专家模型迈向更通用的AI

50次阅读

共计 1861 个字符,预计需要花费 5 分钟才能阅读完成。

出品人:Towhee 技术团队

超级组合:HuggingFace + ChatGPT = HuggingGPT 强势来袭。人类好像间隔真正的 AGI 又更近了一步。

HuggingGPT 是浙江大学与微软亚洲研究院的联手钻研,公布之后迅速引发关注,曾经开源。

它的应用非常简单,比方给定一个简单 AI 工作,如“请生成一个女孩正在读书的图像,她的姿态与图像 example.jpg 中的男孩雷同。而后请用您的声音形容新图像。”。HuggingGPT 能为你主动剖析所需 AI 模型,间接调用 HuggingFace 上的对应模型,帮忙你执行并实现工作。整个过程中,你只需用自然语言表白需要。它就能帮你主动剖析须要哪些 AI 模型,而后间接去调用 HuggingFace 上的相应模型,来帮你执行直到实现。

HuggingGPT 的外围概念是将语言作为 LLMs 与其余人工智能模型之间的通用接口。这一翻新策略使得 LLMs 能够调用内部模型,进而解决各种简单的人工智能工作。HuggingGPT 的设计强调了工作布局、模型抉择、工作执行和响应生成四个阶段,使得整个零碎能够高效地协调不同模型,解决多模态信息和简单数字智能工作。

  • 工作布局:应用 ChatGPT 剖析用户申请以理解其用意,并通过提醒将其拆分为可能可解决的工作。
  • 模型抉择:为了解决打算中的工作,ChatGPT 依据模型形容从托管在 Hugging Face 上的专家模型中抉择模型。
  • 工作执行:调用和执行每个抉择的模型,并将后果返回给 ChatGPT。
  • 响应生成:最初,应用 ChatGPT 将所有模型的预测整合起来,并为用户生成答案。

在这个例子里,对于输出的指令,“请生成一个女孩正在读书的图像,她的姿态与图像 example.jpg 中的男孩雷同。而后请用您的声音形容新图像。”

HuggingGPT 在第一步,工作布局中,设计了 6 个工作,pose-control, pose-to-image, image-class, object-det, image-to-text, text-to-speech,并安顿了它们的依赖关系。第二步中,ChatGPT 依据模型形容从候选在 huggingface 上的专家模型中抉择模型,它们可能是在线的,可能是下载的。第三步,代码去真正执行对应的 huggingface 上的专家模型。第四步,将所有模型的预测整合起来,并为用户生成最初的返回。能够看到,的确就是去找了姿势相干的模型,生成了一个同样姿势的小女孩读书的图像,真的是十分神奇。

HuggingGPT 曾经在 Hugging Face 上胜利集成了数百个模型,笼罩了 24 个工作,例如文本分类、指标检测、语义宰割、图像生成、问答、文本转语音和文本转视频。试验后果证实了 HuggingGPT 在解决多模态信息和简单人工智能工作方面的弱小能力,为实现先进人工智能开拓了新的路线。

上面放几个论文中的例子,能够看到,对于各种模态组合的简单工作,HuggingGPT 都解决得很好:

< 生成一个名为“宇航员在太空中行走”的视频,并加上配音。

< 给定一组图片 A:/examples/a.jpg,B:/examples/b.jpg,C:/examples/c.jpg,请问这些图片中有几只斑马?

目前在 huggingface 官网上曾经凋谢了 gradio 试用:https://huggingface.co/spaces/microsoft/HuggingGPT,大家能够快去试试。

当然,HuggingGPT 也有一些短板。比方效率,效率的瓶颈在于大型语言模型的推理。对于每一轮用户申请,HuggingGPT 在工作布局、模型抉择和响应生成阶段至多须要与大型语言模型进行一次交互。这些交互大大增加了响应提早,导致用户体验降落。第二个限度是最大上下文长度。受限于 LLM 能承受的最大标记数量,HuggingGPT 也面临着最大上下文长度的限度。它应用了对话窗口,在工作布局阶段仅跟踪对话上下文以加重这一限度。第三个是零碎稳定性,包含两个方面。一个是大型语言模型推理过程中呈现的叛变景象。大型语言模型在推理过程中偶然无奈遵循批示,输入格局可能不合乎预期,导致程序工作流中的异样。第二个是 Hugging Face 推理的专家模型的不可控状态。Hugging Face 上的专家模型可能受到网络提早或服务状态的影响,导致工作执行阶段出错。

相干材料:

  • 我的项目地址:https://github.com/microsoft/JARVIS
  • 相干论文:

    • https://arxiv.org/abs/2303.17580

本文由 mdnice 多平台公布

正文完
 0