Auto-GPT 到底是一个开创性的我的项目,还是一个被适度炒作的 AI 试验?本文为咱们揭开了清静背地的假相,并揭示了 Auto-GPT 不适宜理论利用的生产局限性。
背景介绍
这两天,Auto-GPT,一款让最强语言模型 GPT-4 可能自主实现工作的模型,一夜成名,让整个 AI 圈疯了。短短七天工夫,它就在 GitHub 上取得了惊人 Star 数量,曾经冲破 5 万,并吸引了有数开源社区的关注。
此前爆火的 ChatGPT,惟一不太好用的中央,就是须要人类输出 Prompt。而 Auto-GPT 的一大冲破是,能够让 AI 自我提醒,换句话说,AI 都齐全不须要咱们人类了?
在为 Auto-GPT 狂欢的同时,咱们也有必要退一步扫视其潜在的不足之处,探讨这个「AI 神童」所面临的局限和挑战。
接下来,肖涵博士将和咱们深入探讨 Auto-GPT 到底是一个开创性的我的项目,还是另一个被适度炒作的人工智能试验。
Auto-GPT 是如何工作的?
不得不说,Auto-GPT 在 AI 畛域掀起了微小的波澜,它就像是赋予了 GPT-4 记忆和实体一样,让它可能独立应答工作,甚至从教训中学习,一直进步本人的性能。
为了便于了解 Auto-GPT 是如何工作的,让咱们能够用一些简略的比喻来合成它。
首先,设想 Auto-GPT 是一个老谋深算的机器人。
咱们每调配一个工作,Auto-GPT 都会给出一个相应的解决打算。比方,须要浏览互联网或应用新数据,它便会调整其策略,直到工作实现。这就像领有一个能解决各种工作的私人助手,如市场剖析、客户服务、市场营销、财务等。
具体来说,想让 Auto-GPT 运行起来,就须要依附以下 4 个组件:
1. 架构
Auto-GPT 是应用弱小的 GPT-4 和 GPT-3.5 大型语言模型构建的,它们充当机器人的大脑,帮忙它思考和推理。
2. 自主迭代
这就像机器人从谬误中学习的能力。Auto-GPT 能够回顾它的工作,在以前的致力的根底上再接再厉,并利用它的历史来产生更精确的后果。
3. 内存治理
与向量数据库(一种内存存储解决方案)集成,使 Auto-GPT 可能保留上下文并做出更好的决策。这就像给机器人装备了长时记忆,能够记住过来的经验。
4. 多功能性
Auto-GPT 的文件操作、网页浏览和数据检索等性能使其用处宽泛。这就像赋予机器人多种技能来解决更宽泛的工作。
然而,这些迷人的前景可能还尚未转化为 Auto-GPT 真正能够实现的能力。
天价老本
想要在事实的生产环境中应用 Auto-GPT,首先面临的阻碍便是其昂扬的老本。
因为工作须要通过一系列的思维迭代来实现,为了供更好的推理和提醒,模型每个 step 通常都会用尽所有 token。
然而,GPT-4 的 token 并不便宜。
依据 OpenAI 的定价,具备 8K 上下文窗口的 GPT-4 模型,对于提醒局部,每 1000 个 token 免费 0.03 美元;而对于后果局部,每 1000 个 token 免费 0.06 美元。
而 1000 个 token 大略能够换算成 750 个英文单词。
让咱们合成思维链中每一步的老本,假如每个动作都用尽了 8000 个 token 的上下文窗口,其中 80% 是提醒(6400 个 token),20% 是后果(1600 个 token)。
- 提醒老本:6400 个 token x 0.03 美元 /1000 个 token = 0.192 美元
- 后果老本:1600 个 token x 0.06 美元 /1000 个 token = 0.096 美元
因而,每个 Step 的老本就是:0.192 美元 + 0.096 美元 = 0.288 美元
均匀而言,Auto-GPT 实现一项小工作须要 50 个 step。
因而,实现单个工作的老本就是:50 个 step x 0.288 美元 /step = 14.4 美元
VUEGPT THOUGHTS: Let's start by checking if there are any updates to VueJS. If there are, we can update to the latest version and proceed. Otherwise, we can move on to creating the TODO list website application.
REASONING: Starting with the most updated and stable version of the framework will ensure our project has the latest features, bug fixes and is properly supported. Creating the TODO list website application is our primary goal, so we can move on to that if there are no updates.
PLAN:
- Check for VueJS updates
- Update to latest version if there are updates
- If no updates, move on to creating the TODO list website application
CRITICISM: None
NEXT ACTION: COMMAND = google ARGUMENTS = {'input': 'VueJS latest version update'}
Enter 'y' to authorise command, 'y -N' to run N continuous commands, 'n' to exit program, or enter feedback for VueGPT...
以 VueGPT 为例:这是一个 Auto-GPT 创立的 AI,旨在应用 Vue JS 创立网站应用程序,咱们来看看它在思维链中的一个步骤
而且这还是一次就能出后果的状况,如果须要从新生成,老本会更高。
从这个角度来看,Auto-GPT 目前对大部分用户和组织来说,都是不事实的。
开发到生产的难题
乍一看,花 14.4 美元来实现一项简单的工作,如同并无不妥。
举个例子,咱们首先让 Auto-GPT 制作一份圣诞节食谱。而后,再找它要一份感恩节食谱的话,猜猜会产生什么?
没错,Auto-GPT 会依照雷同的思维链从头再做一遍,也就是说,咱们须要再花 14.4 美元才行。
但实际上,这两个工作在「参数」的区别应该只有一个:节日。
既然咱们曾经花了 14.4 美元开发了一种创立食谱的办法,那么再用化雷同的钱来调整参数,显然是不合乎逻辑的。
设想一下,在玩《我的世界》(Minecraft),每次都要从头开始建造所有。显然,这会让游戏变得十分无趣。
而这便裸露了 Auto-GPT 的一个基本问题:它无奈辨别开发和生产。
当 Auto-GPT 实现指标时,开发阶段就实现了。可怜的是,咱们并没有方法将这一系列操作「序列化」为一个可重用的函数,从而投入生产。
因而,用户每次想要解决问题时都必须从开发的终点开始,不仅费时费力,而且还费钱。
这种低下效率,引发了对于 Auto-GPT 在事实世界生产环境中实用性的质疑,也突显了 Auto-GPT 在为大型问题解决提供可继续、经济无效的解决方案方面的局限性。
循环泥潭
不过,如果 14.4 美元真的能解决问题,那么它依然是值得的。
但问题在于,Auto-GPT 在理论应用时,常常会陷入到死循环里……
那么,为什么 Auto-GPT 会陷入这些循环?
要了解这一点,咱们能够把 Auto-GPT 看作是依赖 GPT 来应用一种非常简单的编程语言来解决工作。
解决工作的胜利取决于两个因素:编程语言中可用的函数范畴和 GPT 的分治法能力(divide and conquer),即 GPT 可能多好地将工作分解成预约义的编程语言。遗憾的是,GPT 在这两点上都是有余的。
Auto-GPT 提供的无限性能能够在其源代码中察看到。例如,它提供了用于搜寻网络、治理内存、与文件交互、执行代码和生成图像的性能。然而,这种受限的功能集放大了 Auto-GPT 可能无效执行的工作范畴。
此外,GPT 的合成和推理能力依然受到限制。只管 GPT-4 相较于 GPT-3.5 有了显著的改良,但其推理能力远非完满,进一步限度了 Auto-GPT 的解决问题的能力。
这种状况相似于尝试应用 Python 构建像《星际争霸》这样简单的游戏。尽管 Python 是一种弱小的语言,但将《星际争霸》合成为 Python 函数极具挑战性。
实质上,无限功能集和 GPT-4 受限的推理能力的联合,最终造成了这个循环的泥潭,使 Auto-GPT 在许多状况下无奈实现预期的后果。
人类与 GPT 的区别
分治法是 Auto-GPT 的要害。只管 GPT-3.5/4 在后任根底上有了显著的提高,但在应用分治法时,其推理能力依然无奈达到人类程度。
1. 问题合成不充沛
分治法的有效性在很大水平上取决于将简单问题合成为较小、易于治理的子问题的能力。人类推理通常能够找到多种合成问题的办法,而 GPT-3.5/4 可能没有同样水平的适应性或创造力。
2. 辨认适合根本案例的难度
人类能够直观地抉择适当的根本案例以失去无效的解决方案。相比之下,GPT-3.5/4 可能难以确定给定问题的最无效根本案例,这会显著影响分治过程的整体效率和准确性。
3. 问题背景了解不充沛
尽管人类能够利用其畛域常识和背景了解来更好地应答简单问题,但 GPT-3.5/4 受其事后训练的常识所限,可能不足用分治法无效解决某些问题所需的背景信息。
4. 解决重叠子问题
人类通常能够辨认出解决重叠子问题时,并有策略地重用先前计算过的解决方案。而 GPT-3.5/4 可能没有同样水平的意识,可能会屡次冗余地解决雷同的子问题,从而导致解决方案的效率升高。
向量数据库:矫枉过正的解决方案
Auto-GPT 依赖向量数据库进行更快的 k- 最近邻(kNN)搜寻。这些数据库检索先前的思维链,并将它们融入到以后查问上下文中,以便为 GPT 提供一种记忆成果。
然而,思考到 Auto-GPT 的束缚和局限性,这种办法被批评为适度且不必要地耗费资源。其中,拥护应用向量数据库的次要论点源于 与 Auto-GPT 思维链相干的老本束缚。
一个 50 步的思维链将破费 14.4 美元,而一个 1000 步的链将破费更多。因而,记忆大小或思维链的长度很少超过四位数。在这种状况下,对最近邻点进行穷举搜寻(即 256 维向量与 10000 x 256 矩阵之间的点积)被证实是足够高效的,用时不到一秒钟。
相比之下,每个 GPT-4 调用大概须要 10 秒钟来解决,所以实际上限度零碎处理速度的是 GPT,而非数据库。
只管在特定场景下,向量数据库可能在某些方面具备劣势,但在 Auto-GPT 零碎中实现向量数据库以减速 kNN“长时记忆”搜寻仿佛是一种不必要的侈靡和适度的解决方案。
智能体机制的诞生
Auto-GPT 引入了一个十分乏味的概念,让生成智能体 (Agent) 来委派工作。
尽管,这种机制还处于初级阶段,其后劲尚未被充沛开掘。不过,有多种办法能够加强和扩大以后的智能体零碎,为更高效、更具动态性的互动提供新的可能性。
一个潜在的改良是 引入异步智能体。通过联合异步期待模式,智能体能够并发操作而不会阻塞彼此,从而显著进步零碎的整体效率和响应速度。这个概念受到了古代编程范式的启发,这些范式曾经采纳了异步办法来同时治理多个工作。
另一个有前景的方向是 实现智能体之间的互相通信。通过容许智能体进行通信和合作,它们能够更无效地独特解决简单问题。这种办法相似于编程中的 IPC 概念,其中多个线程 / 过程能够共享信息和资源以实现独特指标。
生成式智能体是将来的方向
随着 GPT 驱动的智能体一直倒退,这种翻新办法的将来仿佛非常光明。
新的钻研,如「Generative Agents: Interactive Simulacra of Human Behavior」,强调了基于智能体的零碎在模仿可信的人类行为方面的后劲。
论文中提出的生成式智能体,能够以简单且引人入胜的形式互动,造成观点,发动对话,甚至自主打算和加入流动。这项工作 进一步反对了智能体机制在 AI 倒退中具备前景的论点。
通过拥抱面向异步编程的范式转变并促成智能体间通信,Auto-GPT 能够为更高效和动静的问题解决能力开拓新可能。
将《生成式智能体》论文中引入的架构和交互模式融入其中,能够实现大型语言模型与计算、交互式智能体的交融。这种组合有可能彻底改变在 AI 框架内调配和执行工作的形式,并实现更为真切的人类行为模仿。
智能体零碎的开发和摸索可极大地促成 AI 利用的倒退,为简单问题提供更弱小且动静的解决方案。
总结
总之,围绕 Auto-GPT 的热议引发了对于 AI 钻研现状以及公众了解在推动新兴技术炒作中的作用的重要问题。
正如下面所展现的,Auto-GPT 在推理能力方面的局限性、向量数据库的适度应用以及智能体机制的晚期倒退阶段,揭示了它间隔成为理论解决方案还有很长的路要走。
围绕 Auto-GPT 的炒作,揭示咱们浮浅的了解可能让冀望过高,最终导致对 AI 真正能力的扭曲意识。
话虽如此,Auto-GPT 的确为 AI 的将来指明了一个充满希望的方向:生成式智能体零碎。
最初,肖涵博士总结道:「让咱们从 Auto-GPT 的炒作中吸取教训,造就对于 AI 钻研的更为粗疏和知情的对话。」
这样,咱们就能够利用生成式智能体零碎的改革力量,持续推动 AI 能力的边界,塑造一个技术真正造福人类的将来。
作者:Jina AI 创始人兼 CEO 肖涵博士
译者:新智元编辑部
原文链接:https://jina.ai/news/auto-gpt-unmasked-hype-hard-truths-produ…
本文由 mdnice 多平台公布