共计 3962 个字符,预计需要花费 10 分钟才能阅读完成。
近年来,人工智能(AI)技术的飞速发展引起了宽泛的关注和探讨。而现在,咱们正站在一个全新的时代门槛前,面对着 AI Agent 带来的的簇新将来。以 LLM(大型语言模型)作为其外围控制器构建代理是一个很酷的概念。它模仿人类的工作流程,可能自主进行信息搜寻、剖析、利用,以实现指标。
OpenAI 联结创始人 Andrej Karpathy 在 Twitter 上用比喻形容了 AI Agent 的过程:每一次 GPT 的调用就像一次思考。通过将他们串联起来,就能够创立出能够感知、思考和口头的 Agent 零碎。
目前曾经存在不少 AI Agent 零碎的案例,例如 AutoGPT、BabyAGI、Camel、Jarvis、AgentGPT 等。
AI Agent 零碎是如何工作的?
AI Agent 零碎如此弱小,那么他到底是如何工作的呢?
在 AI Agent 零碎中,LLM 引擎充当其大脑,为其提供了弱小的解决能力和智能思维。除此之外,还辅以几个要害组件:
- 工作布局:为 AI Agent 零碎提供工作合成 (task decomposition) 和自我反思 (self reflection) 的能力。
- 记忆:为 AI Agent 零碎提供长时间保留和回顾额定信息的能力。
- 工具应用:让 AI Agent 能够对外部做出动作,实在地影响事实世界。
工作布局
AI 机器人(AI-BOT)在工作合成阶段,通常是应用思维链(CoT, Chain of Thoughts) 和思维树(ToT, Tree of Thoughts) 等技术。
CoT 通过“think step by step”(分步思考),将简单工作逐渐合成为更小、更简略的步骤。它将大工作拆分为多个能够实现的小工作,并说明了 LLM 思考推理的过程。
ToT 则尝试同时思考多个潜在的可行打算。它在每一步尝试摸索更多可能性,首先将问题合成为多个思考步骤,并在每个步骤中生成多个思考,从而创立一个思维树。
而在自我反思阶段,AI Agent 回顾过去的口头和决策,并纠正以前的谬误来迭代改良本身。自我反思目前罕用的技术有 ReAct、Reflextion、Chain of Hindsight 等。
ReAct 通过追踪 LLM 的推理过程来让模型优化、跟踪和更新行动计划,并能解决异常情况。
Reflextion 则比 ReAct 更进一步,在 ReAct 的流程中退出推理评估来尝试改良推理后果。
Chain of Hindsight 则是通过大量的反馈后果中学习并优化推理后果。
记忆
人脑的记忆分为三种:感官记忆、短期记忆和长期记忆。
感官记忆是人的视觉、听觉、触觉等反馈而来的记忆,通常只有数秒;短期记忆是人以后正在执行的认知工作的相干记忆,通常会继续数十秒;长期记忆则是人过往的经验和回顾,通常会长达数十年,咱们的大脑会在须要时主动从长期记忆中提取出对应的记忆来应用。
AI Agent 也模仿了人脑记忆的应用过程,对于较短的感官记忆和短期记忆,AI Agent 能够间接将其放入上下文中;而对于长期记忆,AI Agent 将其存储在内部,须要时再依据须要提取出相干的记忆来应用。
咱们当初通常应用向量数据库来存储、搜寻内部记忆,它应用最大内积搜寻 (MIPS) 的技术来对记忆进行相关性搜寻,目前罕用的 MIPS 的算法有 LSH、ANNOY、HNSW、FAISS、ScaNN 等。
工具应用
工具的应用也是很重要的环节,工作布局、反思和记忆只是让 AI Agent 有了思考的能力,然而他还须要能应用工具能力做出具体的口头。给 AI Agent 拆卸上工具,相当于给予了他手足,让他可能通过利用各种工具和资源来实现工作。
目前的 ChatGPT Plugins 和 OpenAI API function calling 都是 LLM 应用工具的十分好的实际案例。除此之外,还有 MRKL、TALM、Toolformer、HuggingGPT 和 API Bank 等应用工具的办法。
AI Agent 的经典案例: Auto GPT
AutoGPT 是一个实验性的开源 AI Agent 程序,它利用 GPT- 4 来自主治理工作,例如创立网站、撰写文章、生成 Logo 或推广产品等。它能够拜访互联网,并收集、剖析各种信息,从网络中学习并实现工作。
AutoGPT 的惊人之处在于它的自治性。他是齐全独立运作的,不须要使用者的额定干涉。他还领有长期和短期记忆系统,这让他能记住过往做过的事件,从教训中学习,并依据过来的口头自行优化决策,这让它能够随着工夫一直自我改良。
AI Agent 尚未解决的问题
AI Agent 的倒退和利用在许多畛域中都呈现出了微小的后劲和前景。然而,就像任何其余技术一样,AI Agent 也有一些限度:
- 无限的上下文长度: 受限的上下文容量限度了 AI Agent 零碎的成果,尤其是工作布局和自我反思这样的机制。尽管向量存储和检索能够提供对外部信息的拜访,但它们的示意能力不如齐全关注那么弱小。
- 长期布局和工作合成的挑战: 尽管 AI Agent 在解决特定工作方面可能十分杰出,但与人类相比,在长期布局和工作合成方面仍存在显著的差距。
- 自然语言接口的可靠性: 以后的 AI Agent 零碎依赖自然语言作为 LLM 与内部组件的接口。然而,大语言模型的输入并不是齐全牢靠的,因为他偶然可能会呈现格局谬误,或体现出叛逆行为。
当然,随着 AI 技术的飞速演进,咱们置信,这些限度都会在不久的未来失去解决。
如何实现 AI Agent?
只管以后技术倒退阶段下 AI Agent 尚未足够成熟,不足以将工作齐全托管,但咱们仍然可能通过一些无效的形式,在 GPTBots(https://gptbots.ai/developer/)平台上,以更加求实和正当的两头计划,实现 Agent 能力。
Flow BOT —— 可视化地布局工作流程
工作布局是 AI Agent 的要害组件之一。GPTBots(https://gptbots.ai/developer/)平台则提供以可视化组件搭建工作流程创立 AI-BOT 的能力——Flow BOT。平台已将常见的、通用的 AI-BOT 开发模块形象为了多个组件。开发者能够在界面上,通过简略的托拉拽形式,依据本身业务需要,将不同组件进行”布局“,拼接为一个“工作”,并定义为一个 AI-BOT,以解决特定的问题。
Flow BOT 不仅领有灵便的工作流配置能力,在不同的开发模块内也提供了泛滥的可配置项,例如输出、输入、插件、知识库、条件判断等,能够帮忙开发者灵便地应答各种业务场景。
插件 —— 让 AI-BOT 执行任意工作
AI Agent 须要有工具能力执行各类工作,而 GPTBots(https://gptbots.ai/developer/)平台提供的插件(Plugin)就是这么一款工具。GPTBots 平台官网提供了涵盖学术、商业、生存和工作等诸多畛域的公共插件,供开发者退出 AI-BOT 内进行调用,让 AI-BOT 领有了与外界沟通的能力,并执行对应工作。
同时,GPTBots 平台也为开发者提供了“插件开发”能力,让开发者可能依据本身的要求开发插件,并接入 AI-BOT 调用,以满足本人的业务场景需要。
长短记忆 —— 用更充分的信息来做决策
记忆设置是 GPTBots(https://gptbots.ai/developer/)平台提供的另一项有利于实现 Agent 能力的性能。开发者能够通过对 AI-BOT 进行长记忆和短记忆的设置,来对 AI-BOT 的问题解决能力进行拓展。
在解决规模较大,信息量较多的问题时,长记忆的能力显得尤为要害。而在解决个别问题时,短记忆便已足够。在解决单轮问答问题时,甚至能够用不着长短记忆能力。
这也使得该性能领有了另外一层价值:开发者可能应依据本身的需要,感性地定义 AI-BOT 的记忆设置,因为因为更长的记忆,就意味着更多的老本耗费。长短记忆性能,为开发者管制 AI-BOT 老本,提供了一种方向。
AI Agent 的将来
AI Agent 弱小的能力,将让他成为咱们将来无处不在的助手,为咱们的生存和工作提供帮助和反对。无论是在家庭生存中,帮忙咱们治理日常事务和家务,还是在工作场合中,帮助咱们解决数据和决策,AI Agent 都将施展重要作用。
在家庭生存中,AI Agent 能够成为一个智能家居管家,通过学习咱们的爱好和习惯,主动调节室温、照明和音乐,提供个性化的生存体验。它们还能够帮忙咱们治理购物清单、日程安排和揭示事项,让咱们的生存更加便捷高效。
在工作场合中,AI Agent 成为咱们的智能助手和数据分析师。它们能够疾速解决大量的数据,提供精确的剖析和预测,帮忙咱们做出更理智的决策。AI Agent 还能够自动化繁琐的工作,进步工作效率,并加重人们的工作压力。
当然,作为一种新兴技术,AI Agent 也面临着一些挑战和危险。咱们须要确保 AI Agent 助手的安全性和可靠性,避免出现意外事故和不良后果。同时,咱们也须要制订相干的法规和行业标准,明确责任和监管机制,以保障 AI Agent 的正当应用和倒退。
目前的 AI Agent 还在初始阶段,或者尚不欠缺,但如果这个方向放弃和生成式 AI 雷同的倒退速度,那么咱们可能很快就能看到商业化的 AI Agent 助手呈现在咱们身边。这一天兴许很快就会到来。
极光 GPTBots 已上线,拜访 https://www.gptbots.ai 立刻注册体验!注册即赠送积分赠送。参加企业认证或邀请好友注册,也能获取更多积分~
对于极光
极光(Aurora Mobile,纳斯达克股票代码:JG)成立于 2011 年,是中国当先的客户互动和营销科技服务商。成立之初,极光专一于为企业提供稳固高效的音讯推送服务,凭借先发劣势,曾经成长为市场份额遥遥领先的挪动音讯推送服务商。随着企业对客户触达和营销增长需要的不断加强,极光前瞻性地推出了音讯云和营销云等解决方案,帮忙企业实现多渠道的客户触达和互动需要,以及人工智能和大数据驱动的营销科技利用,助力企业数字化转型。