关于人工智能:探索AI时代的应用工程化架构演进一人公司时代还有多远

序言

在当下生成式模型的AI时代，理解和应用AI相干技术是前后端研发同学迟早要面对的事。

所有产品都值得用AI去从新做一遍。其根本原因在于当下AI的状态即生成式模型是通过AI辅助来扭转和发明新的产品状态，而不是像以往的技术一样只是对现有产品状态的补充。

简略来说，产品研发同学能够做的事件更多了。

一、当代AI的特点

当代AI来势汹汹，具备了通用的面向不同畛域甚至全模式的弱小推理能力，各类实践实际也在这两年爆炸式增长一时洛阳纸贵，大家对当代AI的理解根本在一个起跑线上，这也是当代AI魅力十足的重要起因之一。

对于AI，已有大量的钻研表明，人的意识是非算法的，从哥德尔不齐备定理到图灵不可计算问题都曾经证实了基于图灵机的人工智能，也就是当代基于语言模型的预训练大模型 AI，是无奈建设“自我”这个概念的。

因而当代AI依然是以图灵实践架构为撑持，解决的依然是图灵可计算问题，因而依然须要一个良好可继续的利用架构去束缚、疏导并治理他。

二、对研发的挑战

回到事实，前端、后端等研发同学现有的教训和常识在短时间内还无奈逾越这个门槛。而且如大模型算法、训练推理减速、异构计算等等也不是前后端研发同学的畛域和劣势。

但从最近大量涌现的AIGC相干实际文章，能够看到很多实践者也并非算法同学，这也阐明前后端研发同学齐全是能够做到的。也就是说只是基于现有大模型去做利用的门槛还是能够逾越的。

三、AI利用工程

以后所谓面向AI开发是向大模型一直输出Prompts，在对上下文 / 语境的管制下推理并失去咱们冀望后果的过程。

整个推理过程的效率以及后果的品质，除了大模型稳定性这个大前提外，最大的因素还在于咱们的实践经验，也就是向AI发问或疏导AI的技术。

设想下咱们背后的是人而不是AI，那应该如何通过对话去建设语境产生疏导，使对方满足咱们的需要，即使这个需要是不合理的。有一本书《The Art of Deception》专门为这种场景提出了所谓社工学（Social Engineering）概念。

同样的，与之对应的实用于AI的则是当下热门的提醒词工程（Prompts Engineering），之前就有人试过让ChatGPT表演奶奶给孙子讲对于Windows激活码的故事失去了真正可用的MAK KEY。而这种相似人类社工学（Social Engineering）的提醒词工程（Prompts Engineering）让AI解决需要的过程齐全颠覆了传统编程常识。

四、AI场景分化

区别于AIGC内容生成这样抽象的概念，AI须要在不同场景分化为不同的个性，以下是比拟典型的三类智能化场景：

4.1 常识密集型

与传统常识类场景不同，在AI时代咱们还能够有常识摘要、提取、总结、分类，以及内容加工转换等等场景[12]。

比方，将常识结构化，转化为图谱（如脑图、流程图、架构图等等），细节内容补充（如减少示例、正文）等等。

4.2 交互密集型

如：角色扮演、社交辅助、场景参谋、辅助决策、办公办文综合协调等等强调大模型表演不同角色的人机交互类辅助场景[15]。

4.3 文本/代码型

除了大段非构造文本生成，还有在低代码、无代码、混合研发场景中，与代码生成、代码测试，代码转译、代码评审等与编码相干的业余畛域[15]。

可见咱们面临的智能化场景问题是比较复杂的，很难通过人类事后思考固化去解决这种变幻无穷的需要，因为这些场景的自由度太大了。与个别编程语言的区区十几个关键词相比，人类思维是自在的难以束缚的，这种状况下的将口语化的Prompts用在AI利用上想要解决简单问题，这近乎是不可控的。

因而，如何将AI利用工程化为可控的，解决当下的大模型幻觉、漂移等问题，这是十分值得斟酌也是咱们探讨的外围问题。咱们有必要引入新的理论指导产生新的架构去解决这些问题。

五、推理能力

上面将以业界对大模型的典型算法以及实际架构进行阐明：

5.1 根底推理

咱们应用大模型的外围能力就是推理，上面介绍几种业界出名的AI推理计划。

5.1.1 Standard IO

当没有推理过程时，咱们向大模型提问他会间接给出答案，这种0过程的推理被称为Standard IO。在大部分状况下Standard IO都是不能一步到位解决咱们问题的，须要咱们自行甄别以及进一步疏导，这简直无奈用于简单工作，所以个别被作为各类优化试验中的比照参照。

5.1.2 Chain of Thought (CoT)

在2022年，驰名的Chain of thought(CoT) [11] 论文的发表为AI对简单工作的解决起了关键作用，行将一个简单工作拆分成多个可治理的简略子工作，让大模型一步步地去思考，使每个小工作的提醒和推理都是可控的。

能够简略了解为，“一个问题，不间接让大模型给出后果，而是让大模型一步一步的推理产生推论，并最终给出后果”。这个技术经常在Zero-Shot/Few-Shot下获得的后果很好。CoT曾经是AI利用工程里的必备范式了，就如同面向过程的开发模式一样，接下来咱们会始终应用他。

5.2 Chains架构

到这里不得不提一下Chains[24]，Chains是驰名的大模型利用开发框架Langchain提供的一个模块，名如其义，chains的架构能够了解为是CoT的落地及延长，从最根底的LLMChain再到常见场景的：APIChain、Retrieval QAChain、SQL Chain等等：

能够看到，在Chains架构中，每一个从Prompt到Answer的过程，都被标准化为不同类型的LLMChain。

整个需要从提出到后果的具体流程则被形象成多个LLMChain的串联，在表现形式上十分像咱们熟知的结构化以及函数式编程。

这是一个好消息，如果说Prompts和Answer是水和土壤，有了CoT的理论指导加上Chains的架构就如同开渠造河，将本来由AI随便发散而不可控的推理过程固化到了Chain和Chain的连贯上，让所有都回归到咱们认知中流程应有的样子。

但这真的是将来的AI利用开发吗？Chains这种依赖人脑思考并固化推理过程的做法就是AI的全副吗？

说到这里，能够思考一个问题：

在AI畛域中咱们是否用AI这块金子做锄头，咱们解决需要的形式是锄地吗？在你的直觉中是否认为AI的能力和用法不仅仅如此，这是否是传统架构或者编程范式限度了咱们的想象力？

5.3 更好的推理

5.3.1 CoT Self-Consistency(SC)

2023年5月，SelfCheckGPT[7] 论文中提到一种称为Self-Consistency的机制为幻觉检测作出了重要奉献，能够简略了解为“一个问题，让多集体参加多步思考和答复，最终由另一个人去评分，选出一个最佳答案。”

为一个问题一次性生成多个CoT，并为每个CoT的推论投票，最终失去最靠近后果的推论，投票的是一个评估函数，罕用的是BERT Score或n-gram。

5.3.2 Tree of Thought (ToT)

还是在往年，Tree of Thoughts（简称ToT）论文[10]发表。如果说CoT是一条链，那么ToT是由多条CoT链形成的一棵树，ToT揭示了AI是能够通过推理决策过程自主延长的，这是一个重大的冲破。

CoT强调的是工作合成为子工作的过程，而ToT则强调了合成工作就是生成多个思考过程，最终整个ToT会造成一个思维树结构，这样咱们能够不便的将简单问题到后果的思维门路作为Tree这样的经典数据结构，应用广度优先(BFS)或深度优先(DFS)查找来解决一个简单问题，其中思维门路也就是CoT的每个推论状态则由后面提到的Self-Consistency或者其它等更先进形式去评估。

通过这种形式造成的以大模型自我推理决策的Tree构造是基于AI的场景下钻和逻辑自洽来实现的，简略来说，它代替了之前人类要做的对于了解、剖析、执行、验证的整个过程在重复推演直到得出正确后果的整个过程。

六、加强语言模型 (ALM)

说到这里，咱们曾经领有了无限范畴内的主动推理和幻觉辨认能力了，但大模型的后劲还不止这些。图灵奖的Yann LeCun（杨立昆）在2023年年初发表的论文里提到了加强语言模型Augmented Language Model (ALM)这个概念，提到了对于ALM的三个局部：

推理：将潜在简单工作合成为简略子工作，子工作是能够用语言模型本身能解决或者调用其余工具可解决。
行为：ALM调用的工具会对虚构或者真实世界产生影响并观测到后果。
工具：语言模型通过规定或者非凡token调用内部模块的能力，包含检索内部信息的检索系统，或者能够调用机器手臂的工具等。

当下咱们能应用的大模型的上下文长度都太小了，无奈跟上利用规模的扩增，因而大模型该当有从内部获取数据或者影响内部来裁减上下文的能力，这里的这个内部咱们称作为环境。

比方“大模型操作机械手从桌上拿起了一杯咖啡”[16]，对于这个Act来说Tools是机械手，Action是拿起，Action Input是桌上的咖啡，而"咖啡在机械手中”，“桌上没有咖啡了”则是Observation[16]。

图中这个WebGPT[17] 的示例十分像gpt版bing，他是一个比拟纯正的Act类大模型，向WebGPT提出Question时，WebGPT会向Web搜寻并给出倡议后果，用户能够排序过滤这些后果后，再由WebGPT加工生成Answer。

ReAct 2

之前，Acting和Reasoning始终是离开玩的，即便做在一起也并非以架构思维去对待，在2022年10月，ReAct的提出，最终Reasoning和Acting被连贯在一起，并曾经成为当下最能打的事实上的规范。那么对于这个架构，利用工程化的实际是怎么样的呢？

七、Agents架构

自往年4月的AutoGPT初始版本惊艳面世起就迅速在AI利用圈子传的炽热，其一起因是AutoGPT的体现仿佛更加贴近咱们对AI利用架构的向往：

对于AutoGPT，咱们只须要给他设定一个需要指标并授予他资源以及向资源交互的能力，再提供一组限度他行为的规定，那么他就能够通过“自问自答”的形式逐步靠近指标，再借助对后果的评估，最终实现需要。

很典型的，与Chains依赖人脑思考并固化推理过程的做法不同，他仿佛在让AI自我启发的产生推理过程。相比chains架构，AutoGPT的Reasoing、Acting过程都是主动的，在实践上否定了人类在Prompts工程上的劣势。

但这种未经润饰的原始自问自答的形式尽管能够帮忙咱们解决一些简单的问题，但其推理决策能力相比人脑思考并固化推理决策过程的形式低效太多，具体表现在解决事实世界决策工作方面的有效性和灵活性有余。其参加事实世界的能力无限以及不足基准导致了这些不确定性。因而还须要更多的优化能力靠近咱们对AI利用架构的现实设计。

业界也早就留神到了推理决策过程在利用架构中的重要性，并为Auto-GPT相似利用做有效性和灵活性的基准考量。从LangChain Agents 还有最近的 huggingface 颁布的还在试验阶段的 Transformers Agent，还有游戏开发畛域的 Unity ML-Agents 中，我学习到了当下阶段按场景分化的更加欠缺的AI利用架构即Agents架构：

Agents [13] [24]

一个典型的Agents架构包含有以下部件：

7.1 Agent

一个调优的专用于推理与动作（reasoning and acting）的大模型，他的外围能力是布局工作和反思\继续欠缺，须要有弱小的推理决策能力。

7.1.1 工作布局

工作布局：将大型工作合成为更小的可被治理的子目标，这样就能够高效的执行简单工作。

XoT & ReWOO [4]

之前分享推理时提到的XoT（CoT、Cot-SC、ToT）都是比拟典型的。另外介绍ReWOO，这也是一个基于打算的计划，思路是，当问题被提出时，制订出解决这个问题的各个Plan，并把Plan的后果留空（称为蓝图），Plan作为一个个的Act交由Worker执行，执行的后果被填充到这个蓝图中，最终交由大模型得出后果，与个别计划不同，他不须要按步就班的去执行，这是突出“布局”能力的一个很好的计划。

7.1.2 反思和继续欠缺

再是反思和继续欠缺，简略来说就是为大模型提供改良计划，帮忙它从之前的谬误中去学习，以更好的实现未来的工作。

ART[6] & Reflexion[15] [8]

拿ART来说，这是一个须要监督的计划，能够将产生过的推理过程积淀下来，并在未来召回再应用。过程能够形容为：一个Task Library寄存了多种类型工作的CoT，当向ART实例发问时，会从TaskLibrary中找到最适宜的Task案例与用户的问题一起向大模型发问，最终后果由人脑评审并修改，后果会长久化到TaskLibrary。

而左边提到的Reflexion则将人脑局部换成了语言模型，转换成了由大模型自我学习优化本身行为，通过尝试、谬误和自我反思来解决决策、编程和推理工作的架构。

在业界中比拟优良的案例有ReAct、BabyAGI等等，而ReAct是当下的事实标准，影响力深远。而OpenAI也在最近颁布的Function Call中提供了基于GPT3.5 turbo \ 4.0的调优布局模型(0613版)。

7.2 Memory

memory包含Context和History[13]。

7.2.1 Context

语境上下文，这个咱们比拟相熟了，相似人脑的STM(Short-term memory 短期记忆)，为Agent提供上下文能力，当下大模型的提醒词工程化就是基于上下文的。

7.2.2 History

回顾，相似人脑的LTM(Long-term memory 长期记忆），为Agent提供了存储和召回关联数据的能力。

RAG[9] [14] & FLARE [8]

像WebGPT一样检索数据就是十分常见的场景，区别于传统的内容检索，咱们也有一些通过大模型加强检索的计划，如：RAG、FLARE等。

在实践中通常抉择反对疾速最大内积搜寻（MIPS）的近似最近邻 (ANN) 算法数据库与这些计划配套，这块有很多向量数据库可供选择了，也是当下市场上的热门畛域，不过多论述，有趣味的同学能够理解下阿里云的基于Tail的VectorDB，以及云原生向量数据仓库AnalyticDB PostgreSQL版，这里就不具体介绍了。

7.3 Tools

一组工具集或者Agent能够利用的所有内部资源，这是Agent可调用、可执行的能力，它既能够是一个函数、api，还能够是其它任何大模型，包含另一个Agent利用等等。[13]

ChatGPT的插件以及OpenAI API Function Calls都是Tools利用领域的最佳案例。

当下实用于互联网的罕用思路是提供不同畛域的api以及这些api的阐明用法文档，由Agent的推理去判断须要应用的api在Tools中是否存在，这是个一直查阅、调用、证实的过程：

API Bank: Augment Tool[3]

API Bank是一个Benchmark工具，在他的论文里为咱们提供了一个可行的API调用思路：

Step1. 向Agent提供API Manual Agent能够在它各个布局工作中，应用关键词去API Manual中检索并总结出所需API用法，用法说明能够按Prompts Engineering提出的计划，利用Few-Shot或者Zero-Shot CoT去疏导Agent。
Step2. 向Agent提供API和输出查看器当Agent曾经把握API的用法后，Agent能够生成API所需参数，并调用API获取后果，这个过程须要一直的查看输出的参数是否正确，以及评估输入的后果是否合乎预期。

八、对将来的思考

相比Chains，Agents真正的施展了AI的后劲，也是行将开始风行的先进架构。在我对Agents的了解中，它更像一个图灵机的实现架构而不是咱们平时探讨的应用层架构。

咱们回顾一下图灵实践架构为撑持的冯诺依曼架构或者近似的哈佛架构。

一个事实是，在冯诺依曼架构或者哈佛架构设施的理论开发中，咱们会去关怀如何应用相应协定去寻址去读写总线操作不同设施，如UART、I2C、SPI总线协定，这都是咱们要学习把握的，但咱们根本不会关怀CPU中的CU、ALU等单元。

另一个事实是，PC CPU外部是多总线的哈佛架构，而在CPU外又是基于繁多总线的冯诺依曼架构，而片上零碎（SOC）又会在不同场景DSP、ARM等进一步集成与高速运算相干的部件。

计算机架构这样求同存异的持续倒退上来，将这些单元与高速存储及总线等作为抽象概念去进一步封装。而AI利用也是相似的，Agent会将相干的布局反思改良能力一直的作为本身的外围能力封装。

因而，对于将来的AI利用极有可能不是在传统计算机上运行的程序，而是标准化的需要，在以布局能力专精的Agent 大模型作为CPU的AI计算机虚构实例上间接运行的，而咱们明天所议论的利用架构，也会沉积到底层转变为AI计算机的外围架构。

AI计算机中以布局决策专精的Agent 大模型将会以布局决策能力的评估(Benchmark)取代传统以外围数、频率GHz为规范的计算单元评估体系，而AI计算机依赖的外围设备即Tools也会在不同的业余畛域中更加深刻以提供更业余的执行能力。

最终AI计算机将图灵齐备，通过AI的自举将迭代产物从工程畛域晋升到工业畛域。

而AI厂商也将从当下以MetaGPT、AgentVerse等Multi-Agents计划转变为对AI计算机以及相干集群或其它整合计划厂商，技术人员可能成为AI计算机架构研发，或者不再繁多职责，转变为需要设计和开发落地二合一的“高阶角色”，一人公司时代可能会提前到来。

作者｜偏左

点击立刻收费试用云产品开启云上实际之旅！

原文链接

本文为阿里云原创内容，未经容许不得转载。