共计 10084 个字符,预计需要花费 26 分钟才能阅读完成。
编者按:人工智能畛域近年来模型规模一直增大,参数规模爆炸式增长。从 GPT-3 的 1,750 亿,再到传闻中的 GPT-4 可能高达惊人的 18,000 亿参数。然而,随着模型规模的一直收缩,也呈现了训练老本昂扬、环境影响大、利用部署艰难等问题。因而,业内开始反思超大模型的倒退方向和意义。
在这样的背景下,“麻利人工智能”(Nimble AI)应运而生。麻利 AI 指参数量级在百亿级甚至十几亿级的较小模型。它们在训练老本、环境影响等方面具备显著劣势, 且可通过继续微调降级,疾速适应新的利用需要。
本文首先说明了麻利 AI 的定义,并从多个维度剖析了它与巨型 AI 模型的区别。作者认为,麻利 AI 能够局部达到巨型模型的能力程度,在许多理论利用中提供更高的性价比。同时,文章具体论述了推动麻利 AI 倒退的三大关键因素。最初,文章总结了麻利 AI 的多项劣势,认为它代表 AI 倒退的新方向。
麻利 AI 是一个簇新的概念,或将引领 AI 技术倒退的新浪潮。如果你对人工智能的发展前景感兴趣,本文具备独特的观点和见解,值得一读。
以下是译文,enjoy!
作者 | Gadi Singer
编译 | 岳扬
人工智能(AI)模型的复杂性和计算量等方面通过了长达十年的快速增长,这一情况终于在 2023 年产生了转变——转向聚焦效率和生成式人工智能 (GenAI) 的利用。因而,呈现了一批参数有余 150 亿的新型 AI 模型,被称为麻利 AI(nimble AI),它们在特定垂直畛域中能够与超过 1000 亿参数的 ChatGPT 式巨型模型的能力相匹敌。 随着 GenAI 曾经在各行各业广泛应用,小型而高智能的模型的应用也正日益减少。能够预感,不久的未来,GenAI 在的利用将会出现大量巨型模型和大量小型、更麻利的 AI 模型的格局。
尽管大模型目前来看曾经获得了微小停顿,但就训练老本和环境老本而言,模型并非越大越好。据 TrendForce[1] 预计,仅 ChatGPT 的 GPT-4 训练老本就超过了 1 亿美元,而麻利模型(nimble model)的预训练老本则低几个数量级(例如,MosaicML 的 MPT-7B 报价约为 20 万美元[2])。大部分计算成本是耗费在源源不断的推理过程中,这对特地耗费算力的较大模型来说是一个重大挑战。此外,托管在第三方的巨型模型也会带来平安和隐衷方面的挑战。
麻利模型的运行老本要低得多,而且还具备一系列额定的劣势,如适应性(adaptability)、硬件方面的灵活性(hardware flexibility)、在大型利用中的可集成性(integrability within larger applications)、安全性(security)和隐衷性(privacy)、可解释性(explainability)等(见图 1)。人们对较小模型性能不如较大模型的认识也正在扭转。较小而有针对性的模型并不意味着它们智能水平不高——它们能够在商业、消费者和迷信畛域提供雷同甚至更优异的性能,减少价值的同时缩小工夫和老本的投入。
越来越多此类麻利模型的体现已逐步靠近 ChatGPT-3.5 级别的巨型模型,且性能和适用范围继续疾速晋升。此外,当麻利模型可能应用业余畛域的公有数据,并依据查问要求进行网页内容检索时,其准确性和性价比能够超过巨型通用模型。
图 1. GenAI 麻利模型的劣势。图片起源:Intel Labs
开源的 GenAI 麻利模型继续后退,驱动着该畛域的疾速倒退,这种相似“iPhone 时刻”的革命性技术正在受到相似“Android 反动”的挑战,因为优良的钻研人员和开发者社区正在彼此做出的开源工作根底上,创立能力日益弱小的麻利模型。
01 思考,实际,理解:针对特定畛域的麻利模型可局部达到巨型模型的能力
图 2. 生成式人工智能能力类别。图片起源:Intel Labs
为了进一步理解较小的模型何时以及如何可能为生成式人工智能提供反对,须要留神到,无论是麻利模型还是巨型 GenAI 模型,在实现工作时都须要上面这三类能力:
- 用于思考的认知能力:包含语言了解、总结演绎、推理、布局、从经验教训中学习、长篇表白和交互式对话等。
- 特定技能的实际能力:例如浏览真实世界中多样化和简单的文本数据、读取图表 / 图片、进行视觉辨认、编程(编写和调试代码)、图像和语音生成等。
- 信息获取能力(记忆的或实时检索):网络内容,包含社交媒体、新闻、钻研报告和其余个别内容;或特定畛域精选的内容,如医疗、金融和企业数据。
1.1 用于思考的认知能力(Cognitive abilities to think)
依据模型领有的认知能力,它能够“思考”并了解、概括、综合、推理和组织语言和其余符号示意。麻利和巨型模型在这些认知工作体现均很杰出,目前尚不分明这些外围能力是否须要宏大的模型规模来反对。例如,像 Microsoft Research 的 Orca [3]这样的麻利模型在多个基准测试中体现出的了解、逻辑和推理能力曾经达到甚至超过了 ChatGPT。此外,Orca 还证实,推理技能能够从作为老师模型应用的大型模型中提炼进去。
然而,目前用于评估模型认知技能的基准测试还很高级。还须要进一步的钻研和基准测试来验证麻利模型是否能够通过预训练或微调来达到巨型模型的“思维”能力。
1.2 实际能力
因为巨型模型总体定位是全能模型,它可能具备更多技能和常识量。然而,在大多数商业利用中,实际上只须要模型领有特定范畴的技能。用于商业利用的模型应该须要具备敏捷性和扩展性,以适应将来的业务增长和多样化的需要变动,但仿佛很少须要有限数量的技能。
GPT- 4 可能应用多种语言生成文本、代码和图像,然而把握数百种语言未必意味着这些巨型模型在底层认知能力上具备更多的劣势,它们次要是通过减少技能数量来实现实现更多理论工作的能力。
此外,当须要特定性能时,能够将性能专用引擎(functionally specialized engines)与 GenAI 模型连贯应用,比方将数学插件“Wolfram superpowers[4]”作为模块增加到 ChatGPT 中,可无效提供优良的数学能力而不减少模型规模。例如,GPT4 的插件实质上也是利用小模型实现附加性能。有传言称,GPT- 4 模型自身也是由多个小于 1000 亿参数的混合专家模型组成的汇合[5],这些模型针对不同的数据和工作进行了训练,而不是像 GPT-3.5 那种独立的巨型模型。
为了获得最佳的技能组合和模型效率,将来的多功能模型可能会采纳更小型、更专一的“混合专家”模型,基本上每个模型的参数都小于 150 亿。
图 3. 基于检索的、用于性能扩大的模型能够提供较大的性能范畴和较多的相干信息,这在很大水平上与模型的规模无关。图片起源:Intel Labs
1.3 信息获取能力(外部记忆的或实时检索)
巨型模型通过在参数空间外部记忆大量数据来“晓得”更多,但这仅是让他们比小型模型领有更全面的常识,并不一定让它们更智能。 在都是全新 use cases 的零样本环境中,巨型模型具备很高的价值。在没有具体针对性场景或指标的状况下,巨型模型能够为大部分消费者提供基础知识,并在提炼和调教麻利模型时负责老师模型。不过,针对特定畛域训练或微调的麻利模型能够针对特定畛域或场景提供的更优良能力。
图 4. 检索机制让小模型能够匹敌更大模型的价值(采纳 Contriever 检索办法)。图片起源:Intel Labs,基于 Mallen 等人的钻研[6]。
例如,针对编程场景训练出的模型与医疗 AI 零碎模型具备不同的能力偏重。此外,通过在已策动好的外部和内部数据集上进行检索,能够大幅提高模型的准确性和内容时效性。最近一项钻研表明 [6],在 PopQA 基准测试中[7],仅具备 13 亿参数的模型在应用检索性能后,能够达到参数量为 1750 亿的模型的程度(参见图 4)。与全能的巨型零碎相比,一个具备相干畛域常识和高效检索能力的针对性模型零碎,具备更高的可用性和扩展性。这对于感觉少数企业来说都更为重要,因为 大多数企业在大模型利用中都须要利用畛域自有的特定常识,而非根底通用的常识。这就是麻利模型的价值所在。
02 推动麻利模型爆发式增长的三大因素
评估麻利模型的劣势和价值需思考以下三个方面:
- 在适度模型规模下,具备高效性 。
- 以开源或专有软件的模式进行受权。
- 模型能够被设计成通用的,能够应答各种不同的工作和需要,也能够被专门优化用于特定畛域或工作,同时还能够具备检索(retrieval)性能,即可能通过拜访外部或内部的数据集来进步模型的准确性和成果。
就模型规模而言,通用麻利模型如 Meta 的 LLaMA-7B 和 -13B[8],Technology Innovation Institute 的 Falcon 7B[9]这些开源模型,以及 MosaicML 的 MPT-7B[10]、微软 Research 的 Orca-13B[11]和 Salesforce AI Research 的 XGen-7B[12]等专有模型都在疾速改良(见图 6)。抉择高性能的小型模型,对经营老本和计算环境的抉择都具备重大影响。
ChatGPT 175 B 参数的模型和预计达 1.8 万亿参数的 GPT-4[13]都须要大规模部署 GPU 等加速器,来提供足够的计算能力进行训练和微调。相比之下,麻利模型通常能够在任何硬件上运行推理,从单路 CPU 到入门级 GPU 乃至大规模减速集群。依据 13 B 参数或更小模型的优良体现,麻利 AI 的定义在当下被经验性地设定为 15 B 参数以内。总体而言,麻利模型提供了更划算、更可拓展的办法来解决新的用例(参见对于麻利模型劣势和劣势的探讨)。
第二个方面的开源许可使学术界和工业界能够互相迭代对方的模型,推动翻新凋敝。开源模型使小型模型的能力取得了难以置信的提高,如图 5 所示。
图 5. 在 2023 年上半年,开源可商用和不可商用的 GenAI 麻利模型都实现了爆发式增长。图片起源:Intel Labs
2023 年初就呈现了几个通用麻利生成式 AI 模型的例子,首先是 Meta 的 LLaMA[8],其领有 70 亿、130 亿、330 亿和 650 亿参数的模型。其中 70 亿和 130 亿参数规模的模型通过对 LLaMA 进行微调创立的:斯坦福大学的 Alpaca[14],伯克利 AI 研究院的 Koala[15],以及加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣地亚哥分校和穆罕默德·本·扎耶德人工智能大学钻研人员单干推出的 Vicuna[16]。最近,微软研究院(Microsoft Research)发表论文介绍了 Orca[17],这是一个基于 LLaMA 的 130 亿参数模型,它模拟了巨型模型的推理过程,在针对特定畛域进行微调之前获得了令人印象粗浅的成绩。
图 6. 应用 Vicuna 评估集由 GPT- 4 对开源 chatbots 的绝对响应品质进行比拟。图片起源:Microsoft Research[17]
Vicuna 可视为最近从 LLaMA 衍生的开源麻利模型典型代表。Vicuna-13B 是多所大学合作开发的 chatbot,推出 Vicuna 的目标是“填补现有模型 (如 ChatGPT) 在训练和架构细节方面的空白”[18]。在对来自 ShareGPT 的共享对话数据进行微调后,应用 GPT- 4 对其进行评估,其响应品质与 ChatGPT 和 Google Bard 相比,进步了 90% 以上 [16]。然而,这些晚期的开源模型不可商用。据报道,MosaicML 的 MPT-7B[10] 和 Technology Innovation Institute 的 Falcon 7B[9]是可商用的开源模型,他们的品质与 LLaMA-7B 相当。
图 7. 在 BIG-bench Hard 的简单零样本推理工作上,Orca-13B 的体现与 ChatGPT 相当。图片起源:Intel Labs[17]
据钻研人员介绍 [11],在简单的零样本推理基准测试(如 Big-Bench Hard,BBH[19])上,Orca 优于指令调优的模型(如 Vicuna-13B)100% 以上,在 BBH 测试集上与 ChatGPT-3.5 体现持平。Orca-13B 的性能优于其余模型强化了这样一种观点,即 呈现巨型模型这样的宏大规模可能源自于晚期模型训练的横蛮办法。这种观点对某些小模型提炼常识和办法确有裨益,但模型推理时并不一定须要宏大的参数规模,即便是个别状况下也是如此。需警觉的是,只有模型失去大范畴地部署和应用之后能力全面评估模型的认知能力、技能掌握情况和常识量。
撰写本文时,Meta 公布了参数规模为 70 亿、130 亿和 700 亿的 Llama 2 模型[20]。在第一代产品问世仅四个月后,该模型就有了显著的改良。在比照图中[21],麻利的 Llama 2 13B 达到了先前较大尺寸的 LLaMA 以及 MPT-30B 和 Falcon 40B 相近的体现。Llama 2 是开源的,可供钻研和商业用途收费应用。它是与微软以及包含英特尔在内的其余许多合作伙伴独特推出的。Meta 对模型开源的承诺及其宽泛的单干必将进一步推动咱们所看到的此类模型跨行业或学术界的疾速提高。
麻利模型的第三个方面与专业化无关。新推出的许多麻利模型是通用模型,如 LLaMA、Vicuna 和 Orca。通用麻利模型可能仅依赖参数记忆,并通过微调办法进行低成本更新,包含大语言模型的低秩自适应(LoRA)[22],以及检索式加强 [23] 生成办法(在推理时从通过编辑的语料库实时提取相干常识)。检索加强解决方案正在建设,并且借助像 LangChain[24]和 Haystack[25]这样的 GenAI 框架一直失去加强。这些框架能够轻松灵便地集成索引,无效地拜访大型语料库,并实现基于语义的检索(semantics-based retrieval)。
大多数企业用户更喜爱针对其特定畛域进行微调的有针对性的模型(targeted models)。这些有针对性的模型也偏向于采纳检索式办法来充分利用所有要害信息资产(key information assets)。例如,医疗保健用户可能心愿实现病人沟通的自动化。
这些有针对性的模型次要采纳以下两种办法:
- 首先,针对特定工作和所需数据类型,对模型自身进行专业化调整。 此办法能够通过多种形式实现,包含 在特定畛域常识上进行预训练 (例如,phi- 1 对网络上收集的高质量数据进行预训练), 对等同规模的通用根底模型进行微调 (例如,Clinical Camel[26] 是如何微调 LLaMA-13B 模型的),或者 将巨型模型的常识提炼并迁徙到麻利的学生模型(例如,Orca 模拟 GPT- 4 的推理过程,包含记录和跟踪模型推理过程、GPT- 4 逐渐的思考过程和其余简单指令)。
- 其次,整顿相干数据并编制索引,以便实现即时检索。 这些数据可能数量宏大,但仍限定在指标应用案例范畴内。模型能够检索继续更新的公共网络中的和私人消费者或企业的内容。用户能够决定对哪些资源进行索引,从而抉择高质量的网络资源,以及更残缺的、公有的私人数据或企业数据。尽管检索技术当初已被集成到巨型和麻利零碎中,但该技术对小型模型至关重要,因为模型性能体现根本依仗该技术。此外,它还使企业的所有公有数据和本地存储信息可为外部麻利模型调用。
03 生成式 AI 麻利模型的劣势和劣势
将来,中型麻利模型的规模可能上涨至 200 亿或 250 亿参数,但仍远小于 1000 亿参数级。还有参数量介于两者之间的模型,如 MPT-30B、Falcon 40B 和 Llama 2 70B。只管预计它们在零样本状况下体现会优于更小型的模型,但对于任何明确定义的工作汇合(编者注:例如针对问答、翻译、摘要生成等工作),我预计它们的体现不会显著优于更小规模的、有针对性、基于检索的麻利模型。
与巨型模型相比,麻利模型具备许多劣势,如果模型是有针对性的和基于检索的,这些劣势会进一步加强,这些长处包含:
- 可持续性更强,老本更低:训练和推理计算成本大幅升高[27]。推理运行时的计算成本可能是面向业务的模型是否全天候应用的决定性因素,而当须要部署大量模型时,对环境的总体影响水平大幅升高也十分有意义。因为具备可持续性、专一性和性能导向性,麻利模型无需解决通用 AI 模型的雄心指标,也较少卷入相干的公众和监管舆论。
- 更快的微调迭代 :较小的模型仅需几小时(或更少工夫) 即可实现微调,通过 LoRA 等自适应办法 [28] 为模型增加新信息或新性能。这样能够更频繁地进行模型改良,保障模型继续满足用户的应用需要。
检索式模型的劣势:检索系统通过从间接参考起源援用大部分信息,而不是从模型的参数记忆中提取信息,进步了以下方面的性能:
- 可解释性:检索模型采纳起源归因(source attribution),能够追溯到信息起源并验证可信度。
- 及时性:一旦最新数据源被索引,无需再训练或微调即可被模型立刻应用。这样能够近乎实时地继续增加或更新相干信息。
- 数据范畴:为便于检索而索引的这些信息能够十分全面和具体。当专一于指标畛域时,模型能够覆盖范围广、深度大的私人和公共数据,在该垂直畛域中,可能比巨型根底模型的训练数据蕴含的量和细节还要多。
- 准确性:间接拜访数据的原始模式、数据细节和上下文中的数据能够缩小幻觉和数据近似的状况,只有数据在检索范畴内就能够提供牢靠的、残缺的答案。对较小的模型来说,每次检索到的可追溯的、通过整顿的信息与记忆信息之间的抵触也更小,(如巨型模型)可能过期、不残缺且无源追溯。
- 硬件抉择:麻利模型实际上可在任何硬件上进行推理,包含可能曾经集成到计算环境中的广泛解决方案。例如,Meta 的 Llama 2 麻利模型(70 亿和 130 亿参数)可在英特尔的数据中心产品(包含 Xeon、Gaudi2 和 Intel Data Center GPU Max Series)上良好运行[29]。
- 集成、平安和隐衷:现在的 ChatGPT 等巨型 GenAI 模型通常作为独立模型运行在第三方平台的大型数据中心上,通过接口拜访。相比之下,麻利 AI 模型能够内嵌在更大的业务应用程序中运行,并且可齐全集成到本地计算环境中。这对爱护平安和隐衷具备重大意义,因为无需与第三方模型和计算环境替换信息,甚至能够将市场上应用程序的所有平安机制利用于 GenAI 引擎。
- 模型优化和模型压缩:如模型量化等能够升高计算需要的模型优化和模型压缩技术,在麻利模型上体现出较好的成果。
麻利模型的一些挑战仍值得关注:
- 工作范畴放大:巨型通用模型领有杰出的多样性,在面对新的零样本用例中体现尤为突出。麻利零碎能够达到的广度和范畴仍有待评估,但最近的模型这方面仿佛有所改善。麻利畛域模型假设工作范畴在预训练和微调期间是已知的和定义明确的,所以工作范畴的放大不应影响任何相干能力。麻利畛域模型不是仅针对繁多工作,而是一系列相干的能力。这可能导致麻利模型因工作或业务特定而呈现碎片化景象。
- 可能需小样本微调改良性能:为了无效地解决特定畛域的问题,不肯定总是须要进行微调,但它能够通过调整模型以满足应用程序所需的工作和信息来加强人工智能的成果。目前的技术使该过程仅需很少样本即可实现,无需深度的数据迷信专业知识。
- 检索模型须要对所有源数据进行索引:模型在推理时通过索引映射获取所需信息,但存在脱漏信息源的危险,导致其不可为模型调用。为确保具备可溯源、可解释性等个性,基于检索的、有针对性的模型不应依赖参数空间中的详细信息,而次要依赖于索引信息,在须要时能够进行提取。
04 总结
生成式人工智能的重大飞跃带来了新的能力,如 AI agents 以自然语言进行对话、生成引人入胜的文本和图像、利用以前迭代的上下文等等。本文引入“麻利人工智能”概念,并说明它为何将来将成为用于部署 GenAI 的支流办法。简略来说,麻利人工智能模型运行更快,通过继续微调能够放弃模型更快更新,而且更适宜通过开源社区的个体翻新实现疾速的技术迭代。
如多个实例所证,巨型模型的演进显示出的杰出性能表明,麻利模型无需与宏大的巨型平起平坐。一旦把握根本的认知能力,调整所需性能,并按需提供数据,麻利模型可为业界带来最大的价值。
当然,麻利模型不会淘汰巨型模型。 巨型模型依然无望在零样本、开箱即用的状况下体现更好。大型模型也可用作提炼到更小麻利模型的起源(老师模型)。尽管巨型模型领有大量额定的记忆信息以应答各种潜在用处,并且具备多种技能,但对大多数 GenAI 利用而言这种全能性未必是必须。相同,依据畛域相干的信息和技能对模型进行微调的能力,再加上从本地和寰球资源中检索最新信息的能力,对许多利用而言抉择麻利模型将是更有价值的抉择。
将麻利的、有针对性的 AI 模型视为可并入任何现有应用程序的模块,可提供极具吸引力的价值主张,包含:
- 仅需极少的部署和经营老本。
- 可微调适应各种工作和私人、企业数据。
- 可在一夜之间更新模型,可在 CPU、GPU 或加速器等各种硬件上运行。
- 可集成到当下市场上的计算环境和利用中。
- 可企业外部部署或在公有云上运行。
- 可施行所有平安和隐衷设置。
- 更高的准确性和可解释性。
在提供相似巨型生成式 AI 模型能力的同时,更环保。
多数巨型模型将持续获得令人瞩目的停顿。然而,业界最可能仅须要几十个通用麻利根底模型,它们可用来构建有数有针对性的模型版本。我置信不远的未来,GenAI 将渗透到各行各业,浸透形式次要是通过集成麻利、有针对性的和平安的智能模块作为各行各业的增长引擎。
END
参考资料
1.https://www.trendforce.com/presscenter/news/20230301-11584.html
2.https://www.mosaicml.com/blog/mpt-7b
3.https://arxiv.org/pdf/2306.02707.pdf
4.https://writings.stephenwolfram.com/2023/03/chatgpt-gets-its-…
5.https://openai.com/blog/chatgpt-plugins
6.https://doi.org/10.48550/arxiv.2212.10511
7.https://paperswithcode.com/dataset/popqa
8.https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
9.https://falconllm.tii.ae/
10.https://www.mosaicml.com/blog/mpt-7b
11.https://arxiv.org/pdf/2306.02707.pdf
12.https://blog.salesforceairesearch.com/xgen/
13.https://the-decoder.com/gpt-4-architecture-datasets-costs-and…
14.https://crfm.stanford.edu/2023/03/13/alpaca.html
15.https://bair.berkeley.edu/blog/2023/04/03/koala/
16.https://lmsys.org/blog/2023-03-30-vicuna/
17.https://arxiv.org/pdf/2306.02707.pdf
18.https://pub.towardsai.net/meet-vicuna-the-latest-metas-llama-…
19.https://github.com/suzgunmirac/BIG-Bench-Hard
20.https://about.fb.com/news/2023/07/llama-2/
21.https://ai.meta.com/llama/
22.https://arxiv.org/abs/2106.09685
23.https://proceedings.neurips.cc/paper/2020/hash/6b493230205f78…
24.https://python.langchain.com/docs/get_started/introduction.html
25.https://www.haystackteam.com/core/knowledge
26.https://arxiv.org/abs/2305.12031
27.https://www.semianalysis.com/p/google-we-have-no-moat-and-nei…
28.https://arxiv.org/pdf/2106.09685.pdf
29.https://www.intel.com/content/www/us/en/developer/articles/ne…
本文经原作者受权,由 Baihai IDP 编译。如需转载译文,请分割获取受权。
原文链接:
https://towardsdatascience.com/survival-of-the-fittest-compac…