关于人工智能:一万年太久只争朝夕-Foundation-model的进展仍不够快

编者按：现在根基模型（Foundation Models）的利用和相干翻新正在疾速涌现，但仍有很大的晋升空间，目前还无奈充分发挥根基模型的潜能、将其高效疾速地利用于企业级 AI 利用中。
根基模型的减速利用和落地，带动了基础设施和工具畛域的翻新。本期 IDP Inspiration，咱们为大家带来的是创投机构 Madrona 对于根基模型的倒退研判，和大家一起从投资人的视角探寻根基模型倒退带来的 AI Infra 新机遇。
以下是译文，Enjoy!

作者 | Jon Turow, Palak Goel & Tim Porter

编译 | 岳扬

人工智能畛域目前的流动速度几乎令人诧异。基于根基模型 (Foundation model)，生成性 AI 应用程序和利用于数据的简单推理的更大领域的应用程序正在疾速增多。 这些应用程序从理论的（减速代码开发[1] 和测试 [2]、法律合同[3] 和奥斯卡提名电影的生产[4]）到乏味的（多模态生成说唱对决）再到引人深思的（在美国医学执照考试中或靠近通过程度）。而根基模型的能力、模型准确性和基础设施的演变速度至多与之一样快。

如果所有这些感觉都不同，那是因为它们的确不同。以前云计算的呈现提供了以前不可能的计算能力，使得包含 变换器 (Transformer) 模型 在内的计算机科学的新畛域成为可能。该模型 [7] 能够让人们应用云计算来构建更大的模型，这些模型更好地推广，并且可能实现新工作，例如 文本和图像生成、汇总和分类。这些更大的模型曾经显示出简单推理、常识推理和超出散布稳健性的能力[8]，而更小的、更专业化的模型都不具备这些能力。这些大型模型被称为根基模型(Foundation Models)，因为开发人员能够在它们的根底上构建应用程序。

然而，只管翻新流动和步调在飞速发展，将来依然显然不够快，根基模型和生成式人工智能尚未达到目标。

构建者们面临一个不太令人满意的抉择：打天下（时机根基模型构建利用）容易守天下（造成护城河）难，或者相同。 在前一种状况下，根基模型容许开发者在一个周末（或几分钟）内创立应用程序，而此前须要几个月。然而，开发人员受到那些专有模型的现成性能的限度，其余开发人员也能够应用，这意味着开发人员必须富裕创造力，找到差异化的起源。在第二种抉择中，开发人员能够扩大开源模型体系结构的性能，以构建一些新鲜且易于造成护城河的货色。但这须要极高的技术深度，仅有极少数的团队具备这种能力。能力集中在多数人手中与一个行业蓬勃发展所须要的恰好相反——咱们须要更多的力量扩散到更多的人手中，而不是更加集中。

然而，如果咱们将大规模根基模型视为一种新的应用程序平台，提取出更宽泛的技术栈，就会发现那些挑战是创业者的机会。咱们去年晚些时候写了一篇文章，形容了这个栈，并预测工具层的呈现。该栈倒退如此之快（工具层也曾经疾速造成！），当初值得再次扫视。

纵观当今根基模型栈的状态，咱们发现了三个守业机会：

1）开发新鲜的应用程序 ：技术最先进的团队面临着广大的前景。有很多翻新能够做，特地是在 信息检索，混合模态和训练 / 推理效率 方面。这个畛域的团队能够推动迷信的界线，创立以前不可能的应用程序。

2）寻找差异化：具备杰出想法但仅有晚期技术能力的团队当初能够拜访工具，使得能够应用更丰盛的记忆 / 上下文，更丰盛的内部数据源和 API，以及评估和缝合多个模型的能力来构建更丰盛的应用程序。这为创始人提供了更宽泛的路径构建新鲜且易进攻的产品，即便他们曾经应用了宽泛可用的技术。

3）开发工具 ：喜爱基础设施的团队当初有一个高效率的机会，能够在 编排 Orchestraction（开发人员框架，数据源和动作，评估） 和 根基模型操作（部署，训练和推理的基础设施和优化工具） 方面构建工具。更加弱小和灵便的工具将增强现有开发者的能力，并使根基模型栈可能被更多的新开发者应用。

开发根基模型的人面临一个不吸引人的衡量——即基于模型构建新的应用程序的难易和对模型爱护的难易之间的衡量，该衡量源于外围根底模型的建设和开源形式。开发者明天必须在 iPhone/Android，Windows/Linux 格调的和平中抉择一方，在每一方都有苦楚的斗争。

一方面，咱们看到来自 OpenAI、co:here 和 AI21 等高度简单、疾速演变的 专有模型 （咱们也能够把谷歌退出到这个名单中，因为他们在这些模型上破费的工夫比任何人都长[9]，而且打算将模型内部化[10]）。另一方面是 开源架构，如 Stable Diffusion[11]、Eleuther、GLM130B、OPT、BLOOM、Alexa Teacher Model 等，都在 Huggingface[12] 上组织成社区核心。

1.1 专有模型

专有模型是由领有雄厚资金和技实力的提供商所领有的，这意味着他们能够提供行业当先的模型性能。它们的现成模型也意味着开发人员能够轻松上手。Azure 的新 OpenAI 服务使得入门变得比以往更容易，咱们预计这将减速开发人员的试验速度。

这些人也在思考老本——OpenAI 在 2022 年末将价格升高了 60%，Azure 也相应的调整了价格。然而这里的老本依然很高，限度了商业模式的可持续性倒退。按席位许可证（per-seat licenses）和基于应用定价（consumption-based pricing）等模式在晚期很广泛，这些能够继续。然而广告反对的业务模型可能不会产生足够的支出来笼罩这一程度的老本。

1.2 开源模型

开源模型的性能不如专有模型，然而在过来一年中有了显著改善。更重要的是，技术复杂度高的建设者能够领有扩大这些体系结构的灵活性，并建设尚不可能用专有模型实现的差异化性能（这是咱们喜爱 Runway 的起因之一，Runway 是一个下一代内容生成套件，提供实时视频编辑、合作等。为了反对所有这些性能，Runway 持续对多模态零碎和生成模型的迷信做出深刻奉献，以减速 Runway 的客户的特色开发）。

专有根基模型和开源根基模型之间的缓和关系曾经像 iPhone/Android 的和平一样。专有模型的劣势是性能和易于上手。开源模型的劣势是灵活性和老本效率。 能够必定的是每个营垒都会加大投资以解决其弱点（使 OSS 模型更容易上手，并使其有可能更深刻地扩大 OpenAI 模型），同时也要充分利用它们的劣势。

弱小、灵便的工具可能使现有开发者的能力变得更加弱小，使更多的新开发者可能应用根基模型技术栈。

咱们在 2022 年 10 月写道[13]：“根基模型并不是’just work’仅运行即可，因为它们只是宽泛的软件栈中一个组成部分。现在，从根基模型中失去最好的推理成果，须要利用开发者采取很多辅助措施“。

咱们的确看到开发人员在软件栈的这一档次上有亲密关注。很多最酷的、回报最高的工作将在将来几个月内产生在软件栈之上，特地是在开发者框架、数据源、优化措施以及评估方面。

2.1 开发者框架

过来的教训通知咱们，框架（dbt，Ruby）对于将大型应用程序的各个局部连接起来是很有用的。根基模型开发框架让开发者很容易地将诸如 跨多个调用的 Context、提醒工程和根基模型的抉择（或多个模型的程序） 联合起来。钻研人员曾经开始量化 [14] 这些应用根基模型构建的利用有如许弱小。LangChain[15]、Dust.tt[16]、Fixie.ai[17]、GPT Index[18]和 Cognosis[19]是这部分软件栈中最吸引开发者的我的项目。不好形容上手其中一些框架是如许容易。然而演示起来真的很容易，所以咱们当初就给大家演示一下。上面是 LangChain 开发者指南中的四行入门代码：

这样的开发者框架使入门应用根基模型变得非常简略，甚至简直成为一种乐趣。敏锐的开发者可能会留神到，通过下面的代码，如果开发者想要更换已启动的 应用程序底层 LLM/FM，简直不费吹灰之力。从久远来看，使开发变得更容易往往会带来更多的开发者，并减速新应用程序的呈现。在工具层面的翻新速度曾经十分快，这为工具的开发者和应用工具创立新应用程序的开发者发明了很多机会！

2.2 数据源和优化措施

现在根基模型只会推理它们承受训练的那些事实。但这对于须要依据变动极快的事实数据做出决策的利用开发者和终端用户来说，是个很大的限度，比方 天气、金融市场、游览市场、供给库存 等等。因而，当咱们想进行“hot”information retrieval 时，这将是一件小事。在这种状况下，咱们不须要训练或编辑模型，而是让模型调用内部数据源并实时推理这些数据。Google Research 和 Deepmind 在这个方向上发表了一些不错的钻研论文[20]，OpenAI 也是如此。所以，“hot”information retrieval 时代行将到来，特地是目前在这个畛域的研究成果转商业利用的速度十分快。

上述提到的开发者框架预见到了根基模型迷信的演变，并开始反对一些内部数据源。依照相似的思路，开发者框架也将反对一些”上游“畛域的概念（比方调用内部 API，如 Salesforce、Zapier、Google Calendar，甚至 AWS Lambda serverless 计算函数）。通过这些内部数据和优化措施的整合，很多新型根基模型利用将变得可能，而这在以前是很难或不可能的，特地是对于在专有模型之上构建利用的晚期团队。

2.3 评估

咱们在 2022 年 10 月 [13] 写道：“咱们必须小心谨慎看待根基模型，因为咱们永远不晓得它们会说些什么或做些什么。这些模型的提供者，以及建设在它们之上的利用开发者，必须承受承当这些危险的责任。”能够预感开发人员在这方面很快就会变得更加成熟。Academic benchmarks（学术评估基准）是评估模型性能的重要步骤。然而，即便是像 HELM 这样最简单的评估基准也是不完满的，因为它们 不是面向所有用户群或所有特定应用案例而设计的。

最好的测试集来自于最终用户 。生成的倡议中有多少被承受？chatbot 有多少次对话的 “ 转折 ”？用户在一张特定的图片上停留了多长时间，或者他们分享了多少次？这些类型的输出总体上形容了一种模式，而后开发者能够用它来定制或解释一个模型的行为，以达到最大成果。HoneyHive[21] 和 HumanLoop[22]是两个典型的公司，它们帮忙开发者迭代根基模型架构，批改提 prompts，过滤和增加新的训练集，甚至提炼模型以进步指定用例的推理性能。

计算是根基模型公司的次要老本驱动因素，制约了他们能够抉择的商业模式。新一代的部署优化、训练工具和基础设施，正在帮忙开发者解锁新的商业模式。

根基模型对训练和推理有微小的计算要求，须要大量的业余硬件，这导致利用开发者面临高老本和经营限度 （吞吐量和并发量）。大公司有实力来维持，微软在 2020 年建设了世界前 5 名的超算基础设施用于反对 OpenAI 倒退。然而，即便是巨头公司也面临着供应链和经济上的限度。因而，训练、部署和推理优化是投资的要害畛域，在这里咱们看到了大量的翻新点和机会。

3.1 训练

当初开源根基模型的批改和再训练比以往要容易。 最大的根基模型（foundation models）训练费用超过 1000 万美元，而 Chinchilla[23]和 Beyond Neural Scaling Laws[24]等论文表明，根基模型能够用 50 万美元甚至更少的费用训练，这意味着更多的公司能够本人创立根基模型。现在，AI 从业者能够获取很多大规模的数据集，如 LAION[25]（图像）、PILE[26]（多样化的语言文本）和 Common Crawl[27]（网络抓取数据）。他们能够应用 Snorkel[28]、fastdup[29]和 xethub[30]等工具来策动、组织和获取这些大型数据集。他们也能够拜访 HuggingFace 获取最新和最弱小的开源模型架构。他们还能够应用来自 Cerebras[31]、MosaicML[32]等训练基础设施来大规模地训练这些模型。这些资源对于利用最新的模型架构、批改重构这些架构的代码，而后在公共和专有数据的根底上训练私人模型是十分弱小的。

3.2 部署和推理

继续的推理老本没有像训练老本那样急剧下降。大部分的计算成本将最终用于推理，而不是训练。推理老本最终对开发者造成了更大的限度，因为它也限度了公司能够抉择的商业模式。 Apache TVM[33]等部署框架以及蒸馏和量化 [34] 等技术都能够帮忙降低成本，但这些都须要相当的技术深度能力应用。OctoML[35]（TVM 的开发者）提供能够降低成本和部署工夫的治理服务，并能最大化利用很多算力硬件。这使得更多开发者能够应用这些类型的优化，同时也让开发者可能更无效地工作。很多托管推理公司，如 Modal Labs[36]、Banana[37]、Beam[38]和 Saturn Cloud[39]，也想要使推理比间接在 AWS、Azure 或 GCP 等超级服务器上运行更具老本效益。

对于大规模 foundation models（根基模型），咱们才刚刚开始涉及外表。大型科技公司和资本雄厚的初创公司正在鼎力投资于更大、更好的模型、工具和基础设施。但最好的翻新须要无畏的技术和产品灵感。

围绕根基模型相干的翻新依然会源源不断，然而其速度和品质将会受到很多限度，直到软件栈足够欠缺可能让仅在某一方面有突出劣势的团队也能作出巨大贡献。这些工作都须要由大科技公司及其创始人、学者、开发者、开源社区和投资者共同完成。同时，所有这些翻新都须要思考有没有伦理道德负面影响，有没有潜在的意外结果，并将必要的防护措施做到位，这至多与推动技术自身具备等同重要性。

要让将来 AI 驱动的高质量利用源源不断的呈现，这须要咱们所有人共同努力。咱们期待看到企业家们提出什么新的想法来帮忙开释根基模型的真正力量，并实现人人冀望的宽泛翻新和影响力。

参考资料

1.https://github.com/features/copilot

2.https://www.codium.ai/

3.https://www.lexion.ai/products/ai-contract-assist

4.https://runwayml.com/customers/how-director-and-editor-evan-h…

5.https://twitter.com/russelljkaplan/status/1617070021406265345…

6.https://www.medrxiv.org/content/10.1101/2022.12.19.22283643v2

7.https://arxiv.org/pdf/1706.03762.pdf

8.https://arxiv.org/pdf/2206.07682.pdf

9.https://ai.googleblog.com/2023/01/google-research-2022-beyond…

10.https://www.nytimes.com/2023/01/20/technology/google-chatgpt-…

11.https://research.runwayml.com/the-research-origins-of-stable-…

12.https://huggingface.co/

13.https://bit.ly/3kOkheT

14.https://arxiv.org/abs/2212.14024

15.https://langchain.readthedocs.io/en/latest/

16.https://dust.tt/

17.https://fixie.ai/

18.https://github.com/jerryjliu/gpt_index

19.https://github.com/cognosisai/platform

20.https://arxiv.org/pdf/2211.05110.pdf

21.https://honeyhive.ai/

22.Humanloop – The platform for GPT-3 applications

23.https://arxiv.org/pdf/2203.15556.pdf

24.https://arxiv.org/pdf/2206.14486.pdf

25.https://laion.ai/

26.https://arxiv.org/pdf/2101.00027.pdf

27.https://commoncrawl.org/

28.https://snorkel.ai/

29.https://github.com/visual-layer/fastdup

30.https://xethub.com/

31.https://www.cerebras.net/

32.https://www.mosaicml.com/

33.https://tvm.apache.org/

34.https://lilianweng.github.io/posts/2023-01-10-inference-optim…

35.https://octoml.ai/

36.https://modal.com/

37.https://banana.dev/

38.https://www.beam.cloud/

39.https://saturncloud.io/

本文经原作者受权，由 Baihai IDP 编译。如需转载译文，请分割获取受权。

原文链接：https://www.madrona.com/foundation-models/

对于原作者: 作者 Jon Turow, Palak Goel & Tim Porter 来自 Madrona Venture Capital，在根基模型基础设施进行了屡次投资，并致力于帮忙减速根基模型将来的到来。从事或者对根基模型畛域的应用程序、根基模型构建及其工具感兴趣的小伙伴，可与原作者 (jonturow@madrona.com 和 palak@madrona.com) 分割。

关于人工智能:一万年太久只争朝夕-Foundation-model的进展仍不够快

1 根基模型 Foundation Models

2 Tooling / Orchestration

3 Tooling / FMOps

4 #HereWeGo

Just My Socks（注册教程内含优惠码）

关于人工智能:一万年太久只争朝夕-Foundation-model的进展仍不够快

1 根基模型 Foundation Models

2 Tooling / Orchestration

3 Tooling / FMOps

4 #HereWeGo

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）