作者|Pietro Casella、Patrik Liu Tran
翻译|贾川、徐佳渝、杨婷
语言(即读写能力)是人类最重要的创造,也是人类与其它物种的最大区别。语言使咱们把握了形象推理,倒退出了简单思维,学会了与别人沟通交流。能够说,没有语言就不会有现代文明。
因而,将来几年大型语言模型(LLM)将极大地影响生成式 AI 的倒退,ChatGPT 的迅速遍及就是很好的例证。此外,LLM 还在多种场景失去利用,比方内容创立、代码生成、药物开发、翻译、搜寻以及工作场合实用程序(例如会议转录和摘要)。
LLM 利用实例
总之,生成式 AI 的最新进展标记着 AI 未然迈进新时代。AI 现在不再只是研究课题,而是成为了帮忙人们解决理论问题的实用工具,在各行各业发光发热。因而,企业必须要器重 AI 的影响力。
面对 AI 的倒退,企业要立即行动起来,维持本身竞争力。长期来看,未能与 AI 交融的公司将在这场竞争浪潮中日益落后,并逐步沦亡。对于企业来说,最要害的是要把控好 AI 的劣势和老本,采取必要措施将 AI 纳入倒退布局。将来几年将会是商业倒退的黄金期间,新兴企业已如雨后春笋般呈现。
本文次要关注 LLM,包含 LLM 和模型相干技术概述,以及它们在实践中的利用。心愿本文能够帮忙从业者理解如何在业务中利用 LLM,使行业潜在投资者全面理解这一畛域,作出更好的投资决定。尽管咱们提供的框架(例如各类 AI 公司的分类)实用于所有生成式 AI,但这里还是以 LLM 示例为主。
(本文经受权后由 OneFlow 编译,译文转载请分割 OneFlow 取得受权。原文:https://aigeneration.substack.com/p/ais-next-frontier-buildin…)
1
从 Transformer 到 ChatGPT
AI 畛域常有开创性论文发表,这些论文影响着行业的将来倒退方向。LLM 畛域中,“Attention Is All You Need”就是这样一篇论文。
这篇文章由谷歌团队于 2017 年发表,在文中,他们提出了一种名为 Transformer 架构,简略来说,与过后的 SOTA 代替计划相比,Transformer 架构具备高度并行性和计算效率,同时具备超高性能。
这意味着,采纳 Transformer 架构的模型训练老本更低、速度更快,生成的模型性能更好。在不影响性能的状况下,这种低成本、高效的组合非常重要,它可能让咱们利用更多的数据,训练更大的模型。
受 Transformer 启发,在 Transformer 架构的根底上,各类出名 LLM 层出不穷,例如:生成式预训练 Transformer(GPT)模型、BERT 以及 XLNet。
无关 GPT(1.0)和 BERT 的论文最早能够追溯到 2018 年。次年(即 2019 年)发表了第一篇对于 XLNet 的论文。尽管如此,直到 2022 年底,OpenAI 推出 ChatGPT 后,LLM 才进入公众视线,开始风靡于钻研界之外。
ChatGPT 推出后,不到一周的工夫里,就播种了超百万用户。这种遍及速度非常常见,简直超过了以前所有的科技产品。台上十分钟,台下十年功,所有的突破性成就必然来自于披星戴月的致力。基于 GPT-3.5 的 ChatGPT 是 LLM 畛域多年以来的最重要的成就。实际上,ChatGPT 的根底模型并不是最好的 LLM,但却是目前最受欢迎的模型。
工夫会证实所有。在咱们看来,ChatGPT 最重要的是作为 PoC(为观点提供证据),向世界展现 LLM 的能力。只管 ChatGPT 公布初期非常火爆,但咱们不确定它是否成为支流 LLM 之一,在理论用例中取得广泛应用。起因如下:
2
根底模型 vs 专用模型
根底大型语言模型是在大量公开文本、数据(例如,维基百科、新闻文章、Twitter、在线论坛等)上进行训练的。模型训练数据话题宽泛,内容繁冗,并不针对特定畛域和工作,这类模型包含:GPT-3,Jurassic-1,Gopher 和 MT-NLG。
目前,尽管建设在根底 AI 模型(如 ChatGPT)之上的应用程序十分风行,但咱们预计,专用于特定畛域或工作的模型能力施展出 LLM 的真正价值。因为与雷同模型大小的根底模型相比,在业余畛域里,专用模型的体现通常来说更好。这意味着,咱们须要用更大的根底模型(这也意味着更高的推理老本和更大的内存占用)才有可能在业余畛域实现与业余模型雷同的性能。
专用模型比根底模型体现更好的起因之一与模型对齐无关,即 LLM 的输入与模型用户的指标和趣味绝对应的水平。更好的模型对齐意味着答案是正确且相干的,也就是说正确答复了模型申请的问题。因为专用模型仅关注特定畛域或工作,因而与根底模型相比,专用畛域模型的对齐水平通常更高。
咱们有多种形式实现模型的专用化,其中之一就是利用专用畛域或工作的数据来训练根底模型。比方,一个根底模型能够很好地答复银行相干的个别问题,然而,如果你想要打造一个专门针对银行的聊天机器人,那么这个通用模型的性能程度就不太够用了。这时,咱们就能够利用银行业相干的数据集来训练这个模型,实现模型专业化。反过来,如果有一家银行想要在客服服务中利用聊天机器人,从而实现简略工作的自动化,此时银行可能会在理论客户服务对话的专门数据上进一步训练这个业余模型。像这样训练当前,LLM 就能学会特定银行依照肯定政策的行事形式,毕竟不同银行可能有不同的政策和指导方针。
因为专用模型针对的是特定工作,不波及其它不相干的畛域和工作,所以说,不须要用到很大的根底模型来进行进一步训练。应用更小的模型意味着更低的推理老本和更小的内存占用,也就是说,比最大的可用模型小得多的根底模型可能会成为专用根底模型的首选。
3
LLM 如何改良?
为了更好地理解 LLM 的性能和局限性,咱们首先要理解该如何改良它们。LLM 的改良有三个次要驱动因素,别离是:体系结构改良、更大的模型、更多的训练数据。接下来咱们将对这三方面进行逐个介绍。
架构改良是要害,但很难获得冲破
架构改良(例如 2017 年的 Transformers 架构)能够在不减少模型复杂度和训练数据量的状况下晋升 LLM 性能。目前正在构建的少数 SOTA 性能 LLM 依然是基于 Transformer 的网络架构(与 2017 年推出的架构十分类似)。只管它具备已知的局限性(例如自留神导致的二次方工夫和内存复杂性),但目前还没有广受认可的架构更新。话虽如此,人们始终在一直摸索,试图改良架构,并为此推出了所谓的高效 Transformers 来打消已知局限。
对现有 SOTA 架构的渐进式改良(如高效 Transformers)将逐年冲破模型性能界线。此外,每隔一段时间,行业就会迎来突破性的架构改良(例如原始 Transformer 架构),这些改良代表着模型性能的跨越式晋升。
与减少模型大小和训练数据量相比,改良模型架构较为艰难。模型架构改良遵循传统研发模式,须要大胆翻新,且无奈保障后果,因而,LLM 的此类性能改良最为辣手,同时也是架构渐进式晋升与冲破向社区公布和分享的规范。除了率先应用先进模型,这意味着这类晋升不能作为长期劣势去与其它构建 LLM 的公司或对手竞争。例如,OpenAI 的 LLM 是以 Google Brain 2017 年创造并公开的 Transformer 为根底。
LLM 改良经典做法:扩充模型规模
目前,为了进步 LLM 性能,人们将大部分精力放在了减少模型大小下面。2020 年,OpenAI 发表了一篇论文,提出了在减少模型尺寸与进步模型性能之间的扩大定律,论文的论断是:人们应该将大部分估算用于扩充模型规模。这篇论文间接推动了增大模型规模的浪潮。下图出自论文 Machine Learning Model Sizes and the Parameter Gap,图中显示近年来语言模型大小呈显著增长趋势。
2019 年之前,大多数 LLM 的参数都在数亿级。2019 年,OpenAI 公布了有 15 亿参数的 GPT-2。2020 年,谷歌和微软公布了 T5 和 Turing NLG,别离蕴含 110 亿和 170 亿个参数。2020 年年中,OpenAI 公布了 1750 亿个参数的 GPT-3。从那时起,大型模型开始接连呈现,例如 AI21 的 Jurassic-1(1780 亿个参数)、DeepMind 的 Gopher(2800 亿个参数)、Nvidia 和微软的 MT-NLG(5300 亿个参数)以及北京智源研究院的 WuDao 2.0(1.75 万亿个参数)。
LLM 之所以能够通过减少模型规模来晋升性能,是因为这样做能晋升模型对简单事实的建模能力。因为 Transformer 架构速度快、性价比高,始终是训练大型模型的首选。然而,在同等条件下,更大的模型也意味着更高的训练和推理老本,同时也意味着更大的内存占用,也就是说,模型须要部署在更大的硬件上。因而,在估算和内存无限的状况下,自觉扩充模型规模并不是晋升模型性能的最佳抉择。
大规模训练数据集的比赛
始终以来,人们都低估了训练数据在模型性能晋升方面的重要性,这种重要性包含品质和数量两方面。2022 年 DeepMind 团队发表了一篇论文(https://arxiv.org/pdf/2203.15556.pdf),文中比照了模型大小和训练数据,最终论断是:少数语言模型显著训练有余。也就是说,在不减少模型大小的状况下,在更大的数据集上训练模型将受益匪浅。
文中,DeepMind 团队训练了一个绝对较小的 LLM,名为 Chinchilla,这个模型只有 700 亿个参数,但却有 1.4 万亿个训练 token。经过训练,Chinchilla 模型的性能超过了诸如 GPT3、Gopher、Jurassic- 1 和 MT-NLG 等更大的语言模型,这些语言模型的参数都在 1750 亿 -5300 亿之间,但训练 token 却在 2700 亿 -3000 亿之间(请参见下表)。这表明为了晋升模型性能,人们必将打响训练数据集之战。
此外,咱们还能够通过强化学习来利用更多数据,晋升 LLM 的性能。2017 年,OpenAI 公布了一类新的强化学习算法:近端策略优化(PPO,https://arxiv.org/pdf/1707.06347.pdf),是目前行业里的 SOTA。在实践中,近端策略优化操作更为简略,并且它的体现可能达到甚至超过其它代替办法。
ChatGPT 背地的 LLM 曾经利用人类反馈的强化学习(RLHF)实现了微调
,步骤如下:第一步:通过监督学习,用人类对不同提醒的“现实”答复数据微调 LLM。第二步:LLM 为每个提醒提供多个答案,而后由人工对这些答案进行排名(该排名用于训练处分模型)。第三步:用近端策略优化模型来优化 LLM 的处分模型。强化学习能够疏导模型提供更加正确、公正、无益的答案。总之,当初的 LLM 更加弱小。
事实上,这也是 OpenAI 将 ChatGPT 公布为“收费试用”的次要起因之一(其实你曾经通过提供数据的形式付费了)。ChatGPT 生成的每个答复旁边都有一个“赞(thumbs up)”和一个“踩(thumbs down)”按钮,用户能够通过这两个按钮来评估模型生成的答复。无论是“赞”还是“踩”都会呈现一个对话框,用户能够将现实答案输入框中,而这些答案正是强化学习第一步须要的数据。
ChatGPT 的反馈循环按钮
实践上讲,只有有短缺的资金和相干人才,任何公司都能打造出优质 LLM。但咱们预计,科技巨头最有可能打造出性能最佳的 LLM,因为这些公司能够取得和治理训练数据,特地是强化学习局部,以进一步改良和微调他们的模型。公司之间的训练数据有很大差别。谷歌、微软、Meta、亚马逊、阿里巴巴和腾讯等公司为数十亿用户提供了不同的服务,所以它们能够找到创新性的形式去收集相干数据,用以训练 LLM。
相比减少模型规模,用更多训练数据来晋升模型性能不会减少推理老本,模型运行时也不会导致更大的内存占用。但这也面临着其它挑战,其中最大的挑战是,咱们难以确保这些领有数十亿、数万亿训练 token 的数据集良性运行,从而导致模型产生谬误、偏见、无害的内容。强化学习兴许在肯定水平上能够对消这些不良内容,但难以关照到各个领域的 LLM。
4
不同类型的 AI 公司
咱们看到人工智能对这些公司的产品和差异化的重要性,以及他们次要经营的人工智能技术堆栈的哪一部分,可能会有很大差别。
在最近的生成式 AI 浪潮下,许多公司再次将本人标榜为“AI 公司”。AI 对这些公司的产品和差异化的重要性以及他们所研发的 AI 技术堆栈可能有着实质上的区别。基于此,咱们将这些公司分为以下五类:AI 内核(AI Core)、AI 赋能(AI Enabler)、AI 原生(AI Native)、AI 特色(AI Featured)和 AI 驱动(AI Powered)。
人工智能技术堆栈
AI 赋能公司次要在 AI 技术堆栈的底层,为构建 AI 模型提供基础设施、工具和数据反对。AI 内核公司的次要业务是构建和销售 AI 模型,在构建模型的过程中,AI 赋能公司为其提供相应反对,以实现数据获取、模型训练、模型工程和模型测试等工作。
AI 原生和 AI 特色公司处于应用层,它们应用的都是 AI 内核公司提供的 AI 模型。不过也有肯定区别,AI 原生公司的产品或服务的内核价值来自于 AI 模型的利用,而 AI 特色公司则是利用 AI 模型为已有产品增加新的性能。AI 驱动公司则处于 AI 技术堆栈的顶层,也就是最终用户所在的层级。
1. AI 赋能公司:为 AI 模型构建提供所需基础设施、工具及数据
AI 赋能公司是一类专为构建 AI 模型提供必要技术的公司。因为生成式 AI 模型具备微小的参数集,因而确保牢靠的基础设施以反对解决工作负载至关重要。此外,还须要提供 MLOps 工具,以帮助模型构建。在 AI 赋能公司中,提供训练数据、获取数据相干工具的公司最为引人注目,因为数据是影响模型性能和差异化的重要因素。
从基础设施开始
在 LLM 畛域,大多数 LLM 在模型的训练和部署方面高度依赖云服务提供商。三大次要云服务提供商(亚马逊 AWS、微软 Azure 和谷歌 Cloud)都有一些在该畛域中具备重要位置的客户。例如,OpenAI 正在应用微软 Azure 平台,DeepMind 应用的是谷歌 Cloud 平台,Stability AI 则抉择了亚马逊 AWS 作为其次要的云服务提供商。
随着 LLM 的衰亡,人们对云服务提供商所提供的存储和计算服务需要一直减少。如果将 LLM 的衰亡看作是一场继续的淘金热,那么云计算和存储服务提供商就像是这片土地的所有者,人们则是涌向这片土地的淘金者。为了成为计算和存储方面的首选提供商,云服务提供商会尽可能地为 LLM 的开发者提供最佳服务,这是一个理智的决策。
云服务提供商将成为重要的分销渠道,例如它们会通过本人的云市场来销售产品和服务,以不便以上云客户应用这些模型。最近,微软的首席执行官 Satya Nadella 走漏,他们将通过 Azure OpenAI 服务向用户提供 ChatGPT 模型。咱们置信,将来会有更多这样的例子呈现。
要想成为有竞争力的云提供商,须要关注多个因素,包含模型训练和运行推理的速度及老本。例如,Cerebras Systems 专一于为深度学习应用程序提供计算服务,旨在升高深度学习应用程序(包含大型语言模型)的训练和推理老本,并将计算速度进步到一般代替计划的十倍。
因为模型的大小、架构以及训练数据量的不同,训练老本可能会高达数千万美元,训练工夫会长达数百天。因而,节约老本和工夫仍将是将来深度学习畛域的重要因素。乏味的是,咱们看到一些区块链公司(例如加拿大的 Hut 8 Mining)正在将其硬件从新用于 AI 模型训练和推理,这一转变无望减速新参与者进入该畛域。
便利性和易用性也是云服务提供商须要思考的另一重要因素。云服务提供商能够通过优化底层硬件来训练个别的深度学习模型及非凡的深度学习模型(如大型语言模型),无需用户进行大量的手动调整。
此外,训练大型语言模型须要大规模的计算集群,而租用这些计算集群通常须要签订多年的合同,这种形式对于消费者来说不足灵活性。因而,提供更加灵便的短期租赁形式对消费者来说更具吸引力。
用于模型工程、开发和测试的工具
MLOps(机器学习运维)是一种将机器学习模型整合到软件开发周期中的实际和流程,旨在让机器学习模型在生产环境中放弃高性能和高可靠性。对于 LLM 来说,这波及到模型工程、开发和测试。
在模型工程和开发阶段,机器学习钻研人员和工程师通常应用像 TensorFlow、PyTorch 这样的库和框架。在模型开发实现后,须要对模型进行测试,而后再部署模型。
LLM 模型与其余机器学习模型一样,都能对训练数据中的信息进行编码,并在推理阶段对信息进行解码。然而,因为其训练数据次要是人类的书面对话和文本,因而可能存在偏见。大家可能都还记得,微软推出的一款聊天机器人 Tay,该机器人是通过 Twitter 数据进行训练的。然而,几个小时后,该机器人就开始发表带有种族主义色调的舆论。
此外,互联网中存在着大量的错误信息,咱们从中收集了大量 LLM 模型所需的训练数据。如果不对训练数据进行品质验证,模型就可能受到错误信息和人类偏见的影响。
目前,还没有一个可扩大、自动化的企业生态系统,可能监控和验证文本模式的非结构化数据的品质和有效性。随着 LLM 服务越来越受欢迎,为了满足人们对此类服务的需要,咱们当然须要采取一些自动化的办法来执行这些工作。因而,咱们预计在将来这一畛域会有很多的可能性。甚至可能会呈现专一于评估文本数据品质及有效性的 LLM 模型。
在模型测试方面,有许多人们宽泛承受的基准可用于评估 LLM 的性能。其中一个例子是斯坦福大学的一组钻研人员提供的全面评估语言模型(HELM)。HELM 是一种全面评估 LLM 性能的基准,它涵盖了多个方面的指标,如准确性、校准性、鲁棒性、公平性、偏见、无害性和效率。尽管如此,HELM 仍不能齐全反映出理论语言模型性能的全貌。据屡次报道,在基准测试上体现良好的模型,在理论测试中可能会体现佳。
OpenAI 产品负责人 Frasher Kelton 在一篇博客文章中提供了一个很好的例子,该例子表明当模型在某个工作上体现更好时,可能在另一个工作上体现更差。此外,在理论利用中,除了准确性、公平性、无害性等指标,推理老本和提早也是十分重要的度量规范,须要与其余指标一起进行衡量和综合思考。
鉴于此,Kelton 提出了一种更现实的测试方法,即须要通过一直地试错和摸索来判断模型是否适宜推向生产环境。然而,这种办法并不现实。因而,咱们可能会看到在这个畛域中会呈现几家大公司,来提供更欠缺和可信的解决方案。
数据采集
数据采集的第一步通常是获取大量的文本数据集。最后的数据集通常来自于收费凋谢数据源,这些数据能够在模型核心(如 Hugging Face)中找到。它们可能蕴含成千上万个数据集,每个数据集蕴含数百万甚至数十亿个单词。如果用户条款容许,你还能够通过爬取网站和应用程序来获取文本数据。一些潜在的乏味数据起源有维基百科、博客文章、论坛、Linkedin 和 Twitter。
除了收费凋谢数据源外,大多数 LLM 构建者依然会收集额定的数据。此处,咱们强调了三种次要的数据采集策略:数据标注、合成数据生成和通过反馈循环进行数据收集。
以数据标注公司 Scale AI 和 Labelbox 为例,它们提供了高效的数据标注工具。此外,举荐一个收费的开源替代品 Labelstudio。咱们预测,将来标注技术提供商将整合 LLM,为用户提供标签。这样,用户只须要核查和批准这些标签,无需从头开始理论标注(actual labeling)。最耗时的标注工作将被主动实现,从而进步了标注效率,使得标注数据的数量呈指数级增长。
应用 Labelstudio 能够轻松标记新数据
合成数据指的是生成人工数据的过程。其中,最常见的用例是当你因隐衷爱护而不能应用实在的原始数据时,你要么放弃数据,要么想出一些奇妙的办法对数据进行匿名化,同时依然保留感兴趣的信息。如果你抉择后者,就须要应用合成数据。Mostly 和 Hazy 是该畛域的两个例子。
如上文“更多训练数据比赛”一节所述,基于人类反馈的强化学习能够显著晋升模型性能。然而,要执行强化学习,须要肯定类型的训练数据。例如,在第一步中,须要为不同的 prompt 提供所需的答案。这些数据与所应用的模型无关,能够由第三方数据供应商提供。
接下来,人类须要对基于某一 prompt 生成的不同答案进行排序,这一步取决于所应用的模型,并且须要有人对想改良的理论模型的答案进行排名。因而,将来可能会呈现一些公司,它们会提供第一步所需的数据集,并为第二步提供咨询服务。
此外,还将涌现出一些工具,以简化收集和提供此类训练数据的过程。如果你想大规模收集此类数据,那么就须要应用简化数据收集和处理过程的相干工具。Humanloop 公司则提供了一种软件开发工具包,能够从用户那里获取 AI 的答案反馈。
咱们能够在 ChatGPT 和 Jasper 中察看到这些反馈循环的具体例子。如前文所述,ChatGPT 容许用户提供“赞”或“踩”作为生成答案的反馈。相比之下,Jasper 提供了更多的反馈细节和选项,让用户能够对文本进行赞、踩、标记珍藏、删除或编辑批改。编辑后的文本能够显示出现实答案的特点。
Jasperai 提供了多个反馈回路
2. AI 内核公司构建模型
AI 内核公司致力于构建理论的大型语言模型,并将模型的商业化作为次要的支出起源。OpenAI 是以后最为驰名的公司,不过也存在许多其余公司,如 AI21、Anthropic 和 Cohere。请参阅以下示例,理解 OpenAI、Cohere 和 AI21 的 API 测试平台(playground)和输入。
OpenAI、Cohere 和 AI21 的 API 测试平台比照
AI 内核公司能够抉择对模型闭源或开源。闭源公司通常用 API 来暗藏其模型以爱护它们。目前,闭源公司通常会按 API 调用次数向客户收取费用。
以下是 OpenAI 对于 GPT- 3 的定价截图,因为所需模型的性能程度不同,API 调用的老本也会不同,使用性能较好的模型比使用性能较根底的模型低廉。此外,还存在推理速度上的差别,以满足你对各种用例的时延需要。换句话说,你能够依据本身的理论需要抉择适宜的 LLM 性能程度,并在相干老本和性能之间获得均衡。
OpenAI 的定价模式
像 Jasper 这样的公司,开始会在一个由 AI 内核公司构建的闭源 LLM 上构建他们的整个产品,这意味着他们没有理论的 LLM 知识产权。这是这些公司面临的次要危险之一,因为这使他们无法控制模型,无奈依据本人的需要进行专业化改良。此外,闭源模型通常比你能够本人托管的开源代替计划更加低廉。
开源模型的 AI 内核公司则不会有这些担心。即便他们提供了 LLM 模型代码,许多公司也没有能力以弱小、可扩大的形式将 LLM 模型投入生产并提供服务。因而,开源提供商通常通过模型托管服务来获取收益。以后,一些组织致力于构建开源 LLM 模型,例如 Eleuther、Together 和 BigScience/Huggingface 等等。值得一提的是,谷歌和 Meta 已决定开源其中的许多模型。
目前,大多数 AI 内核公司提供的是通用根底模型。依据咱们在“根底模型 vs 业余模型”一节中的预测,LLM 模型的最大价值将来自于专用化的模型。
因而,对于 AI 内核公司而言(无论是抉择闭源还是开源),他们能够提供根底模型,而后让客户应用本人的数据来训练这些模型,从而失去在特定畛域体现更好的、专门针对客户需要的专用化模型。这项服务将成为 AI 内核公司的一个重要的支出起源。AI 内核公司还将提供越来越多的专用化模型,AlphaFold 就是一个典型的例子,它专一于蛋白质构造畛域。
3. AI 原生和 AI 特色公司打造具备良好用户体验的 AI 利用
须要留神的是,应用 LLM 模型的大多数用户并非 AI 专家。因而,仅提供 LLM 模型的 API 并不能帮忙他们解决任何问题,这就是为什么用户体验十分重要的起因。
随着根底 AI 模型的日益遍及和专用化模型的开发越来越简略(得益于一些公司提供的反对,减速了模型专用化的过程),用户体验的重要性将会进一步提高。因而,在用户体验层面的差别将变得更加要害。
Jasper 的倒退历程是一个极好的例子,展示了用户体验的重要性。该公司成立仅 18 个月后在 A 轮融资中筹集了 1.25 亿美元,估值达到了 15 亿美元,过后他们吸引了将近 10 万付费客户,年收入达到 7500 万美元左右。
Jasper 最后没有自行构建任何 LLM 模型,而是抉择了利用 OpenAI 的 GPT- 3 作为根底,通过 API 接口构建出用户体验更好的利用。换句话说,他们更加重视开发易于应用和吸引人的利用,而不是自行构建 LLM 模型。在设计过程中,他们思考了一些关键问题:
- GPT-3 API 的 prompt 输出应该是什么样的?
- 输入应该如何出现?应该出现多少条输入倡议?
- 用户存储和排名不同的备选计划是否易于操作?
- 这个工具如何融入文案撰写的整个工作流程中?
尽管 Jasper.ai 和竞争对手 Copy.ai 简直是在同一时间应用 OpenAI GPT-3 API 构建其应用程序,然而 Copy.ai 在最终用户中的影响力远不如 Jasper.ai。造成这种差别的因素可能有很多,其中用户体验是一个关键因素。
一个须要思考的重要问题是:用户体验(UX)层与底层的 LLM 之间能有多大的独立性?在更改应用程序的底层 LLM 时,是否能够防止对用户体验产生负面影响?对于 LLM 的渐进改良(如应用更多数据进行训练,进行微调或专用化),用户体验层通常不会呈现太多负面影响(相同,可能会产生踊跃成果)。
然而,对于 LLM 的重大改革,结果可能会更大。例如,大多数 LLM 目前只会从用户提醒中获取信息并返回答案。因而,应用廓清问题来减少答案的相关性,将有助于进步模型的准确性。能够说,那些构建在 LLM 之上的公司正在发明出良好的用户体验来补救底层模型的不足之处。
实际上,GPT- 3 不会询问廓清问题,也不能始终提供完满的答案。因而像 Jasper 这样的公司就应运而生,他们能够提供多个答案,并容许用户轻松批改答案并对其进行排名以补救缺点。然而,当缺点间接在底层的 LLM 中被修复时,这些公司必须寻找其余形式在应用程序层面提供价值,以放弃他们在行业中的竞争位置。
依据 AI 模型对产品价值主张的重要水平,咱们能够将应用程序层面的公司分为两类:AI 原生公司和 AI 特色公司。
AI 原生公司:将 AI 模型作为产品外围价值主张
AI 原生公司(AI Natives)指的是那些价值主张齐全基于利用 AI 模型(如 LLM)的公司。这类公司本人不创立 AI 模型,而是利用商业版的 GPT、Google T5 和 Anthropic 以取得老本和性能方面的劣势。后面提到的 Jasper.ai 和 Elicit.org(该公司创立了一个 UI,容许用户用自然语言浏览所有迷信出版物的库)都属于这类公司。
Elicit.org 的钻研搜索引擎
人们就 AI 原生公司的护城河开展了强烈的答辩,争议点在于:如果公司“仅”在别人 AI 模型的根底上提供领有杰出用户体验的 UI,那么公司的业务护城河到底如何?
如果 ChatGPT 曾经存在,那么成立像 Jasper.ai 和 copy.ai 这样的公司又是否可行?无论答案如何,就目前状况而言,几个 AI 原生公司已迅速取得了大量客户,同时筹集到大量资金。有了资金保障,这些公司就能招募团队,本人构建根底模型,深入研究技术并实现真正领有模型。速度和翻新对于这类公司至关重要:尽管它们能够通过依赖别人的 LLM 迅速开启本人的事业,但也须要疾速适应能力存活下来。
AI 特色公司:利用 AI 模型来改良现有产品
AI 特色公司(AI Featured)将 AI 模型与现有产品相结合,以创立附加性能。对于这类公司而言,AI 性能并不是其产品的外围(至多在最后是这样)。
生产力工具 Notion 就是一个很好的例子。Notion 本是一个记事工具,但最近增加了一个快捷方式,用于通过 prompt 生成文本(基本上是简略调用 OpenAI 的 API)。尽管这不是 Notion 的外围性能,但对于其用户来说,却是一个很有价值的补充性能,因为这使得用户能够间接在 Notion 中生成文本,而不必在其余中央生成好再复制粘贴过去。
Notion 新的 AI 性能
Google Docs 也利用 AI 模型来提供主动实现性能。尽管 Google Docs 的次要价值主张与主动实现性能无关,但该性能进步了用户的生产力,因此失去高度好评。Canva 也是一样。Canva 本是一个用于创立演示文稿的工具,但通过利用 AI 模型,演示文稿的文本和图形都能够依据用户的 prompt 和反馈来主动生成。
上述例子表明:用户体验是否杰出对于 AI 模型的胜利至关重要。那么如何利用 LLM 来提供杰出的用户体验?关键点在于将 AI 模型深度集成到你想用 LLM 所解决工作的现有工作流程中。这也是目前这类公司中胜利案例的规范做法。因而,预计未来还有很多 AI 特色公司都将成为各自畛域的赢家。
话虽如此,但也有很多公司将 AI 性能集成到其产品后,并未给其用户带来多少额定价值。这些公司可能只是为了赶生成式 AI 的热潮。因而,辨别哪些公司的 AI 个性可能真正晋升用户价值非常重要。
4. AI 驱动公司:智能公司和加强人类生产力
AI 驱动类的公司 生产 AI 产品但不提供任何 AI 应用程序或 AI 模型。这是目前市面上数量最为宏大的群体,预计在不久的未来,所以公司都将成为 AI 驱动公司,其大多数产品和服务都将蕴含某种 AI 性能。这个过程个别须要两步:
第一步,公司外部某些员工会依据本人的需要来利用 AI 产品进步工作效率。例如,营销经理可能会应用 Jasper 或 ChatGPT 来编写文案,而客户主管则能够利用 LLM 为潜在客户定制电子邮件。
第二步,AI 产品的利用形式更加系统化。此时 AI 产品的应用范畴不再局限于公司外部个别员工,高层管理人员也开始应用 AI 来制订策略政策。公司也由此转型为“智能公司”。例如,BuzzFeed 在裁员 12% 后,其首席执行官 Jonah Peretti 打算应用 AI 来编辑文章和帮助商业经营操作。他预计 AI 的退出将会在短期内晋升员工的生产力,并且在 15 年后,AI 则可能自主生产内容并提供个性化服务。在该音讯收回后的一个交易日内,BuzzFeed 的股价就上涨了超 150%。
AI 能进步智能公司的自动化水平。上一个自动化时代次要围绕机器人流程自动化(RPA)开展,整个过程依照人类主导的基于规定的脚本来开展。而新时代的自动化个别将围绕生成式 AI(Generative AI)来运作,尤其是 LLM。
应用 LLM 时,咱们可能超过基于规定的脚本,自动化更多异构工作,而不用给出明确指令。这些工作包含但不限于欺诈检测、简化客户服务工作、内容生成、会议转录、会议总结、法律文件剖析等。
此外,LLM 还将在构思、探讨、解决问题和决策过程等多方面进步公司员工的能力。这种能力也将天然地集成到公司应用的日常工具中,如 Slack、Zoom 和 Notion。换言之,LLM 能聆听对话并适时作出贡献。如果权限够大,LLM 还能存储公司所有沟通内容,从而突破耗时且老本昂扬的常识孤岛。
目前仍有许多公司尚不分明生成式 AI 会对其将来倒退带来多大影响。实际上,大多数公司都应该认真思考是否应该利用 AI 以及如何利用 AI 来进步生产力。因为在欠缺服务、提高质量以及管制老本方面,这可能就是拉开差距的中央。
5. AI 技术全栈公司
尽管咱们依据 AI 公司在技术栈的哪个局部集中投入最多来将其分类,但理论状况并不总是那么黑白分明。无论类别如何,AI 公司通常都须要与整个技术栈进行互动和合作。
首先,AI 赋能公司提供训练数据,AI 内核公司用这些数据来训练 LLM,而后 AI 原生或 AI 特色公司应用 LLM 来开发应用程序。
如上文所述,应用层的公司有大量机会来收集用户反馈数据,而这正是强化学习 LLM 所需的数据类型。换句话说,应用层的公司通常既是应用程序提供者,也是数据提供者。要领有从数据到应用层的整个技术栈,它们惟一缺失的局部就是模型层。实际上,Jasper.ai 最近发表开始构建本人的 LLM,这将使他们领有从数据到应用层的整个价值链。
同样,OpenAI 最开始在模型层,随着 ChatGPT 的推出,他们进入了应用层,通过收集人类反馈训练数据,他们当初曾经可能进入数据层。换言之,他们也开始领有整个 AI 技术栈的价值链。在将来,这样的例子将会越来越多。
5
将来倒退
心愿这篇文章能使你对生成式 AI 和 LLM 有个大抵理解。不过,咱们当初仍处于这个新时代的晚期阶段,将来几年的停顿甚至会超过前几十年的的累积之和。以下是值得进一步探讨的八个问题:
1. 生成式 AI 的淘金时代:继 2022 年高度关注 Web3 和加密货币后,投资者和企业家曾经将重心大量转向了 AI,尤其是生成式 AI。当初已有大量资本进入该畛域,这不由得使咱们想起了 2021 年,心中自然而然生出一个问题:这会不会又是一场没有后果的炒作?**
自 1956 年 AI 诞生以来,AI 畛域就始终负担着人类很高的冀望。每当这些冀望无奈被满足时,AI 就一次次进入了“寒冬”(指社会对该畛域趣味骤减且不足资金反对的期间)。但随着生成式 AI 的一直倒退,这样的日子曾经一去不复返了。在失当用例上,AI 能够提供微小的价值。然而,因为一些投资者在不理解状况下盲目投资,导致估值虚高,因而该畛域可能会呈现过热景象。话虽如此,咱们始终深信 AI 的黄金时代未然到来。
2. 智能组织和加强员工生产力:如上所述,AI 驱动公司将应用 AI 加强来实现工作自动化和改善决策能力,以此来进步生产力。有钻研报告指出:Github Copilot 能够使开发速度进步 55%,这意味着通过利用 AI 模型,开发人员的生产力将显着进步。这很可能只是个开始,LLM 在代码生成方面会变得越来越好,甚至开发人员可能进入无代码时代。
就其余畛域而言,比方法律、市场营销、销售、客户服务,也无望以相似的办法进步生产力。最终每个行业中的每个公司都将思考:这对咱们意味着什么?在这场反动中,每个公司只能抉择退出或者被退出。
3. 专用模型的崛起:预计大部分价值将来自于业余模型而非根底模型。因而,将来咱们将会看到越来越多的专用模型,比方用于银行客户服务的模型就不需晓得如何以说唱风写诗歌,而且还能够为集体工作或所属畛域而打造更小的专属模型。
咱们预测:实际上对于像 OpenAI、AI21 和 Cohere 这样的 AI 内核公司来说,开发出能让客户在他们根底模型上轻松发明出专业化模型的性能至关重要,因为所有人都在期待该性能,以解锁 LLM 的下一个价值级别(next level of value)。
除了通过专用模型实现卓越性能外,应用层的公司还将取得一种公有模型,使得这类公司不仅是建设在根底 AI 模型(每个人都可拜访)之上的不错 UX。
4. 多模态模型 :尽管本文次要关注语言模型和文本数据,但生成式 AI 还蕴含其余模态,例如图像和声音。
近来,人们正致力将不同模式组合到 AI 模型中,打造具备多模态输入输出能力的模型。最近,Google Research 团队发表了一篇论文(https://arxiv.org/pdf/2301.11325.pdf),展现了如何将文本转化成音乐。这种模型自身就很弱小,有了这种模型,没有音乐背景的人可能通过自然语言形容,生成音乐。
但试想一下,如果咱们将这种模型与图像转文本能力相结合,会怎么样呢?这意味着咱们能够利用 AI 剖析视频内容,生成描述性本文,最初由 AI 配上适合的音乐。另外,咱们还能够反过来操作,如果曾经依据文字提醒生成了音乐,当初咱们还能够用 AI 来生成相应视频。要做到以上这些,咱们只须要向多模态模型收回一条指令。
黄仁勋是英伟达的创始人兼首席执行官,他曾于 2023 年 1 月拜访瑞典,在那期间,咱们曾与他探讨英伟达在生成式人工智能畛域的重点。他提到英伟达不再像以前一样聚焦于繁多模式,例如 MT-NLG,而是致力于构建多模态模型。
5. 人类反馈的强化学习(RLHF)的重要性:只管人类反馈强化学习已呈现多年,但还说不准它会对 LLM 的性能产生怎么的影响。
咱们揣测,与 GPT3 相比,GPT4 在初始训练数据和强化学习数据减少的状况下,其性能将取得跨越式晋升。因为 ChatGPT 的遍及,OpenAI 为强化学习积攒到了前所未有的海量数据。尽管初始训练数据与强化学习的人类反馈数据之间的绝对重要性还未可知,但咱们认为,强化学习很有可能就是 GPT- 4 的秘密武器。
6. 扩大的重要性:如上所述,应用层公司能够收集相干的人类反馈进行强化学习。如果下面第五点对于人类反馈数据重要性的预测是正确的,那么领有大量消费者的利用公司将可能汇集海量专有、要害数据,以改良模型。
思考到微软与 OpenAI 的合作伙伴关系,在这场由 AI 主导的比赛中,其它媒体都认为微软会是注定的赢家,但咱们不能疏忽 Meta、谷歌、苹果、亚马逊、阿里巴巴和微信等公司,因为他们领有大型面向客户的应用程序。要记住,数据才是改良大型语言模型惟一真正无效的代替计划,因为模型规模和框架都能够被复制(依据一些钻研文章)。
7. 更多的公司将成为数据公司:因为训练 LLM 须要大量的对话数据,所以那些可能大规模收集此类数据的公司将受到高度重视。比方 Twitter,它收集了最大的对话数据集之一。ChatGPT 背地的模型就是在 Twitter 数据上进行训练的,但 Elon Musk 晓得后立刻叫停了这类训练。兴许将来 Twitter 的大部分支出将来自于发售对话数据拜访权? Meta 领有 Facebook、Instagram 和 Whatsapp,是另一家能够拜访大量对话数据的企业,试想一下,如果 Meta 的对话数据成为一项独立业务,会产生如许大的价值呢?
8. 公众舆论和监管的焦点仍在于 AI 伦理及其社会影响:版权问题、模型可信度、劳工问题和网络安全等话题已引发强烈答辩,甚至可能引起监管机构的留神。公司应审慎应答监管环境。当初曾经有许多法规示例行将出台,例如欧盟 AI 法案和中国禁止创立无水印的 AI 生成媒体。目前的监管还处于不确定期间,在此之前,心愿每个人都奉献一份本人的力量,在 AI 利用中放弃公平正义。
欢送 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/