关于人工智能:ChatGPT搜索风暴

搜索引擎的市场格局曾经有二十年没有什么大的变动，现在，Google和微软两大巨鳄的交锋再度演出。ChatGPT风靡之时，搜寻成为大型语言模型（LLM）利用之争的最大战场。
在LLM技术过程方面，Google的相干大模型研发实际上与OpenAI的ChatGPT差不多齐头并进。但刚刚仓促推出的Bard显得很被动，Google官网的解释是，他们须要思考新技术对社会的影响，不想推出一个漏洞百出的搜寻零碎。
不过，作为商业公司，任何行为的背地都要思考经济老本。要晓得，搜寻中广告市场份额的1个百分点的变动，都可能带来至多数亿美元营收上的幅度稳定。Google要将利用成果还不是很好的LLM作为根底技术，引入到寰球市场占比92%的搜索引擎业务中，如果没有内部对手发动的弱小挑战，很难进行大胆变革。
另一方面，自我反动是一件重大违反兽性的事，更何况大厂还有所谓的“大企业病”，敢作敢为在劫难逃。
这恰好是微软Bing的可乘之机，寰球市场份额目前占比不到3%，历史包袱很小，New Bing要推出的音讯让Google急不可耐。
ChatGPT的用户曾经到1亿了，可想而知，如果Google搜寻这次不跟LLM，还是依照本人的节奏去逐渐更迭，其搜寻业务的老底存在被倾覆的微小危险，要是Google跟了LLM，要接受用户体验不佳的危险，还必须得在已有搜寻老本上大出血——大概还要收入300亿美元的老本。
当然，Google与微软单方高层比任何人都分明这一点，只是前者更多是焦虑不安，后者则是兴奋不已。
综合思考危险后，Google只能硬着头皮迎战，于是就有了Bard。Bard的意思是“漂泊诗人”，依据百度的后果，这类诗人通常行事半调子而不拘小节，样样通而样样松，还别说，这个风格倒是挺合乎当初LLM模型目前的能力特质。相较之下，微软New Bing当初像是个牛气哄哄的“拼命三郎”，就想干一票大的，毕竟在某种程度上，Bing曾经没什么可失去的了，而且这次很可能还要触底反弹。
那么，ChatGPT到底会如何影响当初搜寻架构以及相干业务老本？此前，OneFlow公布了《ChatGPT背地的经济账》（https://mp.weixin.qq.com/s/aA...），文章从经济学视角推导了训练大型语言模型的老本。本文则从LLM搜寻架构和老本剖析登程，探讨了微软Bing和OpenAI利用大型语言模型 (LLM) 对搜寻业务的潜在颠覆性，并剖析了LLM在搜寻中的演进和倒退状况。
（以下内容经受权后由OneFlow编译，译文转载请分割OneFow取得受权。原文地址： https://www.semianalysis.com/...）

作者｜Dylan Patel、Afzal Ahmad
OneFlow编译
翻译｜杨婷、徐佳渝、贾川

OpenAI推出的ChatGPT风靡寰球，仅在一月份就迅速积攒了超1亿沉闷用户，成为史上用户增长最快的应用程序。在此之前，Instagram花了30个月才跨过1亿用户门槛，TikTok用了9个月。每个人最关怀的问题是大型语言模型（LLM）对搜寻的破坏性有多大。微软此前发表了一条震惊世界的音讯：OpenAI的技术将整合到Bing搜索引擎中。

New Bing会让谷歌如坐针毡，我想让公众晓得咱们正是让谷歌按捺不住的助推器。——Satya Nadella，微软CEO

谷歌近来的行动让公众感觉他们正“烦躁不安”。尽管咱们置信谷歌领有世界上最好的模型和最先进的AI专业知识，但长期以来，他们却没能将本身的当先劣势变现。而来自微软和OpenAI的竞争压力正在迅速扭转这一情景。

给搜寻畛域带来颠覆和翻新须要投入资金，而训练LLM的老本很高。更重要的是，不论以何种正当的规模部署模型，其推理老本都远超训练老本。

实际上，每周推理ChatGPT的老本都超过了其训练老本。目前ChatGPT每天的推理老本为700,000美元。如果间接将以后的ChatGPT集成到谷歌的每次搜寻当中，那么谷歌的搜寻老本将大幅回升，达到360亿美元。谷歌服务业务部门的年净收入将从2022年的555亿美元降落至195亿美元。若将“类ChatGPT”的LLM部署到搜寻中，则意味着谷歌要将300亿美元的利润转移到计算成本上。

当然，这种状况永远不会产生，在软件/硬件方面改良之前，这只会是一种乏味的假如。

1 搜寻业务

首先来看一下搜寻市场的状况。据调查，谷歌每秒运行的搜寻查问约为32万次，而谷歌的搜寻业务部门在2022年的支出为1624.5亿美元，每次查问的平均收入为1.61美分。谷歌必须为计算和网络搜寻、广告、网络匍匐、模型开发、员工等领取大量开销。在谷歌的老本构造中，一个值得注意的我的项目是：为了成为Apple产品的默认搜索引擎，他们领取了约200亿美元。

谷歌服务业务部门的营运利润率（operating margin）为34.15%。如果咱们为每次查问调配COGS/经营费用，那么每次搜寻查问的老本为1.06美分，产生的支出为1.61美分。这意味着，基于LLM的单次搜寻查问费用必须低于0.5美分，否则搜寻业务对谷歌来说将毫无利润可言。

New Bing将交融一款新的下一代OpenAI大型语言模型。该模型针对搜寻业务进行了定制，吸取了ChatGPT和GPT-3.5的重要教训和成绩，速度更快、更精确且性能更弱小。——微软

2 ChatGPT的老本

因为有局部未知变量，所以估算ChatGPT的老本是一个辣手问题。咱们建设了一个老本模型，模型显示ChatGPT在计算硬件方面的每日经营老本为694,444美元。为维持ChatGPT的运行，OpenAI须要约3,617台HGX A100服务器（28,936个GPU），预估每次查问的老本为0.36美分。

咱们的老本模型是在每次推理的根底上从头开始构建的，但它与Sam Altman推文和他最近所做采访所做的介绍统一。

咱们假如OpenAI应用了GPT-3密集模型架构，这个架构的参数大小为1750亿、暗藏维度为1.6万、序列长度为4000、每个响应的均匀token数为2000、每个用户响应15次、有1300万日沉闷用户、浮点运算（FLOPS）利用率比FasterTransformer高2倍且提早小于2000毫秒，int8量化，纯闲置工夫占用50%的硬件利用率，并且每个GPU每小时老本为1美元。如有不同意见，欢送指出。尽管咱们置信咱们处于正确的区间内，但很乐意使其更加精准。

3 应用ChatGPT的搜寻老本

如果ChatGPT被整合到谷歌现有的搜寻业务中，那么其影响将是毁灭性的。谷歌的营收将缩小360亿美元。以下是LLM的360亿美元推理老本。

若想将以后的ChatGPT部署到谷歌搜寻，则须要512,820.51台A100 HGX服务器和共计4,102,568个A100 GPU。在这些服务器和网络的总成本中，仅资本收入就超过1000亿美元，其中大部分资金将流向英伟达。 当然，这永远不会产生（但如果咱们假如没有任何软硬件改良的话，能够将其当成一次乏味的思维试验）。应用谷歌的TPUv4和v5在订阅者局部建模也有不同的推理老本，同时咱们还有一些H100 LLM推理性能方面的改良数据。

令人诧异的是，微软晓得将LLM融入搜寻会捣毁搜寻的盈利能力，并须要大量的资本收入。只管咱们估算了营业利润的变动，但还是来看看萨提亚·纳德拉（Satya Nadella）对毛利率的认识吧。

从当初开始，搜寻的[毛利率]将始终呈降落趋势。——Satya Nadella, 微软CEO

搜寻毛利率降落已成既定事实，更不用说随着搜寻品质的进步，搜寻量可能会有所缩小，咱们难以在大型语言模型的响应中植入广告，以及稍后本报告会探讨的其余泛滥技术问题。

微软正在不遗余力地捣毁搜寻市场的盈利能力。

在搜寻广告市场中，每减少一个百分点的份额，咱们的广告业务就有可能取得20亿美元的支出。——微软

必应的市场份额很小，但微软抓住的任何份额增长都将给他们带来微小收益。

我认为咱们单方都会受益匪浅。咱们将逐渐发掘出这些大模型的潜能，但如果搜寻业务被垄断，倒退停滞不前，在这种状况下如何从搜寻和广告中营利都会是一个问题，并且咱们还要应答可能呈现的短暂上行压力，这种状况是我所不愿看到的。

大模型的发展潜力微小，难以想象咱们不晓得该如何利用它们来发家致富。——OpenAI CEO Sam Altman

与此同时，在这场竞争中，谷歌正处于劣势位置。如果谷歌的搜寻市场位置被波动，那么它的利润将受到极大的影响。搜寻市场份额失落所带来的影响可能会比下面剖析的更加蹩脚，因为谷歌的经营老本十分高。

4 谷歌的应答措施

对此，谷歌并没有坐以待毙。在ChatGPT公布短短几个月之后，谷歌就紧随其后向公众推出了集成LLM的搜寻版本。就目前咱们所看到的，微软的New Bing和新版谷歌搜寻各有优劣。

集成了ChatGPT的New Bing搜索引擎在LLM性能方面仿佛更加弱小。谷歌在搜寻准确性方面存在问题，甚至在Bard的演示中也呈现了这种问题。然而在响应工夫方面，谷歌的Bard能够间接碾压Bing GPT。这些模型响应工夫和搜寻品质方面的差别与模型大小间接相干。

Bard将世界常识的广度与大型语言模型的力量、智慧和创造力相结合，并利用网络提供及时、优质的答复。谷歌Bard由LaMDA轻量级模型版本提供撑持，这种小型模型须要的算力更少，能够辐射到更多用户，取得更多反馈。——谷歌

谷歌正通过部署轻量级模型来争取更大的利润空间。他们本能够部署全尺寸大小的LaMDA模型或性能更强、更大的PaLM模型，然而他们没有这样做，反而抉择了LaMDA轻量级模型。

对于谷歌来说，这是一种必然选择。

谷歌无奈将这些宏大的模型部署到搜寻当中，因为这会大大降低毛利率。稍后咱们会具体探讨LaMDA的轻量级版本，但重要的是，咱们要意识到Bard的时延劣势是其竞争力之一。

谷歌的搜寻支出来自广告，不同的用户在搜寻时会给谷歌带来不同的收益。相比印度男性农民，美国市区女性均匀每个指标广告所带来的收益要高得多，这也意味着不同用户会带来截然不同的营业利润率。

5 LLM在搜寻中的倒退

将LLM间接融入搜寻并不是改良搜寻的惟一办法。 多年来，谷歌始终在搜寻中应用语言模型来生成embeddings。这种办法能够在不减少推理老本估算的根底上，改善最常见的搜寻后果，因为这些embeddings能够一次生成，供多个搜寻后果应用。

相比ChatGPT领有的2000个Token输入总数，从Bing GPT的84个不同的实例来看，Bing GPT约为350个Token的输入总数显著较少。少数状况下，人们在搜寻时不愿浏览大量繁琐的信息。此估算思考了未向用户展现的token。

后续优化是实现前2000个关键词占搜寻量的12.2%，其余的则是纯导航性搜寻（purely navigational searches）。假如20%的搜寻不须要LLM。最初，相比应用基于NVIDIA的HGX A100的Microsoft/OpenAI，谷歌应用外部TPUv4 pod的基础设施劣势更显著。

这些简略的优化能够让谷歌以仅30亿美元的额定老本将LLM部署到搜寻当中。如果所有从一开始就完满设置，那么谷歌单在硬件上的收入老本就约为200亿美元，其中包含数据中心基础设施。这是在NVIDIA H100和谷歌的TPU v5等新硬件或MoE、稠密性、剪枝、模型蒸馏、kv缓存和提前退出机制（early exit）等各种技术成本增加之前的状况。

人们不会承受连贯到互联网的ChatGPT接口。因为运行速度很慢、容易假造虚伪信息、并且无奈无效变现。不过上述剖析依然过于简单化。

因为用户体验产生了转变，单位支出经济学（unit revenue economics）和老本构造将在将来2到3年内迅速扭转，实现齐全重构。

如果要从支出和老本方面更深刻地理解这一变动，那么咱们首先要搞清以后的搜寻架构，因为它是将来变动的根底。

从较高的层面来看，搜寻的指标是尽快提供相干信息。用户输出关键词时，搜寻后果最好要依照优劣从上到下排列。搜寻工作流（search pipeline）次要有四个过程：爬虫、索引、查问处理器和广告引擎。机器学习模型早已浸透进这四个畛域。

爬虫

爬虫会主动定位互联网上的新内容，这些内容包含网页、图像和视频，而后它会将这些内容增加到搜索引擎的数据库（索引）中。通过机器学习，爬虫可能确定要索引页面的价值并辨认其中的反复内容。它还能剖析页面之间的链接，评估哪些页面可能相干且重要，这些信息会被用于优化抓取过程，确定抓取内容、频率和水平。

爬虫在内容提取方面也起着重要作用。它的指标是实现网页爬取内容的全面文本化，同时使数据总量最小化，以确保搜寻的速度和准确度。时延（latency）对于搜寻来说至关重要，即便是几百毫秒的变动，也会极大地影响用户搜寻量。

谷歌和Bing利用图像和小型语言模型来生成在页面/图像/视频中并不存在的元数据。大规模扩大这些性能是将大型语言模型和多模态模型融入搜寻的突破点，目前所有简略的搜寻老本模型都没有思考到这一点。

索引

索引是一个用于存储爬取信息的数据库。在索引层中能够进行大量预处理，以最小化必要搜寻的数据量。这最大限度地缩小了时延，进步了搜寻相关性（search relevance）。

相关性排序：能够应用模型基于相关性对索引中的页面进行排序，以便首先返回用户搜寻查问最相干的页面。
聚类：能够应用模型将索引中的类似页面进行分组，让用户更容易地找到相干信息。
异样检测：模型能够检测索引并删除其异样页面或垃圾页面，进而进步搜寻后果的品质。
文本分类：能够应用模型基于内容和上下文对索引中的页面进行分类。
主题建模：模型能够辨认索引页面涵盖的主题，每个页面对应一个或多个主题。

尽管以后索引层是由较小的模型和DLRM实现，但如果插入LLM，搜寻的有效性将会失去显著进步。 而其余简略搜寻老本模型（model of search costs）都漠视了这一点。咱们将在本报告的前面探讨用例并估算老本。

查问处理器

查问处理器是搜寻堆栈中最受关注的层，用于接管用户的查问并生成最相干的后果。首先须要解析用户的查问，再将其合成为关键字和短语，进而从索引中抓取最相干的项，而后对用户的特定查问进行从新排序及过滤。此外，查问处理器还负责将这些后果返回给用户。

目前在该工作流中部署了多个模型，从简略的拼写查看到主动向用户查问增加相干术语的查问扩大，以进步搜寻后果准确性。依据用户的搜寻历史、地位、设施、偏好及趣味对后果进行相关性排序及个性化解决。不过以后要想实现这一点须要在多个小型模型上运行推理。

因为用户提交的是实时查问，因而必须疾速高效地执行查询处理。相比之下，爬虫和索引是一个持续性的过程，且无需与用户进行交互。

此外，谷歌和Bing应用了大同小异的硬件以实现其经典办法（classical approaches）。谷歌应用了大量标准化CPU和外部TPU，而Bing目前应用的是大量标准化CPU和FPGA，其FPGA减速了排序办法（Ranking）和AI。

广告引擎

尽管搜寻堆栈的最初三个局部是满足和留住用户的要害，但许多人认为广告引擎是最重要的，因为所有变现都源于广告引擎的品质。查问处理器与广告引擎是实时交互的，广告引擎必须对用户查问、用户档案、地位和广告成果（advertisement performance）之间的关系进行建模，为每个用户生成个性化的举荐，从而最大限度地进步点击率和支出。

广告市场是一个实时竞价的大市场，广告商通常在这里为关键词、短语或特定用户类型付费。因为领取的金额并非掂量服务的唯一标准，所以广告模型不再将其作为惟一准则。因为该模型须要优化转化率以取得收益并进步比率，因而搜寻相关性是高度优化的参数。

总体而言，过来4年，谷歌搜寻后果的顶部页面有80%的后果没有任何广告。此外，目前只有一小部分(不到5%)的搜寻中有四个排名靠前的文本广告。——谷歌

应用了LLM，消费者浏览到就不仅限于前几个后果，这些后果中的广告能够变成广告商的销路。相同，当初广告成为了LLM的输入。因而，随着对话LLM的问世，广告成了搜寻堆栈中变动最大的一部分。咱们将在本报告后半局部探讨变现的形式和变动，因为这是广告服务运作形式的基本转变。

6 根本性转变

搜寻中的LLM不单是一个融入搜索引擎界面的大模型。 相同，它是一个多模型交融的大模型，每个模型的工作是为整个链条中的下一个模型提供最密集、最相干的信息。

这些模型必须基于沉闷用户进行一直从新训练、调整和测试。谷歌是首个在搜寻堆栈的四个层中应用人工智能的企业，但现在搜寻正在经验用户体验、应用模式和商业化构造的根本性转变，这可能会使许多软件堆栈的现有局部生效。

问题的关键在于谷歌是否胜任这项工作。在爱护好本人“金蛋（golden egg）”的前提下，谷歌能调整其搜寻堆栈吗？

疾速前行，关上场面。——马克扎克伯格，2011

在弄清楚利用模式（usage models）之前，谷歌在超优化（hyper-optimize）其搜寻堆栈方面是否有文化要求？假如谷歌以最低老本将过多资源投入经营中，并且达到了搜寻相关性的部分最大值。

在这种状况下，谷歌可能会迷失方向，反而限度了本该用于扩大和测试新利用模式的模型倒退和翻新。相同，微软和OpenAI更具冒险精力，更可能大刀阔斧地对搜寻堆栈的四个元素进行彻底革新。

谷歌过于审慎和过早优化的最显著例子就是研发Bard。

Bard将与LaMDA的轻量级版本一起公布。这个小得多的模型须要的算力更少，所以咱们能将其扩大到更多的用户，从而取得更多的反馈。——谷歌

谷歌正在缩减（cut down）2021年初开发进去的一个模型。当然，从开发至今，该模型有所改进，但当初OpenAI和微软应用的是2022年底和2023年初开发出得更大的模型和更新的架构，并失去ChatGPT的继续反馈。所以谷歌所见所闻该模型情有可原，但这也可能会让谷歌在用户体验和迭代速度方面受到重创。

更令人担忧的是，在过来的几个月里，一些有远见卓识的人才（例如BERT的教父，PaLM推理的首席工程师和Jax的首席工程师）开始涌向初创公司，比方OpenAI。这可能是谷歌的文化弱化（weakening culture）的迹象。

设想一下，如果这场搜寻竞争导致谷歌的股票继续上涨，而RSU（限制性股权）的价值远低于预期，这对员工的士气和忠诚度有何影响？

或者说，因为Bing要抢夺市场份额，并贬低了谷歌目前领有的苹果专属协定，搜寻业务不再是无尽的摇钱树，那又会怎么？谷歌是否必须在经营包含谷歌 Cloud在内的亏损业务时勒紧裤腰带？

7 时延

谷歌的Bard是一个较小的模型，时延响应工夫较低。此外，谷歌外部还有一个十分优越的PaLM模型，但目前还有力部署。

即便时延为2,000毫秒（惯例搜寻的4倍，包含互联网时延和20倍的解决工夫），PaLM也只能解决输出的60个token（约240个字符）和输入20个token（80个字符）。当在64个TPUv4上并行运行时，始终只达到约35%的利用率。

重要的是，LLM须要在搜寻堆栈的非工夫敏感局部（non-time-sensitive portions）应用。此外，尽管时延会更高，但batch size越大，在堆栈的这些局部实现的利用率就越高。

除了低时延规范，序列长度减少（sequence length growth）也是将LLM融入搜寻的最大挑战之一。

8 Context至上

面向用户的模型和将来AI芯片的关键在于减少它们的context window（上下文窗口），以便能够通过层（layer）向前传送更多先前模型或源资料。就推理老本而言，扩大序列长度的老本也十分高，这会扩充老本构造。

因而，在实时方面将围绕context window进行多种优化。在爬虫和索引阶段，能够最大化context window以尽可能地将源资料密集化，达到力不从心的高质量规范。

这样就能够在堆栈的实时查问局部启用更小的模型，以最大限度地缩小搜寻和context window的数量，从而缩小时延并缩短响应工夫。

9 整个搜寻堆栈中的LLM实现

看看微软如何以雷同的形式利用这些技术为某些高级企业的搜寻和对话式AI助手提供服务，用AI扫描过来30年中的每个文档、电子邮件、Excel工作表、PDF和即时消息，这也是一件很乏味的事。如何在经营和基础设施层面构想新的搜寻堆栈也很重要。

当然，谷歌依然领有其Android、YouTube、地图、购物、航班和照片等业务模块，在这些畛域微软简直无奈与之竞争。因而无论产生什么，这些业务模块都足以让谷歌在搜寻畛域维持领先地位。

欢送 Star、试用 OneFlow 最新版本：https://github.com/Oneflow-In...