关于人工智能:ChatGPT搜索风暴

搜索引擎的市场格局曾经有二十年没有什么大的变动，现在，Google 和微软两大巨鳄的交锋再度演出。ChatGPT 风靡之时，搜寻成为大型语言模型（LLM）利用之争的最大战场。
在 LLM 技术过程方面，Google 的相干大模型研发实际上与 OpenAI 的 ChatGPT 差不多齐头并进。但刚刚仓促推出的 Bard 显得很被动，Google 官网的解释是，他们须要思考新技术对社会的影响，不想推出一个漏洞百出的搜寻零碎。
不过，作为商业公司，任何行为的背地都要思考经济老本。要晓得，搜寻中广告市场份额的 1 个百分点的变动，都可能带来至多数亿美元营收上的幅度稳定。Google 要将利用成果还不是很好的 LLM 作为根底技术，引入到寰球市场占比 92% 的搜索引擎业务中，如果没有内部对手发动的弱小挑战，很难进行大胆变革。
另一方面，自我反动是一件重大违反兽性的事，更何况大厂还有所谓的“大企业病”，敢作敢为在劫难逃。
这恰好是微软 Bing 的可乘之机，寰球市场份额目前占比不到 3%，历史包袱很小，New Bing 要推出的音讯让 Google 急不可耐。
ChatGPT 的用户曾经到 1 亿了，可想而知，如果 Google 搜寻这次不跟 LLM，还是依照本人的节奏去逐渐更迭，其搜寻业务的老底存在被倾覆的微小危险，要是 Google 跟了 LLM，要接受用户体验不佳的危险，还必须得在已有搜寻老本上大出血——大概还要收入 300 亿美元的老本。
当然，Google 与微软单方高层比任何人都分明这一点，只是前者更多是焦虑不安，后者则是兴奋不已。
综合思考危险后，Google 只能硬着头皮迎战，于是就有了 Bard。Bard 的意思是“漂泊诗人”，依据百度的后果，这类诗人通常行事半调子而不拘小节，样样通而样样松，还别说，这个风格倒是挺合乎当初 LLM 模型目前的能力特质。相较之下，微软 New Bing 当初像是个牛气哄哄的“拼命三郎”，就想干一票大的，毕竟在某种程度上，Bing 曾经没什么可失去的了，而且这次很可能还要触底反弹。
那么，ChatGPT 到底会如何影响当初搜寻架构以及相干业务老本？此前，OneFlow 公布了《ChatGPT 背地的经济账》（https://mp.weixin.qq.com/s/aA…），文章从经济学视角推导了训练大型语言模型的老本。本文则从 LLM 搜寻架构和老本剖析登程，探讨了微软 Bing 和 OpenAI 利用大型语言模型 (LLM) 对搜寻业务的潜在颠覆性，并剖析了 LLM 在搜寻中的演进和倒退状况。
（以下内容经受权后由 OneFlow 编译，译文转载请分割 OneFow 取得受权。原文地址：https://www.semianalysis.com/…）

作者|Dylan Patel、Afzal Ahmad
OneFlow 编译
翻译|杨婷、徐佳渝、贾川

OpenAI 推出的 ChatGPT 风靡寰球，仅在一月份就迅速积攒了超 1 亿沉闷用户，成为史上用户增长最快的应用程序。在此之前，Instagram 花了 30 个月才跨过 1 亿用户门槛，TikTok 用了 9 个月。每个人最关怀的问题是大型语言模型（LLM）对搜寻的破坏性有多大。微软此前发表了一条震惊世界的音讯：OpenAI 的技术将整合到 Bing 搜索引擎中。

New Bing 会让谷歌如坐针毡，我想让公众晓得咱们正是让谷歌按捺不住的助推器。——Satya Nadella，微软 CEO

谷歌近来的行动让公众感觉他们正“烦躁不安”。尽管咱们置信谷歌领有世界上最好的模型和最先进的 AI 专业知识，但长期以来，他们却没能将本身的当先劣势变现。而来自微软和 OpenAI 的竞争压力正在迅速扭转这一情景。

给搜寻畛域带来颠覆和翻新须要投入资金，而训练 LLM 的老本很高。更重要的是，不论以何种正当的规模部署模型，其推理老本都远超训练老本。

实际上，每周推理 ChatGPT 的老本都超过了其训练老本。目前 ChatGPT 每天的推理老本为 700,000 美元。如果间接将以后的 ChatGPT 集成到谷歌的每次搜寻当中，那么谷歌的搜寻老本将大幅回升，达到 360 亿美元。谷歌服务业务部门的年净收入将从 2022 年的 555 亿美元降落至 195 亿美元。若将“类 ChatGPT”的 LLM 部署到搜寻中，则意味着谷歌要将 300 亿美元的利润转移到计算成本上。

当然，这种状况永远不会产生，在软件 / 硬件方面改良之前，这只会是一种乏味的假如。

首先来看一下搜寻市场的状况。据调查，谷歌每秒运行的搜寻查问约为 32 万次，而谷歌的搜寻业务部门在 2022 年的支出为 1624.5 亿美元，每次查问的平均收入为 1.61 美分。谷歌必须为计算和网络搜寻、广告、网络匍匐、模型开发、员工等领取大量开销。在谷歌的老本构造中，一个值得注意的我的项目是：为了成为 Apple 产品的默认搜索引擎，他们领取了约 200 亿美元。

谷歌服务业务部门的营运利润率（operating margin）为 34.15%。如果咱们为每次查问调配 COGS/ 经营费用，那么每次搜寻查问的老本为 1.06 美分，产生的支出为 1.61 美分。这意味着，基于 LLM 的单次搜寻查问费用必须低于 0.5 美分，否则搜寻业务对谷歌来说将毫无利润可言。

New Bing 将交融一款新的下一代 OpenAI 大型语言模型。该模型针对搜寻业务进行了定制，吸取了 ChatGPT 和 GPT-3.5 的重要教训和成绩，速度更快、更精确且性能更弱小。——微软

因为有局部未知变量，所以估算 ChatGPT 的老本是一个辣手问题。咱们建设了一个老本模型，模型显示 ChatGPT 在计算硬件方面的每日经营老本为 694,444 美元。为维持 ChatGPT 的运行，OpenAI 须要约 3,617 台 HGX A100 服务器（28,936 个 GPU），预估每次查问的老本为 0.36 美分。

咱们的老本模型是在每次推理的根底上从头开始构建的，但它与 Sam Altman 推文和他最近所做采访所做的介绍统一。

咱们假如 OpenAI 应用了 GPT- 3 密集模型架构，这个架构的参数大小为 1750 亿、暗藏维度为 1.6 万、序列长度为 4000、每个响应的均匀 token 数为 2000、每个用户响应 15 次、有 1300 万日沉闷用户、浮点运算（FLOPS）利用率比 FasterTransformer 高 2 倍且提早小于 2000 毫秒，int8 量化，纯闲置工夫占用 50% 的硬件利用率，并且每个 GPU 每小时老本为 1 美元。如有不同意见，欢送指出。尽管咱们置信咱们处于正确的区间内，但很乐意使其更加精准。

如果 ChatGPT 被整合到谷歌现有的搜寻业务中，那么其影响将是毁灭性的。谷歌的营收将缩小 360 亿美元。以下是 LLM 的 360 亿美元推理老本。

若想将以后的 ChatGPT 部署到谷歌搜寻，则须要 512,820.51 台 A100 HGX 服务器和共计 4,102,568 个 A100 GPU。在这些服务器和网络的总成本中，仅资本收入就超过 1000 亿美元，其中大部分资金将流向英伟达。 当然，这永远不会产生（但如果咱们假如没有任何软硬件改良的话，能够将其当成一次乏味的思维试验）。应用谷歌的 TPUv4 和 v5 在订阅者局部建模也有不同的推理老本，同时咱们还有一些 H100 LLM 推理性能方面的改良数据。

令人诧异的是，微软晓得将 LLM 融入搜寻会捣毁搜寻的盈利能力，并须要大量的资本收入。只管咱们估算了营业利润的变动，但还是来看看萨提亚·纳德拉（Satya Nadella）对毛利率的认识吧。

从当初开始，搜寻的 [毛利率] 将始终呈降落趋势。——Satya Nadella, 微软 CEO

搜寻毛利率降落已成既定事实，更不用说随着搜寻品质的进步，搜寻量可能会有所缩小，咱们难以在大型语言模型的响应中植入广告，以及稍后本报告会探讨的其余泛滥技术问题。

微软正在不遗余力地捣毁搜寻市场的盈利能力。

在搜寻广告市场中，每减少一个百分点的份额，咱们的广告业务就有可能取得 20 亿美元的支出。——微软

必应的市场份额很小，但微软抓住的任何份额增长都将给他们带来微小收益。

我认为咱们单方都会受益匪浅。咱们将逐渐发掘出这些大模型的潜能，但如果搜寻业务被垄断，倒退停滞不前，在这种状况下如何从搜寻和广告中营利都会是一个问题，并且咱们还要应答可能呈现的短暂上行压力，这种状况是我所不愿看到的。

大模型的发展潜力微小，难以想象咱们不晓得该如何利用它们来发家致富。——OpenAI CEO Sam Altman

与此同时，在这场竞争中，谷歌正处于劣势位置。如果谷歌的搜寻市场位置被波动，那么它的利润将受到极大的影响。搜寻市场份额失落所带来的影响可能会比下面剖析的更加蹩脚，因为谷歌的经营老本十分高。

对此，谷歌并没有坐以待毙。在 ChatGPT 公布短短几个月之后，谷歌就紧随其后向公众推出了集成 LLM 的搜寻版本。就目前咱们所看到的，微软的 New Bing 和新版谷歌搜寻各有优劣。

集成了 ChatGPT 的 New Bing 搜索引擎在 LLM 性能方面仿佛更加弱小。谷歌在搜寻准确性方面存在问题，甚至在 Bard 的演示中也呈现了这种问题。然而在响应工夫方面，谷歌的 Bard 能够间接碾压 Bing GPT。这些模型响应工夫和搜寻品质方面的差别与模型大小间接相干。

Bard 将世界常识的广度与大型语言模型的力量、智慧和创造力相结合，并利用网络提供及时、优质的答复。谷歌 Bard 由 LaMDA 轻量级模型版本提供撑持，这种小型模型须要的算力更少，能够辐射到更多用户，取得更多反馈。——谷歌

谷歌正通过部署轻量级模型来争取更大的利润空间。他们本能够部署全尺寸大小的 LaMDA 模型或性能更强、更大的 PaLM 模型，然而他们没有这样做，反而抉择了 LaMDA 轻量级模型。

对于谷歌来说，这是一种必然选择。

谷歌无奈将这些宏大的模型部署到搜寻当中，因为这会大大降低毛利率。稍后咱们会具体探讨 LaMDA 的轻量级版本，但重要的是，咱们要意识到 Bard 的时延劣势是其竞争力之一。

谷歌的搜寻支出来自广告，不同的用户在搜寻时会给谷歌带来不同的收益。相比印度男性农民，美国市区女性均匀每个指标广告所带来的收益要高得多，这也意味着不同用户会带来截然不同的营业利润率。

将 LLM 间接融入搜寻并不是改良搜寻的惟一办法。 多年来，谷歌始终在搜寻中应用语言模型来生成 embeddings。这种办法能够在不减少推理老本估算的根底上，改善最常见的搜寻后果，因为这些 embeddings 能够一次生成，供多个搜寻后果应用。

相比 ChatGPT 领有的 2000 个 Token 输入总数，从 Bing GPT 的 84 个不同的实例来看，Bing GPT 约为 350 个 Token 的输入总数显著较少。少数状况下，人们在搜寻时不愿浏览大量繁琐的信息。此估算思考了未向用户展现的 token。

后续优化是实现前 2000 个关键词占搜寻量的 12.2%，其余的则是纯导航性搜寻（purely navigational searches）。假如 20% 的搜寻不须要 LLM。最初，相比应用基于 NVIDIA 的 HGX A100 的 Microsoft/OpenAI，谷歌应用外部 TPUv4 pod 的基础设施劣势更显著。

这些简略的优化能够让谷歌以仅 30 亿美元的额定老本将 LLM 部署到搜寻当中。如果所有从一开始就完满设置，那么谷歌单在硬件上的收入老本就约为 200 亿美元，其中包含数据中心基础设施。这是在 NVIDIA H100 和谷歌的 TPU v5 等新硬件或 MoE、稠密性、剪枝、模型蒸馏、kv 缓存和提前退出机制（early exit）等各种技术成本增加之前的状况。

人们不会承受连贯到互联网的 ChatGPT 接口。因为运行速度很慢、容易假造虚伪信息、并且无奈无效变现。不过上述剖析依然过于简单化。

因为用户体验产生了转变，单位支出经济学（unit revenue economics）和老本构造将在将来 2 到 3 年内迅速扭转，实现齐全重构。

如果要从支出和老本方面更深刻地理解这一变动，那么咱们首先要搞清以后的搜寻架构，因为它是将来变动的根底。

从较高的层面来看，搜寻的指标是尽快提供相干信息。用户输出关键词时，搜寻后果最好要依照优劣从上到下排列。搜寻工作流（search pipeline）次要有四个过程：爬虫、索引、查问处理器和广告引擎。机器学习模型早已浸透进这四个畛域。

爬虫

爬虫会主动定位互联网上的新内容，这些内容包含网页、图像和视频，而后它会将这些内容增加到搜索引擎的数据库（索引）中。通过机器学习，爬虫可能确定要索引页面的价值并辨认其中的反复内容。它还能剖析页面之间的链接，评估哪些页面可能相干且重要，这些信息会被用于优化抓取过程，确定抓取内容、频率和水平。

爬虫在内容提取方面也起着重要作用。它的指标是实现网页爬取内容的全面文本化，同时使数据总量最小化，以确保搜寻的速度和准确度。时延（latency）对于搜寻来说至关重要，即便是几百毫秒的变动，也会极大地影响用户搜寻量。

谷歌和 Bing 利用图像和小型语言模型来生成在页面 / 图像 / 视频中并不存在的元数据。大规模扩大这些性能是将大型语言模型和多模态模型融入搜寻的突破点，目前所有简略的搜寻老本模型都没有思考到这一点。

索引

索引是一个用于存储爬取信息的数据库。在索引层中能够进行大量预处理，以最小化必要搜寻的数据量。这最大限度地缩小了时延，进步了搜寻相关性（search relevance）。

相关性排序：能够应用模型基于相关性对索引中的页面进行排序，以便首先返回用户搜寻查问最相干的页面。
聚类：能够应用模型将索引中的类似页面进行分组，让用户更容易地找到相干信息。
异样检测：模型能够检测索引并删除其异样页面或垃圾页面，进而进步搜寻后果的品质。
文本分类：能够应用模型基于内容和上下文对索引中的页面进行分类。
主题建模：模型能够辨认索引页面涵盖的主题，每个页面对应一个或多个主题。

尽管以后索引层是由较小的模型和 DLRM 实现，但如果插入 LLM，搜寻的有效性将会失去显著进步。 而其余简略搜寻老本模型（model of search costs）都漠视了这一点。咱们将在本报告的前面探讨用例并估算老本。

查问处理器

查问处理器是搜寻堆栈中最受关注的层，用于接管用户的查问并生成最相干的后果。首先须要解析用户的查问，再将其合成为关键字和短语，进而从索引中抓取最相干的项，而后对用户的特定查问进行从新排序及过滤。此外，查问处理器还负责将这些后果返回给用户。

目前在该工作流中部署了多个模型，从简略的拼写查看到主动向用户查问增加相干术语的查问扩大，以进步搜寻后果准确性。依据用户的搜寻历史、地位、设施、偏好及趣味对后果进行相关性排序及个性化解决。不过以后要想实现这一点须要在多个小型模型上运行推理。

因为用户提交的是实时查问，因而必须疾速高效地执行查询处理。相比之下，爬虫和索引是一个持续性的过程，且无需与用户进行交互。

此外，谷歌和 Bing 应用了大同小异的硬件以实现其经典办法（classical approaches）。谷歌应用了大量标准化 CPU 和外部 TPU，而 Bing 目前应用的是大量标准化 CPU 和 FPGA，其 FPGA 减速了排序办法（Ranking）和 AI。

广告引擎

尽管搜寻堆栈的最初三个局部是满足和留住用户的要害，但许多人认为广告引擎是最重要的，因为所有变现都源于广告引擎的品质。查问处理器与广告引擎是实时交互的，广告引擎必须对用户查问、用户档案、地位和广告成果（advertisement performance）之间的关系进行建模，为每个用户生成个性化的举荐，从而最大限度地进步点击率和支出。

广告市场是一个实时竞价的大市场，广告商通常在这里为关键词、短语或特定用户类型付费。因为领取的金额并非掂量服务的唯一标准，所以广告模型不再将其作为惟一准则。因为该模型须要优化转化率以取得收益并进步比率，因而搜寻相关性是高度优化的参数。

总体而言，过来 4 年，谷歌搜寻后果的顶部页面有 80% 的后果没有任何广告。此外，目前只有一小部分 (不到 5%) 的搜寻中有四个排名靠前的文本广告。——谷歌

应用了 LLM，消费者浏览到就不仅限于前几个后果，这些后果中的广告能够变成广告商的销路。相同，当初广告成为了 LLM 的输入。因而，随着对话 LLM 的问世，广告成了搜寻堆栈中变动最大的一部分。咱们将在本报告后半局部探讨变现的形式和变动，因为这是广告服务运作形式的基本转变。

搜寻中的 LLM 不单是一个融入搜索引擎界面的大模型。 相同，它是一个多模型交融的大模型，每个模型的工作是为整个链条中的下一个模型提供最密集、最相干的信息。

这些模型必须基于沉闷用户进行一直从新训练、调整和测试。谷歌是首个在搜寻堆栈的四个层中应用人工智能的企业，但现在搜寻正在经验用户体验、应用模式和商业化构造的根本性转变，这可能会使许多软件堆栈的现有局部生效。

问题的关键在于谷歌是否胜任这项工作。在爱护好本人“金蛋（golden egg）”的前提下，谷歌能调整其搜寻堆栈吗？

疾速前行，关上场面。——马克扎克伯格，2011

在弄清楚利用模式（usage models）之前，谷歌在超优化（hyper-optimize）其搜寻堆栈方面是否有文化要求？假如谷歌以最低老本将过多资源投入经营中，并且达到了搜寻相关性的部分最大值。

在这种状况下，谷歌可能会迷失方向，反而限度了本该用于扩大和测试新利用模式的模型倒退和翻新。相同，微软和 OpenAI 更具冒险精力，更可能大刀阔斧地对搜寻堆栈的四个元素进行彻底革新。

谷歌过于审慎和过早优化的最显著例子就是研发 Bard。

Bard 将与 LaMDA 的轻量级版本一起公布。这个小得多的模型须要的算力更少，所以咱们能将其扩大到更多的用户，从而取得更多的反馈。——谷歌

谷歌正在缩减（cut down）2021 年初开发进去的一个模型。当然，从开发至今，该模型有所改进，但当初 OpenAI 和微软应用的是 2022 年底和 2023 年初开发出得更大的模型和更新的架构，并失去 ChatGPT 的继续反馈。所以谷歌所见所闻该模型情有可原，但这也可能会让谷歌在用户体验和迭代速度方面受到重创。

更令人担忧的是，在过来的几个月里，一些有远见卓识的人才（例如 BERT 的教父，PaLM 推理的首席工程师和 Jax 的首席工程师）开始涌向初创公司，比方 OpenAI。这可能是谷歌的文化弱化（weakening culture）的迹象。

设想一下，如果这场搜寻竞争导致谷歌的股票继续上涨，而 RSU（限制性股权）的价值远低于预期，这对员工的士气和忠诚度有何影响？

或者说，因为 Bing 要抢夺市场份额，并贬低了谷歌目前领有的苹果专属协定，搜寻业务不再是无尽的摇钱树，那又会怎么？谷歌是否必须在经营包含谷歌 Cloud 在内的亏损业务时勒紧裤腰带？

谷歌的 Bard 是一个较小的模型，时延响应工夫较低。此外，谷歌外部还有一个十分优越的 PaLM 模型，但目前还有力部署。

即便时延为 2,000 毫秒（惯例搜寻的 4 倍，包含互联网时延和 20 倍的解决工夫），PaLM 也只能解决输出的 60 个 token（约 240 个字符）和输入 20 个 token（80 个字符）。当在 64 个 TPUv4 上并行运行时，始终只达到约 35% 的利用率。

重要的是，LLM 须要在搜寻堆栈的非工夫敏感局部（non-time-sensitive portions）应用。此外，尽管时延会更高，但 batch size 越大，在堆栈的这些局部实现的利用率就越高。

除了低时延规范，序列长度减少（sequence length growth）也是将 LLM 融入搜寻的最大挑战之一。

面向用户的模型和将来 AI 芯片的关键在于减少它们的 context window（上下文窗口），以便能够通过层（layer）向前传送更多先前模型或源资料。就推理老本而言，扩大序列长度的老本也十分高，这会扩充老本构造。

因而，在实时方面将围绕 context window 进行多种优化。在爬虫和索引阶段，能够最大化 context window 以尽可能地将源资料密集化，达到力不从心的高质量规范。

这样就能够在堆栈的实时查问局部启用更小的模型，以最大限度地缩小搜寻和 context window 的数量，从而缩小时延并缩短响应工夫。

看看微软如何以雷同的形式利用这些技术为某些高级企业的搜寻和对话式 AI 助手提供服务，用 AI 扫描过来 30 年中的每个文档、电子邮件、Excel 工作表、PDF 和即时消息，这也是一件很乏味的事。如何在经营和基础设施层面构想新的搜寻堆栈也很重要。

当然，谷歌依然领有其 Android、YouTube、地图、购物、航班和照片等业务模块，在这些畛域微软简直无奈与之竞争。因而无论产生什么，这些业务模块都足以让谷歌在搜寻畛域维持领先地位。

欢送 Star、试用 OneFlow 最新版本：https://github.com/Oneflow-In…

关于人工智能:ChatGPT搜索风暴

1

搜寻业务

2

ChatGPT 的老本

3

应用 ChatGPT 的搜寻老本

4

谷歌的应答措施

5

LLM 在搜寻中的倒退

6

根本性转变

7

时延

8

Context 至上

9

整个搜寻堆栈中的 LLM 实现

Just My Socks（注册教程内含优惠码）

关于人工智能:ChatGPT搜索风暴

1

搜寻业务

2

ChatGPT 的老本

3

应用 ChatGPT 的搜寻老本

4

谷歌的应答措施

5

LLM 在搜寻中的倒退

6

根本性转变

7

时延

8

Context 至上

9

整个搜寻堆栈中的 LLM 实现

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）