新年伊始,大模型的话题热度不减。2022 年 11 月底,ChatGPT 展示的惊人能力将大模型钻研和利用热度推向低潮,人们强烈探讨着这个高级“物种”的推出意味着什么,比方是否会颠覆搜索引擎市场格局。踏入 2023 年,这不禁让咱们对 GPT-4 的公布充斥遥想,它会比 ChatGPT 更上一层楼吗?会有哪些不一样的惊喜?岁末年初之际,科技圈的年度盘点举不胜举,相干技术预测倒是不多。本文作者 Rob Toews 公布了 2023 年 AI 倒退的十大预测,整体来看,大部分预测都离不开“大模型”这个关键词,具体分析也有其情理。当然,其中的文生图、人形机器人等畛域的倒退也无足轻重。2023,让咱们刮目相待。
作者|Rob Toews
翻译|杨婷、徐佳渝
1. 重磅事件:GPT-4 将在年初公布
GPT-4 是 OpenAI 的新一代生成语言模型,它有着弱小的性能,最近到处流传着它的音讯。
GPT-4 预计将在 2023 年年初公布,相较于 GPT-3 和 3.5,GPT-4 的性能有着跳跃式的晋升。只管最近无关 ChatGPT 的探讨正在炽热朝天地进行,但相比 GPT-4,这只是前奏而已,让咱们刮目相待!
GPT-4 会是什么样子的呢?与人们的直觉不同,咱们预测它不会比其前身 GPT-3 大太多。在往年早些时候发表的一篇有影响力的钻研论文(https://arxiv.org/pdf/2203.15…)中,DeepMind 钻研人员称当初的大型语言模型实际上比原本应该有的大小还要大。为了能在给定的无限计算估算中获得最佳模型性能,当初的模型应该用更少的参数在更大的数据集上进行训练。也就是说,训练数据比模型大小重要。
当今大多数次要语言模型都是在约 3000 亿个 token 的数据语料库上训练的,比如说 OpenAI 的 GPT-3(1750 亿个参数)、AI21 Labs 的 Jurassic(1780 亿个参数)和微软 / 英伟达的 Megatron-Turing(5700 亿个参数)。
咱们预测,GPT-4 的数据集要比下面提到的大一个数量级,也就是说它可能在 10 万亿个 token 的数据集上进行训练。同时它的参数将比 Megatron-Turing 的要少。
据说,GPT-4 有可能是多模态的,除文本生成之外,它还能够生成图片、视频以及其余数据类型的输出。这意味着 GPT-4 可能像 DALL-E 一样依据输出的文本提醒词(prompt)生成图像,或者是能够输出视频而后通过文本的模式答复问题。
多模态 GPT-4 的公布可能是一个重磅音讯。然而它更可能和以前的 GPT 模型一样是纯文本模型,它在语言工作上的体现将从新定义 SOTA。具体来说 GPT-4 会是什么样的呢?那就是它在记忆(保留和参考后期对话信息的能力)和摘要(提取和精简大规模文本的能力)这两个语言畛域的性能会有跨越式晋升。
2. 训练大型语言模型将逐步开始耗尽数据
数据是新时代的石油这种说法早就曾经是老生常谈了,但这样说还不足以表明数据的重要性:因为石油和数据都是无限的,都有耗费殆尽的一天,在 AI 畛域,语言模型对数据的需求量最大,数据耗尽的压力也更大。
正如后面提到的,DeepMind 的 Chinchilla work 等钻研曾经表明,构建大型语言模型(LLM)最无效的形式不是把它们做得更大,而是在更多的数据上对其进行训练。
然而世界上有多少语言数据呢?更精确地说有多少语言数据达到了能够用来训练语言模型的要求呢?实际上,当初网络上大多数的文本数据并没有达到要求,不能用来训练大型语言模型。
对于这个问题,咱们很难给出确切的答案,然而依据一个钻研小组(https://arxiv.org/pdf/2211.04…)给出的数据,寰球高质量文本数据的总存量在 4.6 万亿到 17.2 万亿个 token 之间。这包含了世界上所有的书籍、科学论文、新闻文章、维基百科、公开代码以及网络上通过筛选的达标数据,例如网页、博客和社交媒体。最近的另一项钻研数据(https://www.lesswrong.com/pos…)显示,数据总数大概为 3.2 万亿个 token。
DeepMind 的 Chinchilla 模型是在 1.4 万亿个 token 上训练的。也就是说,在这个数量级内,咱们很有可能耗尽世界上所有有用的语言训练数据。这可能成为人工智能语言模型畛域继续提高的一大阻碍。许多前沿 AI 钻研人员和企业家私下里都对此忧心忡忡。
随着钻研人员开始寻求解决数据短缺这一火烧眉毛的问题,预计 2023 年对这方面的关注度会减少。针对这一问题,合成数据是一种可能的解决方案,只管该如何操作这一办法还未可知。还有另一种可能的办法,那就是系统性地转录会议上的讲话,毕竟口头交换代表着还有大量未捕捉的文本数据。
作为世界领先的 LLM 钻研机构,人们非常好奇 OpenAI 在其行将公布的 GPT-4 钻研中会如何应答这一挑战,同时,大家也期待着能够取得一些启发。
3. 一些消费者开始将齐全主动驾驶作为日常出行模式
在多年预热炒作却一再失信之后,最近主动驾驶汽车畛域呈现了一些少有人留神的新变动:真正的无人驾驶汽车时代曾经轻轻降临。
当初在旧金山,你能够下载 Cruise 应用程序(这个程序和 Uber 或 Lyft 的 APP 差不多),通过这个 APP 你能够叫到真正的没有司机辅助的无人驾驶汽车带你在街道上穿行。
目前,这些无人驾驶汽车仅在夜间服务,服务工夫是早晨 22:00 点到早上 5:30,然而 Cruise 曾经筹备好了要在旧金山提供全天候服务,这个打算预计将在几周后履行。另一边 Cruise 的竞争对手 Waymo 紧跟其后,也开始在旧金山投放无人驾驶汽车。
2023 年,人们将疾速习惯 robotaxi 服务,作为一种不便、可行的交通服务形式,人们一开始会感到新鲜、奇怪,而后会疾速习惯 robotaxi 的存在,直到司空见惯。街道上无人驾驶汽车的数量和应用它们的人数将会激增。简而言之,无人驾驶汽车行将进入商业化和规模化阶段。
无人驾驶汽车的推广将以城市为单位,一一进行。在旧金山的根底上,来年可能会新增至多两个面向公众投放无人驾驶汽车的美国城市。比拟现实的候选城市有凤凰城、奥斯汀、拉斯维加斯和迈阿密。
4. AI 绘画工具 Midjourney 将筹集风险投资资金
OpenAI 的 DALL-E,Stability AI(和其余贡献者)的 Stable Diffusion 和 Midjourney 是目前最驰名、最有影响力的三个文生图的 AI 平台。
2019 年,OpenAI 从微软处取得了 10 亿美元的投资,并且目前正在切磋筹集更多资金。几个月前,Stability AI 取得了 1 亿美元的投资,而且曾经开始寻求更多投资。
相比之下,Midjourney 没有任何内部投资。不过,Midjourney 的用户和倒退速度增长极快,目前为止,它领有近 600 万用户和相当可观的支出。然而其网站显示 Midjourney 依然是一个“小型自筹资金”组织,只有 11 名全职团队成员。
大卫·霍尔茨(David Holz)是 Midjourney 的创始人兼首席执行官,他曾是 Leap Motion 的联结创始人兼首席技术官,Leap Motion 曾是一家飞速发展的虚拟现实守业公司,这家公司在 2010 年代筹集了近 1 亿美元的风险投资,之后公司倒退情况迅速好转,最终被收买。据称这段失败的经验让霍尔茨拒绝接受内部资金。到目前为止,Midjourney 曾经回绝了很多投资者。
然而,面对公司的迅猛发展、强烈的竞争以及大量的市场机会,咱们揣测霍尔茨将在 2023 年开始为 Midjourney 筹集投资。否则,Midjourney 将疾速在这场由其引发的生成式人工智能淘金热中掉队。
5. 谷歌作为支流搜索引擎的位置将面临挑战
搜索引擎是古代互联网体验的外围,是咱们浏览和拜访数字信息的次要形式。当初的大型语言模型能够进行简单级别的读和写,这在几年前简直是不堪设想的,这会对咱们的搜寻形式产生深远影响。
在 ChatGPT 呈现之后,从新定义搜寻的对话式搜寻(conversational search)引起了人们的宽泛留神。对话式搜寻让咱们能够与 AI 智能体进行动静对话以找到要查找的内容,不必再像传统的搜索引擎一样先输出要查问的内容,而后返回一长串链接,比方当初谷歌搜寻的做法。
对话式搜寻具备广大的发展前景,然而它还有一个亟待解决的大问题,那就是搜寻后果不够精确,只有解决了这个问题,对话搜寻能力倒退起来。目前对话式 LLM 的准确性还不够,因为它们有时会给出与事实不符的信息。
最近 OpenAI 首席执行官 Sam Altman 称,“当初在重要的事件上,咱们还不能依赖 ChatGPT”。大多数用户也不会承受不能百分百保障后果精确的搜索引擎,即便它的准确率能够达到 95% 甚至 99%。2023 年,钻研人员面临的次要挑战之一就是,以一种可扩大且持重的形式来解决这个问题。
一批发展势头良好的初创公司正在对谷歌的搜索引擎发动挑战,它们心愿通过 LLM 和对话界面重塑消费者的搜寻形式,比方 You.com,Character.AI,Metaphor 和 Perfucity 等公司。
然而,LLM 不仅仅只是会扭转消费者的互联网搜寻形式,它还会扭转其余搜寻类型。
比方企业搜寻(组织搜寻和检索公有数据的形式)同样也处于新黄金时代的风口浪尖。因为大规模矢量化的呈现,LLM 首次实现了真正的语义搜寻:它可能依据基本概念和上下文而不是简略的关键字来索引和访问信息。这将使企业搜寻更加弱小和高效。像 Hebbia 和 Glean 这样的初创公司正在应用大型语言模型引领扭转企业搜寻的潮流。
下一代搜索引擎将不仅限于文本。人工智能的最新进展为多模态搜寻提供了新的可能性:即跨数据模式查问和检索信息的能力。
因为视频占据了互联网数据总量的 80% 左右,所以视频搜寻代表了最大的倒退机会。设想一下,如果咱们能够轻松且精确地搜寻视频中的某个片段、某个人、某个概念或者某个动作,这将是什么样的场面?Twelve Labs 是一家初创公司,它构建了一个多模态 AI 平台,以实现精细化的视频搜寻和了解。
自谷歌在互联网时代崛起以来,搜寻畛域就简直没怎么产生过变动。2023 年,有了大语言模型,该畛域将发生巨变。
6. 开发人形机器人将吸引大量注意力、人才以及资金,2023 年将有几个新的人形机器人我的项目启动
人形机器人可能是好莱坞电影对 AI 进行夸大化的极其代表,比如说电影《机械姬》和《我,机器人》。人形机器人倒退迅速,并逐步成为事实。
为什么要打造人形机器人呢?起因很简略,因为咱们事实世界的大部分架构都是为了人类而打造,如果咱们想利用机器人在工厂、购物中心、办公室和学校这样的场合主动实现简单流动,最无效的办法就是让机器人领有和人类一样的形状。这样,机器人就能够利用到多种场景中,且无需适应周围环境。
往年 9 月,特斯拉在人工智能日推出了擎天柱(Optimus)机器人,这大大推动了人形机器人畛域的倒退。埃隆·马斯克示意,擎天柱最终会比汽车业务更有价值。然而,擎天柱机器人要想齐全成熟,还任重而道远。然而,当特斯拉将所有资源都投入到优化擎天柱这项工作时,可能获得的停顿是无法估量的。
同样地,许多具备发展前景的初创公司也推动着人形机器人畛域的倒退,包含 Agility robotics、Halodi robotics、Sanctuary AI 以及 Collaborative robotics。
随着人形机器人产业竞争愈演愈烈,预计 2023 年会有更多的公司退出到这场角逐中,包含初创企业和一些出名公司(如丰田、三星、通用汽车、松下)。这相似于 2016 年的主动驾驶汽车,当越来越多的人开始意识到汽车行业领有微小的市场机会时,次年将会有大量人才和资本涌入该畛域。
7. MLOps 的新版本:LLMOps 将登台亮相
当某种新的技术平台呈现时,相应的需要和机会也会随之呈现,比如说用以反对新平台的工具和基础设施。风险投资家们通常把这些辅助工具视为“镐头和铲子”(以迎接行将到来的淘金热)。
近年来,初创企业界最热门的当属广为人知的 MLOps 机器学习工具。初创公司开始一蜂窝地钻研 MLOps,并以令人咋舌的估值筹集到大量资金:Weights & Biases(取得 2 亿美元融资,平台估值达 10 亿美元)、Tecton(取得 1.6 亿美元融资)、Snorkel(取得 1.38 亿美元融资,平台估值达 10 亿美元)、OctoML(取得 1.33 亿美元融资,平台估值达 8.5 亿美元)等等。
现在,咱们目击了新一代人工智能技术平台——大型语言模型(LLMs)的问世。与预训练语言学习模型(pre-LLM)相比,大型语言模型具备独特的工作流程、技能组件和倒退潜能,代表了人工智能的新范式。通过 API 或者开源,人们能够很容易取得大量预训练模型,这齐全扭转了人工智能产品。因而,注定会呈现一套新的工具和基础设施。
咱们预测 LLMOps 将成为新的风行趋势,它代表着新一代人工智能的镐头和铲子。以新一代 LLMOps 产品为例,包含根底模型微调工具、无代码 LLM 部署、GPU 拜访与优化、提醒词试验、提醒词链以及数据合成与数据加强。
8. 基于或援用 AlphaFold 的钻研我的项目数量将会激增
2020 年底,DeepMind 公司首次推出了 AlphaFold 平台,破解了生命的一大谜团:即蛋白质的折叠问题。AlphaFold 可能仅从蛋白质的一维氨基酸序中精确地预测出蛋白质的三维状态。这是一个里程碑式的成就,解决了困扰钻研人员几十年的问题(AlphaFold 代表了人工智能历史上最重要的成就)。
因为蛋白质是地球上所有生物进行重要流动的外在根底,对蛋白质的构造和性能理解得越透彻,就越能为生物学和人类衰弱提供新的可能。不论是从开发救生疗法(life-saving therapeutics),到改善农业,还是从反抗疾病到钻研生命起源,蛋白质存在于生存中的方方面面。
DeepMind 于 2021 年 7 月开源了 AIphaFold,并推出了一个数据库,它蕴含 350,000 种三维蛋白质构造(作为参考,在推出 AlphaFold 之前,人类已知的蛋白质构造大概有 180,000 种)。此外,几个月前,DeepMind 颁布了另一个蕴含 2 亿种蛋白质构造的数据库——这简直笼罩了所有迷信上已知的蛋白质。
DeepMind 最新版本公布短短几个月后,就有来自 190 多个国家的 50 多万名钻研人员应用 AlphaFold 平台,用它查看了 200 万种不同的蛋白质构造。但这仅仅只是开始。AlphaFold 的微小冲破所带来的影响须要好几年能力逐步展现出全貌。
到 2023 年,预计基于 AlphaFold 的钻研数量将会激增。钻研人员将利用这一宏大的新型根底生物学常识宝库,将其利用于新型疫苗、新型塑料研发等多个跨学科畛域,进而扭转世界。
9. DeepMind、Google Brain 和 OpenAI 将致力于为机器人构建根底模型
去年,斯坦福大学的一个钻研团队提出了“根底模型”(foundation model)一词,它是指基于大量数据训练的大规模人工智能模型。该模型的构建并不是为了执行特定工作,而是为了能无效执行各种不同流动的工作。
根底模型始终是人工智能最新倒退的要害驱动力。现在,根底模型十分弱小。但无论是 GPT-3 这样的文本生成模型,还是 Stable Diffusion 这样的文本转图像模型,又或是 Adept 这样的计算机操作(computer actions)模型,均只能使用于数字畛域。
AI 零碎在真实世界的利用随处可见,例如主动驾驶汽车、仓库机器人、无人机、人形机器人等等,但到目前为止,它们大多还未受到根底模型新范式的影响。
这种状况将在 2023 年发生变化。预计用于机器人的根底模型这一晚期开创性工作,将由世界领先的人工智能钻研机构 DeepMind、Google Brain 和 OpenAI 实现(只管 OpenAI 去年退出了机器人钻研)。
构建用于机器人的根底模型意味着什么?换句话说,构建物理世界的根底模型意味着什么呢?从高层次来看,这样的模型能够用不同传感器模式(如相机、雷达、激光雷达)的大量数据进行训练,以产生对物理和事实世界物体的广泛理解能力:比方这些不同的物体是如何挪动的、它们之间如何相互作用、它们有多重、多软弱、多柔软、多灵便以及当你触碰、投掷或者扔它们的时候会产生什么。这种“真实世界的根底模型”能够针对特定的硬件平台和特定的上游工作进行微调。
10. 美国将投资数十亿美元建设外国芯片制作设施
人工智能和人类智能(human intelligence)一样同时依赖于硬件和软件设施。先进半导体对推动古代人工智能而言至关重要。到目前为止,影响最大、利用最为宽泛的是英伟达的 GPU;像 AMD、因特尔以及一些钻研人工智能芯片的新兴企业也试图跻身芯片市场。
简直所有的人工智能芯片都是由美国设计,并在台湾实现制作。并且寰球最先进的芯片简直都是由台积电(TSMC)这家公司生产的,包含英伟达的 GPU。
因为中美地缘政治的紧张局势,为了升高人工智能硬件瓶颈的不确定性,升高对台湾的依赖,2023 年,美国政府将加大激励措施并对在美建设先进芯片制作设施的工厂给予补贴。而今年夏天通过的《芯片与迷信法》(The CHIPS and Science Act)则为此提供了立法能源和估算资源。
这一过程曾经开始。两周前,台积电发表将投资 400 亿美元在亚利桑那州建设两家新的芯片制造厂(美国总统拜登亲自拜访了亚利桑那州的工厂选址,对其称誉不绝),更重要的是,新台积电工厂预计将于 2026 年开始运行,生产 3 纳米芯片,该芯片将成为当今世界最先进的半导体。
随着美国开始在国内寻找生产基地以化解要害人工智能硬件所面临的危险,预计 2023 年将看到更多这样的承诺。
(注:本文作者是 Radical Ventures 的合伙人,Radical Ventures 是 Hebbia、Twelve Labs 和 You.com 的投资者。本文经受权后由 OneFlow 编译公布,若需转载请先分割取得受权。原文:https://www.forbes.com/sites/…)
欢送 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-In…