关于人工智能:超越ChatGPT大模型的智能极限

30次阅读

共计 6471 个字符,预计需要花费 17 分钟才能阅读完成。

在此前《大型语言模型的涌现能力》、《ChatGPT 进化的机密》两篇文章中,符尧分析了大型语言模型的突现能力和潜在劣势,大模型所带来的“潜在的”范式转变,并拆解了 ChatGPT 演进的技术路线图。

在本文中,作者以终为始剖析了大模型的智能极限及其演进维度。不同于守株待兔式只谋求复现 ChatGPT 的经典互联网产品思维,而是指出了 OpenAI 组织架构和尖端人才密度的重要性,更重要的是,分享了模型演变与产品迭代及其将来,思考了如何把最粗浅、最艰难的问题,用最翻新的办法来解决。

(以下内容经受权后由 OneFlow 公布,原文:https://yaofu.notion.site/e1cd16d1fae84f87aeddf872c838e07c)

作者|符尧
爱丁堡大学博士生
yao.fu@ed.ac.uk

2022 年 12 月,ChatGPT 横空出世。OpenAI 用一个核弹级的成绩扭转了科学研究和工程利用的范式。在中国,ChatGPT 受到了宽泛的关注与粗浅的探讨。

在过来的一个月里,我走访各大高校、研究院、大厂、守业公司和风投。从北京到上海到杭州到深圳,跟所有头部的玩家们全副聊了一遍。The Game of Scale 在中国未然拉开,风暴核心的玩家们,在已知国内技术和生态与世界前沿的微小鸿沟下,如何做成这件事?谁能做成这件事?

秦失其鹿,天下共逐之。
———《史记·淮阴侯列传》

1

三种不同的答案

我每接触到一个守业公司,都会问同一个问题:”ChatGPT 在那里,你们想做什么?“我大略能收到三种不同的答案。

1.1 做中国的 ChatGPT

第一个答案很明确,要做中国的 ChatGPT。因为它就在那里,所以想要复现,想要国产化。这是很经典的产品导向中文互联网思维。这种思路也是过来二十年,中文互联网常见的商业模式:首先硅谷做进去一个货色,而后咱们把它抄过来。

但这里的问题是,首先,ChatGPT 可不像打车软件,复现难度齐全不可同日而语。光从人的角度看,GPT 的产生,是这个世界上最顶尖的科学家和工程师们从 2015 年开始就一直钻研的后果。

OpenAI 的首席科学家 Ilya Sutskever 粗浅地置信 AGI 肯定能实现。 作为图灵奖得主 Geoffery Hinton 的大弟子,从 2007 年就开始钻研深度学习。他的 citation 有 37 万,发过的文章精准踩中了过来十年 Deep Learning 的所有要害节点。即便是如此弱小的团队,从 GPT 2 到 GPT 3.5 也花了四年的工夫,它的迷信与工程的难度可想而知。

同时,初代 ChatGPT,是 OpenAI 在 GPT 3.5 的根底模型上,花了两星期工夫对着 dialog 做 finetuning 之后顺手扔出来的 demo。这里真正强的并不是 ChatGPT 这一个产品,而是底下的 GPT 3.5 根底模型。这个模型还在一直地演变,GPT 3.5 系列在 2022 年更新了三个大版本,每个大版本都显著强于前一个版本;同样地,ChatGPT 公布两个月一共更新了四个小版本,每个小版本都在单个的维度上比前一个版本有着显著的改良。OpenAI 的所有模型都在继续一直的演变,随时间推移越来越强。

这也就意味着,如果只盯着以后 ChatGPT 这一个产品,无异于守株待兔。当 ChatGPT 呈现的时候,它对已有的语音助手们造成了降维打击;如果看不到根底模型的演变,即便花个一两年辛辛苦苦做出一个相似的货色,那时候 OpenAI 的根底模型也在持续变强,如果他们接着产品化,以新的更强的根底模型 finetune 到一个更强的产品,难道要再被降维打击一次吗?

守株待兔的做法是行不通的。

1.2 做中国的 OpenAI

第二种答案是,要做中国的 OpenAI。给出这个答案的玩家,跳出了经典中文互联网产品思维。他们不止看到单个产品,而且还看到了这个产品背地,根底模型一直演变的弱小驱动力,来源于尖端人才的密度和先进的组织架构

• 尖端人才的密度:不是一个人集资源带队而后把工作按层级打包调配给底下的人,而是一群顶级的集 science 和 engineering 于一身的人们独特合作;

• 先进的组织架构:Language 团队与 Alignment 的团队相互合作迭代,而后底下 scaling 团队和 data 团队帮忙提供基础设施,每个 team 都十分小,但指标明确门路清晰,高度集中资源,朝着 AGI 进发。

所以,如果要做这件事件,不只有看到产品,还要看到它背地的人才团队和组织架构。按稀缺水平排名的话,人 > 卡 > 钱

但这里的问题是,不同的土壤对翻新的激励水平是不一样的。在 OpenAI 刚创建的 2015 年,它的投资者们都置信 AGI,即便过后看不到什么盈利的点。当初 GPT 做进去了,国内的投资者们也都信了 AGI,但置信的点或者也不一样:到底是信 AGI 能挣钱,还是信 AGI 能推动人类倒退?

更进一步地,即便 OpenAI 就产生在这里,今天就呈现,但他们跟微软达成的 deal,是否跟国内的云计算厂商达成呢?大模型的训练和推理都须要极大的老本,须要一个云计算引擎作为撑持。微软能够倾尽所有,让整个 Azure 给 OpenAI 打下手,这个换到国内,阿里云有可能给一个守业公司打下手吗?

组织架构很重要,只有尖端的人才和先进的组织架构能力推动智能的一直迭代与进化;但它同样须要跟所在的土壤做适配,寻找能够 flourish 的办法。

1.3 摸索智能的极限

第三种答案是,要摸索智能的极限。这是我听到的最好的答案。它远超守株待兔式的经典互联网产品思维,也看到了组织架构和尖端人才密度的重要性,并且更重要的是它看到了将来,看到了模型演变与产品迭代,思考着如何把最粗浅,最艰难的问题用最翻新的办法来解决。

这就波及到了思考大模型的极限思维。

2

极限思维

察看当初的 ChatGPT / GPT-3.5,它显著是一个中间状态,它还有很多能够增强,并且马上就能增强的点,包含:

• 更长的输入框:开始的时候,GPT 3.5 的上下文最长到八千个 token;当初的 ChatGPT 上下文建模的长度仿佛曾经过万。并且这个长度显著能够接着增长,在融入 efficient attention 和 recursive encoding 的办法之后,context length 应该能够接着 scale 到十万,甚至百万的长度;

• 更大的模型,更大的数据:模型的大小还没有到极限,MoE 能够接着把模型 scale 到 T 的量级;数据的大小还没有到极限,人类反馈的数据每天都在增长;

• 多模态:在减少了多模态数据(音频,图片),特地是视频数据之后,总体与训练数据的大小能够再增大两个量级,这个能够让已知的能力接着按 scaling law 线性减少,同时还有可能持续呈现新的涌现能力。比方可能模型在看过各种几何形态的图片,以及看过代数题之后,或者会主动学会做解析几何;

• 专业化:现有的模型在理科上大略相当于研究生程度,但在文科上相当于高中或大一大二的学生程度;已有的工作曾经证实咱们能够把模型的技能点从一个方向挪到另一个方向,这就意味着即便不做任何 scaling,咱们仍然能够在通过就义其余方面能力的状况下,把模型朝着指标方向推动。比方就义掉模型的文科能力,把它的理科能力从研究生推到专家教授的水准。

以上四点只是现阶段能够看到的,马上就能够增强但临时还没有增强的点,随着工夫的推移和模型的演变,会有更多能够被 scale 的维度进一步体现进去。这意味着咱们须要有极限的思维,要思考当咱们把可能拉满的维度全副拉满的时候,模型会是什么样子。

2.1 可能拉满全副拉满

模型的输入框能够接着加长,模型的大小能够持续增大,模型的数据能够持续增多,多模态的数据能够交融,模型的专业化水平能够持续增高,所有这些维度能够持续往上拉,模型还没有到极限。极限是一个过程,在这个过程中模型的能力会怎么倒退呢?

• Log-linear 曲线:一部分能力的增长会遵循 log-linear 的曲线,比如说某项工作的 finetuning。随着 finetune 数据的指数增长,模型所对应的 finetune 的工作的能力会线性增长。这部分能力会可预测地变得更强;

• Phase change 曲线:一部分能力会随着 scaling 持续涌现,比如说上文中的模型做解析几何的例子。随着能够被拉满的维度被一直拉满,新的,难以预测的涌现能力会接着呈现;

• 多项式曲线? 当模型强到肯定水平,与人类 align 到肯定水平之后,或者一些能力的线性增长,所须要的数据,会冲破指数增长的封闭,而升高到多项式的量级。也就是说,当模型强到肯定水平之后,它或者不须要指数级的数据,而是只须要多项式级的数据,就能够实现泛化。这能够从人类的业余学习中察看到:当一个人还不是领域专家的时候,ta 须要指数级的数据来学习畛域的常识;当一个人曾经是领域专家的时候了,ta 只须要很少量级的数据就本人迸发出新的灵感和常识。

所以,在极限思维下,把所有能拉满的维度全副拉满,模型注定会越来越强,呈现越来越多的涌现能力。

2.2 反推两头过程

在思考分明极限的过程之后,就能够从极限状态往后反推两头过程。比如说,如果咱们心愿增长输入框的大小:

• 如果心愿把模型的输入框从千的量级增长到万的量级,可能只须要减少显卡数量,进行显存优化就能实现;

• 如果心愿接着把输入框从万的量级增长到十万的量级,可能须要 linear attention 的办法,因为此时加显存应该也架不住 attention 运算量随输入框长度的二次增长;

• 如果心愿接着把输入框从十万的量级增长到百万的量级,可能须要 recursive encoding 的办法和减少 long-term memory 的办法,因为此时 linear attention 可能也架不住显存的增长。

以这种形式,咱们能够反推不同阶段的 scaling 须要怎么的技术。以上剖析不止实用于输入框的长度,也实用于其余因素的 scaling 的过程。

这样的话,咱们能够失去清晰的从现阶段的技术到 scaling 极限的每个两头阶段的技术路线图

2.3 按模型演变过程产品化

模型在一直演变,但产品化不须要等到最终那个模型实现 — 每当模型迭代进去一个大的版本,都能够产品化。以 OpenAI 的产品化过程为例:

• 2020 年,初代 GPT 3 训练实现,凋谢 OpenAI API;
• 2021 年,初代 Codex 训练实现,凋谢 Github Copilot;
• 2022 年,GPT-3.5 训练实现,以 dialog 数据 finetune 成 ChatGPT 而后公布。

能够看到,在两头阶段的每一个重要版本,模型的能力都会加强,都存在产品化的机会。

更加重要的是,依照模型演变过程产品化,能够在产品化的阶段适配市场。学习 OpenAI 的组织架构来推动模型演变自身,但产品化能够依照外乡市场的特色来做。这种形式或者能够既学到 OpenAI 的先进经验,又防止水土不服的问题。

3

人工智能显著超过人类的能力

到目前为止,咱们探讨了要用模型演变的视角来分析模型,要用极限的思维探讨模型的演变历程。现阶段马上能够增强的点包含了输入框的长度,更大的模型和数据,多模态数据和模型的专业化水平。当初让咱们再把视线放得更长期些,思考在更大的工夫和空间中,模型如何进一步地往极限推。咱们探讨:

• 并行感知:一个人类研究员一次程序地读四五篇论文曾经是极限,但模型输入框变长之后,能够在极短的工夫内并行浏览一百篇论文。这意味着,模型对外部信息的感知能力远超人类一个数量级;

• 记忆遗传:人类的演化过程中,子代只继承父代的基因,但不继承父代的记忆,这意味着每一次生殖都须要重启一次;在模型的演化过程中,子代能够继承父代的记忆,并且这个继承的水平可控:咱们能够设置子代继承 100%,50%,20% 的记忆,或清空记忆,这意味着父代的教训和技能能够一直累积;

• 减速工夫:人类互相交换的速率是受到人类谈话的物理速度限制的,而模型互相交换的速率能够远快于人类,这意味着模型能够通过互相交换来解决人类数据随工夫线性增长的问题;人类演变的过程受到物理工夫的限度,模型的演变能够比人类的物理工夫快上几个数量级,这意味着模型的提高速度能够远快于人类;

• 有限生命:一个人的生命无限,百年之后终归尘土,但模型的权重只有不失落,就能够一直地演变。

从这些角度来说,人工智能超过人类并不是一件难以想象的事件。这就引发了下一个问题:

如何驾驭远超人类的强人工智能?

这个问题,是 Alignment 这项技术真正想要解决的问题。

4

Alignment 对齐

以后阶段,模型的能力,除了 AlphaGo 在围棋上超过了最强人类之外,其余方面的 AI 并没有超过最强的人类(但 ChatGPT 在理科上或者曾经超过了 95% 的人类,且它还在持续增长)。在模型还没超过人类的时候,Alignment 的工作是让模型合乎人类的价值观和冀望;但当模型持续演变到超过人类之后,Alignment 的工作就变成了寻找驾驭远超人类的智能体的办法。

4.1 Alignment 作为驾驭远超人类的智能体的办法

一个显然的问题是,当 AI 超过人类之后,还能够通过人类反馈让 ta 更强 / 更受约束吗?是不是这个时候就曾经管不了了?

不肯定,即便模型远超人类,咱们仍然又可能驾驭 ta,这里的一个例子是运动员和教练之间的关系:金牌运动员在 ta 的方向上曾经是最强的人类了,但这并不意味着教练就不能训练 ta。相同,即便教练不如运动员,ta 仍然能够通过各种反馈机制让运动员变得更强且更有纪律。

相似地,人类和强人工智能的关系,在 AI 倒退的中后期,可能会变成运动员和教练之间的关系。这个时候,人类须要的能力并不是实现一个指标,而是设定一个好的指标,而后掂量机器是否足够好地实现了这个指标,并给出改良意见。

这个方向的钻研还十分初步,这个新学科的名字,叫 Scalable Oversight。

4.2 Alignment 与组织架构

在通往强人工智能的路上,不只是须要人类与 AI 对齐,人类与人类,也须要高度对齐。从组织架构的角度,alignment 波及到:

• Pretraining 团队与 instruction tuning – alignment 团队之间的对齐:

这两者应该是一个互相迭代的过程,pretraining 团队一直地 scale 根底模型,alignment 团队为根底模型做 instruction tuning,同时用失去的后果反向领导 pretraning 团队的方向。

• Pretraining / Alignment 团队与 Scaling / Data 团队的对齐:

scaling 负责为 pretraining / alignment 做好基础设施,data 做好高质量数据与人类反馈数据。

• 守业公司与 VC 的对齐:

AGI 是一个艰难的事件,须要长期投入,这须要各个方面的人都有足够的急躁和足够高的视线。烧一趟热钱后催产品化而后占满市场的逻辑在大模型时代应该曾经不复存在了。大模型的游戏要求 ta 的玩家们有足够高的视线与格局,模型的演变会让有足够急躁的,虚浮做事人们在长期失去丰富的回报,也会让只看短期守株待兔的人们一次又一次被降维打击。

5

结语

在 2017 年,我刚刚入行 NLP 的时候,花了很大的力量做可控生成这件事件。那个时候所谓的 text style transfer 最多就是把句子情感分类改一改,把 good 改成 bad 就算是实现了 transfer。

2018 年我花了大量的工夫钻研如何让模型从句子构造的角度批改句子的格调,一度误认为格调转换是简直不可能实现的事件。而今 ChatGPT 做格调转换几乎信手拈来。那些已经看似不可能实现的工作,已经极其艰难的事件,明天大语言模型十分轻松地就能实现。

在 2022 年一整年,我追踪了从 GPT-3 到 GPT-3.5 的全副版本迭代,亲眼看到它一步步地从弱到强一直演变。这个演变速度并没有变慢,反而正在放慢。那些原先看来科幻的事件,当初曾经成为事实。谁会晓得将来会怎么呢?

彼黍离离,彼稷之苗。
行迈靡靡,中心摇摇。
彼黍离离,彼稷之穗。
行迈靡靡,核心如醉。
———《诗经 · 黍离》

欢送 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/

正文完
 0