编者按:当咱们回顾过去十年的人工智能倒退历程时,能够看到一场当初还正在进行的改革,对咱们的工作形式、商业经营模式和人际交往行为都产生了深远的影响。从 2013 年的 AlexNet 到变分自编码器,再到最近的生成式大模型,人工智能技术一直呈现的突破性停顿推动着整个畛域的蓬勃发展。
本文将为您深度解读这些关键性技术冲破,并且对人工智能将来的发展趋势进行瞻望。不管您是从事 AI 行业的开发者或钻研人员,还是对最新 AI 技术倒退充斥好奇心的公众读者,咱们热切期盼本篇文章可能为您提供肯定的帮忙。
让咱们独特摸索、拥抱人工智能吧!
以下是译文,Enjoy!
作者 | Thomas A Dorfer
编译 | 岳扬
目录
- 01 2013 年:AlexNet 与变分自编码
- 02 2014 年:生成式反抗网络
- 03 2015 年:ResNets 和 NLP 畛域的突破性停顿
- 04 2016 年:AlphaGo
- 05 2017 年:Transformer 架构和语言模型
- 06 2018 年:GPT-1、BERT 和图神经网络
- 07 2019 年:GPT- 2 和改良的生成模型
- 08 2020 年:GPT- 3 和自监督学习
- 09 2021 年:AlphaFold 2、DALL- E 和 GitHub Copilot
- 10 2022 年:ChatGPT 和 Stable Diffusion
- 11 2023 年:LLMs 和 Bots
- 12 回顾过去 & 展望未来
Image by the Author.
过来的十年对于人工智能畛域来说是一个令人激动的阶段。从对深度学习后劲的初步摸索到整个畛域的爆炸性倒退,现在该畛域的利用曾经包含电子商务的举荐零碎、主动驾驶汽车的物体检测以及生成式模型(创立真切的图像和连贯的文本等)等内容。
在这篇文章中,咱们将散步在记忆的长河中,重温让咱们走到明天的一些关键性技术冲破。 无论您是资深的人工智能从业者还是仅仅对该畛域的最新倒退感兴趣,本文都将为您全面介绍那些促使人工智能(AI)成为妇孺皆知的词语的技术停顿。
01 2013 年:AlexNet 与变分自编码器
2013 年被大家认为是深度学习走向成熟的一年,这源于计算机视觉畛域呈现的重大提高。依据杰弗里·辛顿 (Geoffrey Hinton) 最近的一次采访[1],到了 2013 年,“简直所有的计算机视觉钻研都曾经转向神经网络”。这股热潮次要是由一年前(2012 年)图像识别畛域一个相当令人诧异的冲破所推动的。
在 2012 年 9 月,一种深度卷积神经网络(CNN)AlexNet[2]在 ImageNet 大规模视觉辨认比赛 (ILSVRC) 中获得了破纪录的问题,证实了深度学习在图像识别工作中的后劲。它的 Top-5 错误率 [3] 为 15.3%,比其最靠近的竞争对手低 10.9%。
Image by the Author.
这一胜利背地的技术改良极大地促成了人工智能的倒退,并且极大地扭转了人们对深度学习的认识。
首先,AlexNET 的作者采纳了一个 由五个卷积层(convolutional layers)和三个全连贯线性层(fully-connected linear layers)组成的 deep CNN——该网络架构过后被许多人认为是不实用的。此外,因为网络的深度产生了大量参数,训练是在两个图形处理单元 (GPUs) 上并行进行的,证实了在大型数据集上进行疾速训练的能力。通过应用更高效的修改线性单元(Rectified Linear Unit,ReLU)[4],传统的激活函数(如 sigmoid 和 tanh)被替换,更进一步缩短了训练工夫。
Image by the Author.
这些技术停顿独特推动了 AlexNet 的胜利,使其成为人工智能历史上的一个转折点,并引发学术界和科技界对深度学习的趣味激增。因而,许多人认为 2013 年是深度学习真正开始腾飞的一座分水岭。
同样也产生在 2013 年的(只管有点被 AlexNet 的盛大声势所覆盖)是 变分自编码器(或被称为 VAEs[5])的倒退——生成式模型能够学习表白(represent)和生成数据(如图像和声音)。它们通过学习输出数据在低维空间(称为隐空间(latent space))的压缩示意来工作。这使它们可能通过从已学习的隐空间中进行采样生成新的数据。起初,VAEs 被认为开拓了新的生成模型(generative modeling)和数据生成路径,并在艺术、设计和游戏等畛域失去利用。
02 2014 年:生成式反抗网络
这之后第二年,即 2014 年 6 月,Ian Goodfellow 及其共事提出了 生成式反抗网络(GANs)[6],这是深度学习畛域又一个重大的停顿。
GANs 是一种神经网络,可能生成与训练集类似的新数据样本。实质上是同时训练两个网络:(1)有一个 生成器网络 生成虚伪的或合成的样本,(2)另一个 鉴别器网络 评估它们的真实性。这种训练是在一种相似于游戏的设定中进行的,生成器试图发明可能坑骗鉴别器的样本,而鉴别器则试图正确地辨认出虚伪的样本。
在过后,GANs 代表一种弱小而新鲜的数据生成工具,不仅可用于生成图像和视频,还可用于音乐和艺术畛域。GANs 展现了在不依赖于显式标签(explicit labels)的状况下生成高质量数据样本的可能性,这一可能性为无监督学习的停顿做出了较大的奉献,而之前这个畛域被宽泛认为是绝对欠倒退且具备挑战性的。
03 2015 年:ResNets 和 NLP 畛域的突破性停顿
2015 年,人工智能畛域在计算机视觉和自然语言解决(NLP)方面都获得了相当大的停顿。
Kaiming He 及其共事发表了一篇名为 《Deep Residual Learning for Image Recognition》 的论文 [7],提出了 残差神经网络(ResNets) 的概念。此架构通过增加捷径使信息更容易地在网络中流动。与惯例神经网络每一层将上一层的输入作为输出不同,在 ResNet 中,会增加额定的残差连贯(residual connections),跳过一层或多层并间接连贯到网络中更深的层。
因而,ResNets 可能解决梯度隐没(vanishing gradients) [8]问题,从而使训练更深的神经网络成为可能。如此又导致解决图像分类和物体辨认工作的显著提高。
大概在同一时间,钻研人员在 循环神经网络(RNNs) [9]和 长短期记忆(LSTM) [10]模型的开发方面也获得了相当大的停顿。只管这些模型自 20 世纪 90 年代以来就曾经存在,然而它们直到 2015 年左右才开始引起肯定的关注,次要是因为以下因素:
(1)2015 年时可用于训练的 数据集更大、更多样化;
(2)计算能力和硬件的改良,可训练更深层次、更简单的模型;
(3)从这些模型呈现到 2015 年的这段时间中所进行的 模型改良,如更简单的门控机制(gating mechanisms)。
因而,这些架构使语言模型可能更好地了解文本的语境和含意,从而在语言翻译、文本生成和情感剖析等工作中失去了极大的改良。过后 RNNs 和 LSTMs 的胜利为咱们明天所见到的大语言模型(LLMs)的开发铺平了路线。
04 2016 年:AlphaGo
1997 年,加里·卡斯帕罗夫(Garry Kasparov)被 IBM 的深蓝(Deep Blue)战胜之后,人类和机器之间的另一场较量于 2016 年掀起了轩然大波:谷歌的 AlphaGo 击败了围棋世界冠军李世石。
Photo by Elena Popova on Unsplash.
李世石的失败标记着人工智能倒退历程上的又一个重要里程碑:它表明,在曾被认为太简单而不可能被计算机解决的游戏中,机器甚至能够击败最纯熟的人类选手。AlphaGo 应用 深度强化学习(deep reinforcement learning) [11]和 蒙特卡罗树搜寻(Monte Carlo tree search) [12]的组合,剖析以前游戏中的数百万个地位,并评估了可能的最佳落子地位——此策略在这种状况下远远超过了人类的决策能力。
05 2017 年:Transformer 架构和语言模型
能够说,2017 年是为咱们明天所见到的生成式人工智能获得突破性停顿奠定根底的最要害的一年。
在 2017 年 12 月,Vaswani 及其共事公布了名为《Attention is all you need》的根底论文 [13],介绍了应用 自注意力(self-attention) [14]概念来解决程序输出数据的 Transformer 架构。这使得 long-range dependencies 的解决更加高效,而此前传统的循环神经网络构造对此仍是一个挑战。
Photo by Jeffery Ho on Unsplash.
Transformer 由两个重要组件组成:编码器和解码器。编码器负责对输出数据进行编码,能够是一个单词序列。而后,它承受输出序列并利用多层自注意力(self-attention)和前馈神经网络(feed-forward neural nets)来捕获句子内存在的关系和特色,并学习有意义的表白。
从实质上讲,自注意力使模型可能了解句子中不同单词之间的关系。与传统模型不同,传统模型会按固定程序解决单词,而transformer 实际上同时思考所有单词。依据单词与句子中其余单词的相关性,它们为每个单词调配一种称为 attention scores 的指标。
另一方面,解码器将编码器的编码后的表白作为输出,并生成输入序列。在机器翻译或文本生成等工作中,解码器依据从编码器接管到的输出生成翻译序列。与编码器相似,解码器也包含多层自注意力和前馈神经网络。然而,它 还包含一个额定的注意力机制,使其可能集中关注编码器的输入。这样,解码器就能够在生成输入时思考到来自输出序列的相干信息。
自从 Transformer 架构问世以来,其已成为 LLM 开发的要害组件,并在 NLP 畛域,如机器翻译、语言建模和问题答复等方面获得了突破性的停顿。
06 2018 年:GPT-1、BERT 和图神经网络
在 Vaswani 等人发表他们的论文几个月后,OpenAI 于 2018 年 6 月推出了生成预训练 Transformer(即 GPT-1)[15],它利用 Transformer 架构无效地捕获文本中的 long-range dependencies。GPT- 1 是首批进行无监督预训练后,展现针对特定 NLP 工作进行微调相干成果的模型之一。
此外,谷歌也利用过后还很新鲜的 Transformer 架构,在 2018 年底公布并开源了他们本人的预训练方法,称为 Bidirectional Encoder Representations from Transformers,即 BERT[16]。与以前以单向形式解决文本的模型(包含 GPT-1)不同,BERT 同时思考了每个词在两个方向的上下文。 为了阐明这一点,作者提供了一个十分直观的例子:
……在“我拜访银行账户”这个句子中,单向上下文模型(unidirectional contextual model)将基于“我拜访”而非“账户”来示意“银行”。然而,BERT 应用其前后上下文——“我拜访……账户”——示意“银行”。从深度神经网络的最底层开始,使其实现了深层次双向(deeply bidirectional)。
双向性(bidirectionality)十分弱小,使 BERT 在各种基准工作上优于过后的 NLP 零碎。
除了 GPT- 1 和 BERT 之外,图神经网络(graph neural networks, GNN) [17]在那一年也引起了一些轰动。它们属于一类专门设计用于图形数据的神经网络。GNN 利用一种消息传递算法在图的节点和边上流传信息。这使得网络能够以更直观的形式学习数据的构造和关系。
这项工作使得钻研人员可能从数据中提取更深刻的信息,从而扩充了深度学习可利用的范畴。有了 GNN,AI 在社交网络分析、举荐零碎和药物钻研等畛域获得重大进展。
07 2019 年:GPT- 2 和改良的生成模型
2019 年,生成模型领有了一些重要停顿,特地是 GPT-2[18]的推出。该模型在许多 NLP 工作中领有最先进的性能,真正让同类模型黯然失色,并且还可能生成高度真切的文本内容。当初看来,这为咱们预报了行将在这个畛域产生的“大爆炸”。
当年,该畛域中的其余停顿包含 DeepMind 的 BigGAN[19],它生成的高质量图像与实在图像简直没有区别,以及 NVIDIA 的 StyleGAN[20],能够更好地管制这些生成图像的外观。
总的来说,这些当初被称为生成式 AI 的停顿将人工智能畛域的界线推得更远,而且 ……
08 2020 年:GPT- 3 和自监督学习
……不久之后,另一个模型问世,一个即便在技术畛域之外也妇孺皆知的名字:GPT-3[21]。这个模型代表了 LLMs 规模和能力的极大晋升。GPT- 1 只有 117 万个参数,而 GPT- 2 则减少到了 15 亿个,GPT- 3 则达到了 1750 亿个。
如此微小的参数使得 GPT- 3 可能在各种 Prompt 和工作中生成十分连贯的文本,在文本补全、问答甚至是创意写作等 NLP 工作的实现上也展示了万众瞩目的性能和卓越体现。
此外,GPT- 3 再次突显了应用 自监督学习(self-supervised learning) 的后劲,这种形式使得模型能够在大量未标记的数据上进行训练。自监督学习的益处是,模型能够取得对语言的广泛了解,而不须要进行大范畴的特定工作训练,这使得其更加经济实惠。
Yann LeCun 在推特上发表了一篇对于自监督学习的纽约时报文章
09 2021 年:AlphaFold 2、DALL- E 和 GitHub Copilot
从蛋白质折叠到图像生成,再到自动化编码助手,得益于 AlphaFold 2、DALL·E 和 GitHub Copilot 的公布,2021 年是充斥惊喜的一年。
AlphaFold 2[22]是一种用于解决数十年未被解决的蛋白质折叠问题的解决方案。DeepMind 的钻研人员扩大了 Transformer 架构,创立了evoformer(这是一种借助进化策略进行模型优化的构造)来构建一个可能依据一维氨基酸序列预测蛋白质三维构造的模型。这一冲破具备微小的后劲,能够彻底改变药物研发、生物工程以及咱们对生物零碎的了解等方面。
OpenAI 在这一年也再次成为新闻的焦点,他们公布了DALL·E[23]。从实质上讲,这个模型将 GPT-style 的语言模型和图像生成的概念联合起来,使得能够通过文本形容创立高质量的图像。
为了证实这个模型的弱小性能,请看上面这张图片,它是依据 Prompt“Oil painting of a futuristic world with flying cars“生成的。
Image produced by DALL·E.
最初,GitHub 公布了Copilot[24]。这是 Github 与 OpenAI 单干实现的,OpenAI 提供了底层语言模型 Codex,该模型应用大量公开可用的代码进行训练,并学会了了解和生成各种编程语言的代码。开发者能够通过简略地提供一段代码正文,并阐明他们正在尝试解决的问题,模型就会编写代码来实现解决方案。还有其余性能,包含用自然语言形容输出的代码以及在各种编程语言之间转换代码。
10 2022 年:ChatGPT 和 Stable Diffusion
过来十年间,人工智能的疾速倒退在一项突破性的停顿中达到了高峰:OpenAI 在 2022 年 11 月公布了 ChatGPT[25]。该工具被认为代表自然语言解决畛域的顶级成就,针对各种查问和 Prompt 可能生成连贯且合乎上下文的答复。此外,它能够进行对话、提供问题解释、提供创意倡议、帮助解决问题、编写和解释代码,甚至能够模仿不同的人物共性或写作格调。
Image by the Author.
人们能够在简略而直观的界面与机器人进行互动也刺激了可用性(usability)的急剧回升。以前,次要是技术界会推敲最新的基于人工智能的新技术。然而当初,AI 工具曾经渗透到简直所有业余畛域,从软件工程师到作家、音乐家和广告商。许多公司也在应用这种模型来实现服务自动化(automate services),如客户反对、语言翻译或答复常见问题。事实上,咱们当初正看到的 自动化浪潮(the wave of automation) 曾经从新引起了一些担心,并引发了对自动化无关危险的探讨。
尽管 2022 年 ChatGPT 取得了很多关注,但图像生成方面也有了重大的停顿。Stability AI 公布了Stable diffusion[26],一种潜在的文转图扩散模型,可能通过文本形容生成真切的照片。
Stable diffusion 是传统扩散模型的延长,它迭代地向图像增加噪声,而后逆转过程来复原数据。它被设计成 不间接在输出图像上操作,而是在它们的低维示意或隐空间(latent space)上操作,从而减速这一过程。 此外,扩散过程是通过向网络增加来自用户的 transformer-embedded text prompt 来批改的,从而使其在每次迭代中疏导图像生成过程。
总的来说,2022 年公布的 ChatGPT 和 Stable diffusion 突显了多模态、生成式 AI 的后劲,并引发了对该畛域进一步倒退和投资的推动。
11 2023 年:LLMs 和 Bots
往年无疑是 LLMs 和 chatbots 大展身手的一年。越来越多的大模型正以迅猛的速度问世和迭代。
Image by the Author.
例如,Meta AI 在 2 月 24 日公布了LLaMA[27]——一个性能比 GPT- 3 更好的 LLM,而且参数数量要少得多。不到一个月后,在 3 月 14 日,OpenAI 公布了GPT-4[28]——GPT- 3 的一个更大、能力更强和多模态的版本。尽管 GPT- 4 的确切参数数量不详,但据揣测可能达到数万亿。
3 月 15 日,斯坦福大学的钻研人员公布了Alpaca[29],这是一种轻量级的语言模型,基于 LLaMA 通过指令追随演示(译者注:这是一种通过让模型察看人类执行某项工作的过程,来进行模型微调的办法)进行了微调。几天后,在 3 月 21 日,谷歌推出了其 ChatGPT 竞品:Bard[30]。谷歌也刚刚在本月初的 5 月 10 日公布了其最新的 LLM——PaLM-2[31]。依据这个倒退速度,很有可能到您浏览本文的时候,又会涌现出另一个新的模型。
咱们也看到越来越多的公司将这些模型整合到他们的产品中。例如,Duolingo 发表推出基于 GPT- 4 的 Duolingo Max[32],这是一个新的订阅服务,旨在针对每个个体提供量身定制的语言课程。Slack 也推出了一个名为Slack GPT[33] 的人工智能助手,能够实现诸如起草回复和总结会话等工作。此外,Shopify 还在其商店应用程序中引入了 ChatGPT-powered 助手,能够通过各种 Prompt 帮忙客户辨认所需的产品。
Shopify 在 Twitter 上发表其 ChatGPT-powered AI 助手
乏味的是,现在人工智能聊天机器人(AI chatbots)甚至被视为人类心理治疗师(human therapists)的替代品。例如,美国 chatbot 应用程序 Replika[34] 为用户提供一个“关怀你的 AI 伴侣,始终聆听和与你交谈,始终在你身边”。其创始人 Eugenia Kuyda 示意,该应用程序的客户范畴十分之广,从寻求“与人来往之前热身”的自闭症儿童到仅须要一个敌人的孤单成年人都有。
最初,我想强调一下 上一个十年中 AI 倒退的低潮:人们应用Bing!往年早些时候,微软推出了基于 GPT- 4 的“copilot for the web”[35],它是为搜寻而定制的,这么长时间以来,它首次成为谷歌在搜寻业务上须要认真对待的竞争对手。
12 回顾过去 & 展望未来
当咱们回顾过去十年的 AI 倒退历程时,很显著,咱们始终在见证一场改革,对咱们的工作形式、商业运作模型和人际互动行为产生了深远的影响。最近生成式模型(generative models)方面获得了重大进展,特地是 LLMs。生成式模型的倒退仿佛在保持一个独特的信念,即“越大越好”,当然这里指的是模型外部蕴含的可调整参数的总数(the parameter space of the models)。 这在 GPT 系列中尤为显著,该系列从 117 万个参数(GPT-1)开始,接下来每个版本的模型减少约一个数量级,最终达到了可能领有数万亿个参数的 GPT-4。
然而,在最近一次采访中 [36],OpenAI 首席执行官 Sam Altman 认为咱们曾经达到了参数“越大越好”时代的止境。展望未来, 他依然认为参数数量会呈上升趋势,但将来模型改良的次要重点将放在减少模型的性能、效用和安全性上。
最初一点尤为重要。这些弱小的 AI 工具当初曾经把握在公众手中,不再局限于钻研实验室的受控环境中,咱们当初比以往任何时候都更须要审慎行事,确保这些工具是平安的,合乎人类的最佳利益。心愿咱们能看到 AI 平安方面像其余畛域一样失去同样的倒退和投资。
END
参考资料
1.https://venturebeat.com/ai/10-years-on-ai-pioneers-hinton-lec…
2.https://proceedings.neurips.cc/paper_files/paper/2012/file/c3…
3.https://machinelearning.wtf/terms/top-5-error-rate/
4.https://www.cs.toronto.edu/~fritz/absps/reluICML.pdf
5.https://arxiv.org/abs/1312.6114
6.https://proceedings.neurips.cc/paper_files/paper/2014/file/5c…
7.https://arxiv.org/abs/1512.03385
8.https://en.wikipedia.org/wiki/Vanishing_gradient_problem
9.https://en.wikipedia.org/wiki/Recurrent_neural_network
10.https://pubmed.ncbi.nlm.nih.gov/9377276/
11.https://en.wikipedia.org/wiki/Deep_reinforcement_learning
12.https://en.wikipedia.org/wiki/Monte_Carlo_tree_search
13.https://arxiv.org/abs/1706.03762
14.https://en.wikipedia.org/wiki/Attention_(machine_learning)
15.https://cdn.openai.com/research-covers/language-unsupervised/…
16.https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of…
17.https://en.wikipedia.org/wiki/Graph_neural_network
18.https://openai.com/research/gpt-2-1-5b-release
19.https://www.deepmind.com/open-source/big-gan
20.https://github.com/NVlabs/stylegan
21.https://arxiv.org/abs/2005.14165
22.https://www.nature.com/articles/s41586-021-03819-2
23.https://openai.com/dall-e-2/
24.https://github.com/features/copilot
25.https://openai.com/blog/chatgpt
26.https://stability.ai/blog/stable-diffusion-public-release
27.https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
28.https://openai.com/product/gpt-4
29.https://crfm.stanford.edu/2023/03/13/alpaca.html
30.https://blog.google/technology/ai/bard-google-ai-search-updates/
31.https://ai.google/discover/palm2
32.https://blog.duolingo.com/duolingo-max/
33.https://slack.com/blog/news/introducing-slack-gpt
34.https://replika.com/
35.https://blogs.microsoft.com/blog/2023/02/07/reinventing-searc…
36.https://techcrunch.com/2023/04/14/sam-altman-size-of-llms-won…
本文经原作者受权,由 Baihai IDP 编译。如需转载译文,请分割获取受权。
原文链接:
https://towardsdatascience.com/ten-years-of-ai-in-review-85de…