共计 9336 个字符,预计需要花费 24 分钟才能阅读完成。
如果十年前,你向他人介绍人脸识别、无人驾驶、对话机器人,兴许会被当作疯子。然而明天,随着 AI 技术的倒退,这所有都逐步成真。
即使五年前,有道推出有道神经网络翻译引擎(YNMT),使得翻译品质失去质的飞跃时,大家对机器翻译的品质依然心存疑虑。但明天,人们甚至曾经开始探讨将来是否还会存在翻译这个职业。
过来十年是人工智能疾速倒退的十年,也是从实验室走向工业界的十年。近期拜读 AI 畛域标杆人物、Google 人工智能负责人杰夫·迪恩的长文,不免有些共鸣与感悟,也对持续投身 AI 技术倒退的下一个十年充斥期待。
咱们用有道神经网络翻译引擎(YNMT)将全文做了翻译,以飨读者。大家也能够感受一下,以后机器翻译的成果。
——网易有道首席科学家 段亦涛
摘要
自计算机诞生之初,人类就幻想着可能发明出“会思考的机器”。1956 年,约翰·麦卡锡 (John McCarthy) 在达特茅斯学院 (Dartmouth College) 组织了一个研讨会,会上一群数学家和科学家聚在一起,“钻研如何让机器应用语言,造成抽象概念,解决当初只留给人类的各种问题,并进步本人。”讲习班与会者乐观地认为,几个月的集中致力将在这些问题上获得理论停顿。
几个月的时间表被证实过于乐观。在接下来的 50 年里,发明人工智能零碎的各种办法层出不穷,包含基于逻辑的零碎、基于规定的专家系统和神经网络编码世界逻辑规定并应用这些规定的办法被证实是有效的。以 Cyc 我的项目为最突出的例子,手工将数百万条人类常识整顿成机器可读的模式,被证实是一项十分劳动密集型的工作,在使机器自主学习方面没有获得显著停顿从真正的生物神经网络中吸取灵感的人工神经网络,在这段时间里仿佛是一种很有前途的办法,但最终在 20 世纪 90 年代得宠。尽管他们可能在玩具规模的问题上得出令人印象粗浅的后果,但他们无奈在过后的事实世界问题上得出乏味的后果。
1990 年,作为一名本科生,我对神经网络着迷,感觉它们仿佛是发明智能机器的正确形象,并置信咱们只须要更多的计算能力,就能够使更大的神经网络解决更大、更乏味的问题。我做了一篇对于神经网络并行训练的本科论文,置信如果咱们能够应用 64 个处理器而不是一个处理器来训练一个神经网络,那么神经网络就能够解决更多乏味的工作然而事实证明,绝对于 1990 年的计算机,咱们须要大概 100 万倍的计算能力,而不是 64 倍,能力让神经网络在具备挑战性的问题上开始获得令人印象粗浅的停顿!
然而,大概从 2008 年开始,因为摩尔定律,咱们开始领有如此弱小的计算机,神经网络开始复苏,并成为最有前途的发明能看、能听、能了解和能学习的计算机的形式(以及将这种办法重新命名为“深度学习”)。
从 2011 年到本文撰写时 (2021 年) 的这十年,在实现 1956 年达特茅斯研讨会设定的指标方面获得了显著停顿,机器学习 (ML) 和人工智能当初在许多畛域都获得了微小的提高,为新的计算体验和交互发明了机会,并极大地扩大了世界上能够解决的问题集。
本文次要关注三个方面:推动这一停顿的计算硬件和软件系统;过来十年中机器学习的一些激动人心的利用实例;以及咱们如何发明更弱小的机器学习零碎,以真正实现发明智能机器的指标。
1. 人工智能的硬件和软件
与通用的计算机代码 (比方你每天运行文字处理器或网络浏览器时可能会用到的软件) 不同,深度学习算法通常是由组成大量线性代数操作的不同形式构建的:矩阵乘法、向量点积和相似的操作。因为这种无限的操作词汇表,咱们有可能制作出专门反对这类计算的计算机或加速器芯片。这种专门化实现了绝对于通用地方处理单元 (cpu) 的新的效率和设计抉择,后者必须运行更宽泛的各种算法。
在 21 世纪初,一些钻研人员开始钻研应用图形处理单元 (gpu) 来实现深度学习算法。只管这些设施最后是为绘制图形而设计的,但钻研人员发现,它们也非常适合深度学习算法,因为与 cpu 相比,它们具备绝对较高的浮点计算率。2004 年,计算机科学家 Kyoung-Su Oh 和 Keechul Jung 展现了应用 GPU 的神经网络算法的近 20 倍的改良。2008 年,计算机科学家 Rajat Raina 和共事展现了应用 GPU 的速度比一些无监督学习算法的最佳 cpu 实现的速度高 72.6 倍。
这些晚期的成就持续建设,因为在 gpu 上训练的神经网络在各种各样的计算机视觉较量中胜过其余办法。随着深度学习办法在图像识别、语音辨认和语言了解方面的显著改良,以及越来越多的计算密集型模型 (在更大的数据集上训练) 一直展现改良的后果,机器学习畛域真正开始腾飞。计算机系统架构师们开始钻研如何将深度学习模型扩大到计算密集水平更高的中央。晚期的一种办法应用大规模分布式系统来训练繁多的深度学习模型。谷歌研究员开发了 DistBelief 框架,这是一个可能应用大规模分布式系统来训练单个神经网络的软件系统。应用 DistBelief,钻研人员可能训练一个繁多的无监督神经网络模型,该模型比以前的神经网络大两个数量级。该模型是在 YouTube 视频的大量随机帧汇合上训练的,有了一个大的网络和足够的计算和训练数据,它证实了模型中的单个人工神经元 (神经网络的构建模块) 能够学习辨认像人脸或猫这样的高级概念,只管除了原始图像的像素外,素来没有给过对于这些概念的任何信息。
这些胜利促使零碎设计师设计出比 gpu 更适宜和匹配深度学习算法需要的计算设施。为了构建专门的硬件,深度学习算法有两个十分好的个性。首先,它们对升高的精度十分宽容。许多数值算法须要 32 位或 64 位浮点示意来保障计算的数值稳定性,与此不同,深度学习算法在训练期间应用 16 位浮点示意 (神经网络从察看中学习的过程),在推理期间应用 8 位甚至 4 位整数定点示意(神经网络从输出生成预测或其余输入的过程) 通常都没问题。与应用更高精度的乘法器相比,应用较低精度的乘法器能够在雷同的芯片区域搁置更多的乘法器,这意味着芯片每秒能够执行更多的计算。其次,深度学习算法所需的计算简直齐全由密集矩阵或向量上不同序列的线性代数运算组成,如矩阵乘法或向量点积。这让咱们看到,制作专门用于低精度线性代数计算的芯片和零碎,能够在每美元和每瓦特的性能方面带来很大的益处。这方面的晚期芯片是谷歌的第一个张量处理单元 (TPUv1),它针对用于深度学习推理的 8 位整数计算,在速度和性能上比当代 cpu 和 gpu 进步了 1 到 2 个数量级这些芯片的部署使谷歌在语音辨认精度、语言翻译和图像分类零碎方面获得了显著的改良。起初的 TPU 零碎由自定义芯片和更大规模的零碎组成,这些芯片通过高速自定义网络连接到 pods(用于训练深度学习模型的大规模超级计算机) 像 NVIDIA 这样的 GPU 制造商开始为较低精度的深度学习计算量身定制起初的设计,风投资金赞助的守业公司如雨后雨来,构建各种深度学习加速器芯片,其中 GraphCore、Cerebras、SambaNova 和 Nervana 是其中最出名的一些。
随着 gpu 和其余面向 ml 的硬件崛起,钻研人员开发了开源软件框架,使表白深度学习模型和计算变得容易。这些软件框架依然是要害的推动者。明天,开源框架帮忙宽泛的钻研人员、工程师和其他人推动深度学习钻研,并将深度学习利用到范畴十分宽泛的问题畛域 (其中许多将在上面探讨)。一些最早的框架,如 2003 年开始开发的 Torch,从晚期的数学工具(如 MatLab 和 NumPy) 中吸取灵感 Theano 是 2010 年开发的,是一个晚期的面向深度学习的框架,包含主动符号辨别主动微分是一个有用的工具,它大大简化了许多基于梯度的机器学习算法的表白,例如随机梯度降落(一种通过比拟理论输入和冀望输入,并在误差梯度的方向上对模型参数进行小的调整来纠正输入中的谬误的技术)。DistBelief 和 Caffe 是在 2010 年代晚期开发的框架,强调规模和性能。
TensorFlow 是一个容许表白机器学习计算的框架它是谷歌在 2015 年开发和开源的,并联合了晚期框架,如 Theano 和 DistBelief 的想法,TensorFlow 是针对各种各样的零碎设计的,容许 ML 计算运行在桌面计算机、手机、数据中心的大规模分布式环境和 web 浏览器上,并针对各种各样的计算设施,包含 cpu、gpu 和 tpu。该零碎已被下载超过 5000 万次,是世界上最受欢迎的开源软件包之一。它使世界各地大大小小的集体和组织可能大量应用机器学习。
2018 年公布的 JAX 是一个风行的面向 python 的开源库,它联合了简单的主动辨别和底层的 XLA 编译器,TensorFlow 也应用它来高效地将机器学习计算映射到各种不同类型的硬件上。
像 Tensor-Flow 和 PyTorch 这样的开源机器学习库和工具的重要性再怎么强调也不为过。它们容许钻研人员在这些框架上疾速尝试想法并表白它们。随着世界各地的钻研人员和工程师更容易建设在彼此的工作上,整个畛域的停顿速度放慢了!
2. 钻研爆炸
随着钻研的提高,gpu 和 tpu 等面向 ml 的硬件的计算能力一直加强,以及 Tensor-Flow 和 PyTorch 等开源机器学习工具的宽泛采纳,机器学习及其应用领域的钻研产出呈现了微小的增长。一个强有力的指标是公布到 arXiv 机器学习相干类别的论文数量,arXiv 是一个风行的论文预印本托管服务,2018 年公布的论文预印本数量是 2009 年的 32 倍多 (每两年增长一倍多) 当初,每天有超过 100 篇与机器学习相干的钻研论文公布在 arXiv 上,而且这种增长没有任何放缓的迹象。
3. 利用爆炸
计算能力的变革性增长、机器学习软件和硬件零碎的提高,以及机器学习钻研的激增,都导致了机器学习利用在迷信和工程的许多畛域的激增。通过与气象迷信和医疗保健等要害畛域的专家单干,机器学习钻研人员正在帮忙解决对社会无益、促成人类提高的重要问题。咱们的确生存在一个激动人心的时代。
神经科学是机器学习减速迷信提高的一个重要畛域。2020 年,钻研人员钻研了一只苍蝇的大脑,以更多地理解人类大脑的工作形式。他们建设了一个连接体,一个突触分辨率级别的整个苍蝇大脑连贯图但如果没有机器学习和咱们当初领有的计算能力,这将须要很多年。例如,在 20 世纪 70 年代,钻研人员花了大概 10 年的工夫,殚精竭虑地绘制了蠕虫大脑中的大概 300 个神经元。相比之下,苍蝇的大脑有 10 万个神经元,而老鼠的大脑 (机器学习辅助连贯组学的下一个指标) 有大概 7000 万个神经元。人类的大脑蕴含大概 850 亿个神经元,每个神经元大概有 1000 个连贯。侥幸的是,基于深度学习的计算机视觉技术的提高,当初能够放慢这个之前宏大的过程。明天,依附机器学习,你能够应用交互式 3d 模型本人摸索苍蝇的大脑!
3.1 分子生物学
机器学习还能够帮忙咱们更多地理解咱们的基因形成,最终更无效地解决基于基因的疾病。这些新技术容许科学家通过更准确的模仿、预计和数据分析来更快地摸索潜在试验的前景。一种名为 DeepVariant 的开源工具能够更精确地解决来自 DNA 测序机的原始信息 (其中蕴含读取基因序列的物理过程引入的谬误),并通过卷积神经网络对其进行剖析,绝对于参考基因组数据,更精确地辨认序列中真正的基因变异。一旦确定了遗传变异,深度学习还能够帮忙剖析遗传序列,更好地了解导致特定衰弱或其余后果的单个或多个 DNA 渐变的遗传特色。例如,达纳 - 法伯癌症研究所(Dana-Farber Cancer Institute) 领导的一项钻研,在 2367 名癌症患者队列中,将导致前列腺癌和黑色素瘤的基因变异的诊断率进步了 14%。
3.2 医疗保健
机器学习还提供了帮忙检测和诊断疾病的新办法。例如,当利用于医学图像时,计算机视觉能够帮忙医生诊断一些重大的疾病,比医生本人诊断更疾速、更精确。
一个令人印象粗浅的例子是深度神经网络正确诊断糖尿病视网膜病变的能力,通常与人类眼科医生的程度相当。这种眼疾是增长最快的可预防失明起因(预计到 2040 年将影响 6.42 亿人)。
深度学习零碎还能够像训练有素的放射科医生一样或更好地帮忙检测肺癌。同样的情理也实用于乳腺癌、皮肤病和其余疾病对病历进行程序预测的利用能够帮忙临床医生确定慢性疾病的可能诊断和危险程度。
明天的深度学习技术也让咱们更精确地理解疾病的传播方式,让咱们有更好的机会预防疾病。机器学习帮忙咱们模仿简单事件,如寰球 COVID-19 大风行,这须要全面的流行病学数据集、开发新的可解释模型和基于代理的模拟器,为公共卫生应答提供信息。
3.3 天气、环境和气候变化
气候变化是以后人类面临的最大挑战之一。机器学习能够帮忙咱们更好地理解天气和环境,特地是在预测日常天气和气候灾害方面。
在天气和降水预报方面,计算密集型的基于物理的模型,如美国国家陆地和大气管理局的高分辨率疾速刷新(HRRR),长期以来始终占据主导地位,然而基于机器学习的预测零碎在短时间尺度上的预测比 HRRR 更精确,具备更好的空间分辨率和更快的预测计算。
对于洪水预测,神经网络能够为世界各地的河流零碎建模(一种被称为 HydroNets 的技术),从而产生更精确的水位预测例如,利用这项技术,当局能够更快地向印度和孟加拉国的 2 亿多人收回洪水警报。
机器学习还能帮忙咱们更好地剖析卫星图像。咱们能够疾速评估自然灾害后的侵害(即便有无限的先前卫星图像),理解野火的影响和水平,并改善生态和野生动物监测。
3.4 机器人技术
物理世界是凌乱的,充斥了意想不到的阻碍、滑动和破碎。这使得发明出可能在厨房、办公室和路线等凌乱的实在环境中胜利操作的机器人变得相当具备挑战性(工业机器人曾经对世界产生了重大影响,能够在工厂装配线等更可控的环境中操作)。要对实在的物理工作进行编码或编程,钻研人员须要预测机器人可能遇到的所有可能状况。机器学习通过联合强化学习、人类演示和自然语言教学等技术,无效地训练机器人在事实环境中无效地操作。机器学习还提供了一种更灵便、适应性更强的办法,机器人能够学习执行抓取或行走工作的最佳形式,而不是被锁定在硬编码的假如中。
一些乏味的钻研技术包含与近程机器人导航相结合的主动强化学习,教机器人遵循自然语言指令(多种语言!),以及利用零射击模拟学习框架来帮忙机器人更好地导航模仿和实在环境。
3.5 可用性
咱们很容易认为看到漂亮的画面,听到喜爱的歌曲,或与可爱的人谈话是天经地义的。然而,超过 10 亿人无奈通过这些形式接触世界。机器学习通过将这些信号 (视觉、听觉、语音) 转化为有无障碍需要的人能够很好地治理的其余信号,从而改善无障碍环境,使人们可能更好地接触到四周的世界。一些利用的例子包含语音到文本的转录,当某人参加对话时的实时转录,以及帮忙视障用户辨认他们周围环境的利用。
3.6 因材施教
机器学习还能够用于创立工具和应用程序,以帮忙个性化学习。这将带来深远的益处,最后的例子包含晚期儿童浏览领导,如谷歌 Read Along(前身为 Bolo),它正在帮忙世界各地的儿童学习各种不同语言的浏览,和机器学习工具,如苏格拉底,能够通过给他们直观的解释和更具体的信息,他们正在努力学习的概念,在各种各样的科目,如数学、化学、还有文学由语音辨认、事实的语音输入和语言了解反对的个性化学习有后劲改善世界各地的教育成绩。
3.7 计算机辅助创造力
深度学习算法显示出以简单和创造性的形式转换图像的惊人能力,使咱们可能轻松地创立莫奈格调的宇宙飞船或爱德华·蒙克格调的金门大桥。通过一种艺术风格转移的算法(由机器学习研究员 Leon Gatys 和共事开发),神经网络能够取一张真实世界的图像和一幅画的图像,并主动出现画家格调的真实世界的图像。
OpenAI 的 DALL·E 让用户能够应用文本形容图像(“牛油果形态的扶手椅”或“一个阁楼卧室,床头柜旁边有一张红色的床,床旁边有一个鱼缸”),并生成具备自然语言形容所表白的属性的图像,为艺术家和其余创作者提供了简单的工具,以疾速创立他们头脑中的图像。
以机器学习为能源的工具也在帮忙音乐家以前所未有的形式进行创作除了“技术”,这些计算的新用处能够帮忙任何人发明新的和独特的声音、节奏、旋律,甚至是一种全新的乐器。
不难想象,将来的工具能够交互式地帮忙人们发明咱们精力意象的惊人体现——“给我画一个海滩……不,我心愿是早晨……满月的时候…还有一只长颈鹿妈妈和一个婴儿在冲浪者旁边从水里进去”——通过与咱们的计算机助手互动交谈。
3.8 重要组成部分
联邦学习是一种弱小的机器学习办法,能够爱护用户隐衷,同时利用许多不同的客户端 (如挪动设施或组织) 合作训练一个模型,同时放弃训练数据的扩散这使得在大规模学习零碎中具备优越隐衷属性的办法成为可能。
钻研人员通过开发自适应学习算法、在联邦设置中模拟集中式算法的技术、对互补的明码图形协定的大幅改良等,持续推动联邦学习的艺术程度。
3.9Transformer
自人工智能畛域诞生以来,语言始终是该畛域倒退的外围,因为语言的应用和了解在咱们的日常生活中无处不在。因为语言波及符号,所以一开始很天然地促使人工智能采纳符号办法。但多年来,人工智能钻研人员逐步意识到,更多的统计或基于模式的办法能够产生更好的理论用处。正确的深度学习类型能够无效地示意和操纵语言的分层构造,用于各种事实世界的工作,从语言之间的翻译到图像标记。谷歌和其余中央在这一畛域的大部分工作当初依赖于变形金刚,这是一种最后为语言问题开发的非凡格调的神经网络模型(但越来越多的证据表明,它们也能够用于图像、视频、语音、蛋白质折叠和其余各种各样的畛域)。
曾经有几个在迷信设置中应用变形器的乏味例子,例如训练蛋白质序列以找到编码有意义的生物个性的示意,通过语言建模生成蛋白质,bio-BERT 用于生物医学数据中的文本开掘(应用事后训练的模型和训练代码),嵌入迷信文本(应用代码),以及医学问题答复。计算机科学家 Maithra Raghu 和 Eric Schmidt 对深度学习用于迷信发现的办法进行了全面的回顾。
3.10 计算机系统的机器学习
钻研人员还将机器学习利用于外围计算机科学和计算机系统自身的问题。这对机器学习和计算基础设施钻研来说是一个令人兴奋的良性循环,因为它能够减速咱们利用到其余畛域的所有技术。事实上,这一趋势正在催生全新的会议,如 MLSys 基于学习的办法甚至被利用于数据库索引、学习排序算法、编译器优化、图优化和内存调配。
4. 机器学习的将来
在 ML 钻研社区中呈现了一些乏味的钻研线索,如果把它们联合起来,可能会更加乏味。
首先,在稠密激活模型上的工作,比方稠密门控混合专家模型,展现了如何构建十分大的容量模型,其中对于任何给定的例子,只有模型的一部分被“激活”(比方,2048 个专家中只有 2 或 3 个专家)这些模型中的路由函数与不同的专家同时联结训练,使路由函数理解哪些专家擅长于哪类示例,而专家同时学习针对所给出的示例流的特色进行专门钻研。这与当初大多数的 ML 模型造成了显明的比照,在 ML 模型中,每个实例都要激活整个模型。钻研科学家 Ashish Vaswani 和他的共事们表明,这种办法在训练时效率进步了约 9 倍,在推理时效率进步了约 2.5 倍,而且更精确(+1 BLEU 点,对于语言翻译工作来说,这是一个绝对较大的准确性进步)。
其次,在自动化机器学习 (AutoML) 方面的工作,如神经构造搜寻或进化构造搜寻等技术能够主动学习无效的构造和机器学习模型或组件的其余方面,以优化给定工作的准确性,通常波及运行许多自动化试验,每一个可能波及大量的计算。
第三,在几个到几十个相干工作的适度规模上进行多任务训练,或者从一个相干工作的大量数据上训练的模型转移学习,而后对一个新工作的大量数据进行微调,曾经被证实对各种各样的问题都是十分无效的到目前为止,多任务机器学习的大多数利用通常是在繁多模态的状况下(如所有视觉工作或所有文本工作),只管多数作者也思考了多模态的设置。
一个特地乏味的钻研方向将这三种趋势联合在一起,即在大规模 ML 加速器硬件上运行一个零碎,指标是训练一个能够执行数千或数百万工作的繁多模型。这样的模型可能由不同构造的许多不同组件组成,示例之间的数据流在一一示例的根底上是绝对动静的。该模型可能会应用像稠密门控混合专家和学习路由这样的技术,以领有一个十分大的容量模型,但在这个模型中,给定的工作或示例只稀疏地激活零碎中总组件的一小部分(因而放弃每个训练示例或推理的计算成本和功耗低得多)。一个乏味的摸索方向是对不同的例子应用动静和自适应的计算量,这样“简略”的例子比“艰难”的例子应用的计算量要少得多(这在明天的机器学习模型中是一个绝对不寻常的个性)。图 1 形容了这样一个零碎。
每个组件自身可能正在运行一些相似于 automl 的体系结构搜寻,以便使组件的构造适应路由到该组件的数据类型如果有用,新工作能够利用在其余工作上训练的组件。心愿通过十分大规模的多任务学习、共享组件和学习路由,模型能够十分疾速地学习以较高的精度实现新工作,每个新工作的示例绝对较少(因为模型可能利用其在实现其余相干工作时曾经开发的专业知识和外部示意)。
在人工智能和计算机系统工程畛域,构建一个可能解决数百万个工作,并可能学习主动胜利实现新工作的繁多机器学习零碎是一个真正的微小挑战。它将须要在许多畛域的专业知识和提高,包含机器学习算法、偏心和可解释性等负责任的 AI 主题、分布式系统和计算机架构,从而通过构建一个能够在机器学习的所有应用领域中独立解决新工作的零碎来推动人工智能畛域的倒退。
4.1 负责任的 AI 开发
尽管人工智能有能力在咱们生存的许多方面帮忙咱们,但所有钻研人员和实践者都应该确保这些办法是负责任的开发——认真审查偏见、偏心、隐衷和其余社会思考因素,这些工具可能会如何体现和影响别人,并致力适当地解决这些思考因素。
制订一套明确的准则来领导负责任的倒退也很重要。2018 年,谷歌公布了一套人工智能准则,领导该公司在人工智能方面的工作和应用。人工智能准则列出了重要的思考畛域,包含机器学习零碎中的偏见、平安、偏心、问责、透明度和隐衷等问题。近年来,其余组织和政府也遵循这一模式,公布了本人对于人工智能应用的准则。很快乐看到更多的组织公布他们本人的指南,我心愿这一趋势将继续下去,直到它不再是一种趋势,而是所有机器学习钻研和开发的规范。
5. 总结
2010 年代是深度学习钻研和提高的黄金十年。在这十年里,该畛域在 1956 年发明了人工智能畛域的研讨会上提出的一些最艰难的问题畛域获得了微小的停顿。机器可能以晚期钻研人员所心愿的形式看、听和了解语言。
这些外围畛域的胜利使许多迷信畛域获得了微小的提高,使咱们的智能手机变得更加智能,并使咱们看到了将来的可能性,因为咱们持续在发明更简单和弱小的深度学习模型,以帮忙咱们的日常生活。在弱小无比的机器学习零碎的帮忙下,咱们的将来将变得更有创造力、更有能力。我急不可待地想看看将来会产生什么!
作者注:
Alison Carroll, Heather Struntz 和 Phyllis Bendell 帮忙编辑了这份手稿,并对如何出现大部分资料提出了许多有用的倡议。
©2022 由 Jeffrey Dean 提供。在 CC BY-NC 4.0 许可下公布。