关于google:谷歌深度学习找到-AI-芯片关键路径机器学习开始用于优化芯片架构

96次阅读

共计 2801 个字符,预计需要花费 8 分钟才能阅读完成。

Google Brain 总监 Jeff Dean 曾指出,在某些状况下,人工智能的深度学习模式在如何安排芯片中的电路方面能够比人类做出更好的决策。

本月,谷歌在 arXiv 文件服务器上发表了一篇名为“Apollo: Transferable Architecture Exploration”的论文。Apollo 打算代表了一种乏味的倒退,它超过了 Jeff Dean 一年前所讲的货色。相比之下,Apollo 打算执行的是“架构摸索”而不是平面图。

Apollo 打算是超过“布局和路线”的“架构摸索”

这篇论文的次要作者 Amir Yazdanbakhsh 说:“在计算堆栈中,架构摸索比布局路线的摸索要高级得多。”

在 Jeff Dean 过后给出的例子中,机器学习能够用于一些低层次的设计决策,即“布局和路线”。在地位和门路上,芯片设计者应用软件来确定形成芯片操作的电路的布局,相似于设计建筑物的平面图。

而芯片的体系结构是芯片性能元素的设计,包含如何交互,以及软件程序员应该如何拜访这些性能元素。

例如,经典的 Intel x86 处理器具备肯定数量的片上存储器、专用的算术逻辑单元和一些寄存器等等。这些局部组合在一起的形式赋予了所谓的英特尔架构的意义。

当被问及 Jeff Dean 的形容时,Yazdanbakhsh 示意,“咱们的工作和布局布局我的项目与 Jeff Dean 所讲的是相互配合且互补的。”

Yazdanbakhsh 说:“我认为,在架构摸索中,存在更高的性能改良余地。”

Yazdanbakhsh 和他的共事们称 Apollo 为“第一个可转移的架构摸索根底构造”,这是第一个在摸索可能的芯片架构方面做得更好的程序,它在不同的芯片上工作得越多,越能更好地摸索可能的芯片体系结构,从而将学到的常识转移到每个新工作上。

摸索不同开发方法,依据工作负载进行调整

Yazdanbakhsh 和团队正在开发的芯片自身就是用于 AI 的芯片,称为加速器。该芯片与 Nvidia A100“Ampere”GPU,Cerebras Systems WSE 芯片以及目前投放市场的许多其余启动部件属于同一类。因而,应用 AI 设计运行 AI 的芯片具备很好的对称性。

鉴于工作是设计一个 AI 芯片,Apollo 程序正在摸索的架构是适宜运行神经网络的架构。这意味着大量的线性代数,许多简略的数学单位,执行矩阵乘法和求和的后果。

团队将挑战定义为找到适宜给定 AI 工作的这些数学块的正确组合之一。他们抉择了一个相当简略的 AI 工作,即一个称为 MobileNet 的卷积神经网络,由谷歌的 Andrew g. Howard 和他的共事在 2017 年设计。

此外,他们还应用几个外部设计的网络测试工作负载,这些网络用于实现指标检测和语义宰割等工作。

通过这种形式,指标就变成了: 对于一个给定的神经网络工作,芯片的构造的正确参数是什么?

整个搜寻过程包含对超过 4.52 亿个参数进行排序,其中包含将应用多少被称为处理器元素的数学单元,以及对于给定的模型有多少参数内存和激活内存是最优的。

Apollo 是一个框架,这意味着它能够采纳文献中为所谓的黑盒优化开发的各种办法,并且它能够依据特定的工作负载调整这些办法,并比拟每种办法在解决指标方面的体现。

在另一个很好的对称性中,Yazdanbakhsh 采纳了一些优化办法,这些办法实际上是为开发神经网络架构而设计的。包含 2019 年由 Quoc v. Le 和他在谷歌的共事开发的所谓的进化办法; 基于模型的强化学习办法,以及由 Christof Angermueller 和其他人在 Google 上为“设计”DNA 序列而开发的所谓的基于人口的办法汇合; 以及贝叶斯优化办法。

进化和基于模型的办法优于随机抉择和其余办法

Apollo 蕴含了对称性的次要档次,将为神经网络设计和生物合成设计的办法联合起来,设计可能反过来用于神经网络设计和生物合成的电路。

比拟所有这些优化,这正是 Apollo 框架的亮点所在。它的整个存在目标是井井有条地采纳不同的办法,并且通知人们什么办法最无效。Apollo 试验后果具体阐明了进化和基于模型的办法如何优于随机抉择和其余办法。

但 Apollo 最引人注目的发现是,如何运行这些优化办法,能够使过程比暴力搜寻法更有效率。例如,他们将基于群体的集成办法与他们所说的对体系结构办法的解决方案集的半穷尽搜寻进行了比拟。

Yazdanbakhsh 和他的共事们看到的是,基于人群的办法可能发现利用电路中衡量取舍的解决方案,比方计算和内存,这通常须要特定畛域的常识。因为基于人群的办法是一种习得的办法,因而它可能找到半详尽搜寻无奈找到的解决方案。

实际上,P3BO(基于总体的黑盒优化)发现的设计比半详尽的 3k 样本搜寻空间更好。这种设计应用了十分小的内存(3MB),以反对更多的计算单元。这利用了视觉工作负载的计算密集型个性,这在原始的半详尽搜寻空间中是不蕴含的。这表明手动搜寻空间工程须要半详尽的办法,而基于学习的优化办法利用大的搜寻空间缩小手动工作。

因而,Apollo 可能计算出不同的优化办法在芯片设计中的体现。然而,它还能够做更多的事件,能够运行所谓的迁徙学习来展现如何反过来改良这些优化办法。

通过运行优化策略以将芯片设计改良一个设计点,例如以毫米为单位的最大芯片尺寸,这些试验的后果便能够作为输出输出到随后的优化办法中。Apollo 团队发现,各种优化办法通过利用初始或种子优化办法的最佳后果,进步了它们在相似区域束缚电路设计这样的工作中的性能。

所有这些必须被这样一个事实所包含: 为 MobileNet 或任何其余网络或工作负载设计芯片受设计过程对给定工作负载的适用性的限度。

事实上,该论文的作者之一,Berkin Akin 帮忙开发了 MobileNet 版本 MobileNet Edge,他指出优化是芯片和神经网络优化的产物。

Berkin Akin 在去年和共事共同完成的一篇论文中写道:“神经网络架构必须理解指标硬件架构,以优化整体零碎性能和能源效率。”

当从神经网络结构设计中分离出来时,硬件设计的价值有多大?

Berkin Akin 认为,Apollo 对于给定的工作量来说可能曾经足够了,然而芯片和神经网络之间的协同优化,将在将来产生其余的益处。

他说:“在某些状况下,咱们须要为给定的一组固定神经网络模型设计硬件。这些模型能够是来自硬件指标应用程序域的曾经高度优化的代表性工作负载的一部分,也能够是定制加速器用户所需的一部分。在这项工作中,咱们正在解决这种性质的问题,咱们应用机器学习来为给定的工作负载套件找到最好的硬件架构。然而,在某些状况下,联结优化硬件设计和神经网络体系结构是具备灵活性的。事实上,咱们有一些正在进行的工作,这样的联结优化,咱们心愿可能产生更好的衡量。”

最初的论断是,即便芯片设计正在受到人工智能新工作负载的影响,芯片设计的新过程可能对神经网络的设计产生可掂量的影响,这种辩证法可能在将来几年以乏味的形式倒退。

正文完
 0