关于人工智能:芯片设计花招已耍完无指令集架构颠覆旧套路

4次阅读

共计 7784 个字符,预计需要花费 20 分钟才能阅读完成。

[]()

日前,英伟达在 GTC 大会上公布了最新一代 GPU H100,采纳台积电 4nm 工艺,集成了 800 亿个晶体管。3 月初,苹果公布了 M1 Ultra 芯片,更是集成了高达 1140 亿个晶体管。显然,头部厂商都在推动现有芯片设计和制作技术的极限,但问题是,当这些“把戏”用完后怎么办?

在面向 AI 负载的新锐芯片守业企业里,SambaNova 和 Tenstorrent 都足够引人注目,他们都能够视作为数据流架构专门设计的软硬件零碎。据公开材料,他们都非常强调编译器软件的重要性,尽管硬件是重配置的,但重配置计划却是编译器实现的,其中最外围的问题是解决 placement 和 routing 问题,看上去他们都解决得不错。

其实,在这两家企业之前曾经有“先烈”公司 Wave Computing 走过这条路,但可怜没有走通。其实所有这些致力背地能够追溯到VLIW。Wave Computing 破产之后,CEO Peter Foley 卷土重来,在 Ascenium 公司持续向 VLIW 架构冲锋,看上去他信念满满,确实该到通关的地步了。

作者|Timothy Prickett Morgan

翻译|刘晓祯、张雨珊、胡燕君、徐晨阳、沈佳丽、周亚坤

在任何架构中总有一些必不可少的、基础性的且毋庸置疑的性能。直到某个聪慧的架构设计师呈现,才通知咱们状况并非如此。建筑物和桥梁是这样,零碎及其处理器同样也是如此。这就是为什么咱们用同一个词“架构设计师”来形容设计宏观和宏观构造的人。

Ascenium 公司的联结创始人兼 CEO Peter Foley 就是这样一位架构师,该公司刚刚在 2021 年 A 轮融资中筹集到 1600 万美元。Foley 和他率领的 Ascenium 团队想摒弃古代 CPU 中的很多架构,从头开始开发 Foley 所谓的由软件定义的、可间断重配置的处理器。Foley 说,之所以有必要拆解处理器,再以一种全然不同的新形式构建它,是因为以后 CPU 的架构技巧曾经用完了。

先介绍下 Foley,再谈 Ascenium 公司正在开发的 Aptos 处理器架构,以及它将如何撼动 CPU 市场。

Foley 涉猎宽泛、见识极深,这使他走到了明天这一步。他先在莱斯大学取得了电子工程学士学位,之后在加州大学伯克利分校取得硕士学位。在伯克利时,Foley 与 David Patterson(Google Brain 团队成员)和 Alvin Despain(美国电气工程师,曾任 Acorn Technologies 联结创始人兼 CTO)一起用 Smalltalk 语言做 RISC(SOAR)芯片我的项目。

毕业后,Foley 退出苹果公司开始研发 Mac 和 Mac II 电脑中的各种芯片,1987 年,他成为研发“牛顿个人数字助理机(PDA)”的四个原始成员之一。PDA 是 iPad 平板电脑的前身,但过后还没人晓得。值得一提的是,Foley 负责开发用于 PAD 的“Hobbit”处理器。来到苹果后,他退出了第三方 GPU 供应商 SuperMac,之后在 Chromatic Research 公司开发可编程的 VLIW 和 SIMD 媒体解决加速器。

Foley 在风投公司 Benchmark Capital 做了一段时间的入驻企业家,而后创建了 nBand Communications,并发明了软件定义的宽带无线播送(相似于 WiMAX,而不是 5G,说实话,在少数中央这更像是 4.1G)。

而后,他在 Predicant Biosciences 公司做了近四年的工程副总裁,该公司开发了用于扫描血液蛋白中是否有癌症的诊断设施。之后,他在风投公司 Tallwood 做了近四年的驻校执行官。

经验这所有之后,特地是在 2009 年 12 月,Foley 意识到减速计算前景黯淡,就成立了人工智能芯片守业公司 Wave Computing 并负责 CEO。值得注意的是,Foley 来到了 Wave Computing,数年间,这家公司通过简单的交易把技术受权给中国企业,还收买了 MIPS 芯片公司。而 MIPS 芯片公司自从硅图公司(SGI, Silicon Graphics)十几年前将其分离出来之后,就在不停被转手。最初,Wave Computing 在 2020 年 4 月不得不申请破产重组。

精确来说,Foley 是在 2016 年 6 月来到的 Wave Computing,并开始经营本人的征询业务,直到 2019 年 6 月,他以 CEO 的身份退出于 2018 年 3 月成立的 Ascenium 公司。

Ascenium 公司取得了 900 万美元的天使轮融资和 1600 万美元的 A 轮融资。投资方 Stavanger Ventures AS 是一家风投公司,由挪威企业家 Espen Fjogstad 经营,他创建的公司曾被 eBay 和谷歌收买,还有多家公司在奥斯陆证券交易所上市;其中有几家公司是做储层建模(reservoir modeling)的,期间在北海石油热潮中派上了用场。自 20 世纪 70 年代末起,北海石油热潮为英国和挪威的经济注入了新的生机(油价在升高,技术也在倒退,而海上钻探石油是经济型的)。

据理解,Ascenium 最早成立于 2005 年之前,过后它的创始人兼 CTO Robert Mykland 在 Hot Chips 会议上做了一个演讲

https://llvm.org/ProjectsWith…)。该公司已取得九项专利,在诉讼频发的半导体畛域,这些专利很有用。Ascenium 目前的实体公司成立于 2019 年 6 月,致力于充分利用和倒退 Foley、Oyvind Harboe 和 Tore Bastiansen 的研究成果。

“牛顿个人数字助理机(PDA)”过后当先于时代,根据摩尔定律,在芯片和网络的倒退迎头赶上后,咱们才真正有了 PDA。相似地,兴许咱们必须等到摩尔定律终结后,能力去思考 Robert Mykland(Ascenium 的 CTO)早在 16 年前就提倡的观点。

在理解背景信息后,咱们与 Foley 聊了 Ascenium 正在研发的处理器,它并没有如咱们熟知的那样有一个指令集,而是试图通过 Aptos 处理器从新定义软件编译器和底层硬件之间的接口。Aptos 处理器是一个由 64 位计算单元组成的可编程阵列。上面是一个大略的结构图,有点含糊,因为 Ascenium 目前还比拟神秘。

[]()

以下是与 Foley 的对话。

1

摒弃旧传统的“无指令集架构”

Timothy Prickett Morgan: 我如同看到的是一个没有指令集架构的处理器。我看了两遍,而后摇摇头说,这是个什么货色?它胜利地引起了我的留神。

Peter Foley: 我之前在 Tallwood 时,老板 Dado Banatao 说过,现在市场微小、尚未复苏,对于翻新来讲,机会曾经成熟。咱们的使命就是,带着齐全不同的新事物进入这个微小的市场。

咱们认为它必须是齐全不同的架构,如果你始终在同一个沙盒里恪守同一套规定——就是说指令集架构,你得有串行指令流进入带有深层管道的乱序发射处理器(out-of-order issue machine)——我就不细说了,如果你恪守这些规定,就赢不了。 看看那些 ARM 牺牲品:Calxeda,Cavium,Broadcom 等等。

TPM: 的确有很多牺牲品,价值几十亿美元的牺牲品。

Peter Foley: 高通公司曾经尝试过两次,他们仍在致力。在单核、单线程的 SPECint 上击败 Intel 很艰难,这才是人们真正关怀的问题。

TPM: AMD 正在做这件事。

Peter Foley: 是的,但 AMD 依然用的是 X86 架构,而且他们有许可证。AMD 当初能够说是在某种程度上战胜了 Intel,但这很大水平上与 Intel 在晶圆厂抉择的失误无关,而 AMD 应用的是台积电(TSMC),因而他们在一段时间内有节点劣势。

TPM: 我最近写了一篇文章,还没发表,我说 AMD 史上最好的音讯就是 GlobalFoundries(半导体晶圆代工厂商)搞砸了 14 纳米技术,但 IBM 把本人的微电子部门卖给了 GlobalFoundries,这起到了作用,而后 10 纳米的确搞砸了。因为在那之后,AMD 不得不采纳台积电的 7 纳米制程,同时 Intel 在 10 纳米上遇到了大问题。AMD 总能设计出优质的芯片,但 Intel 的晶圆代工问题影响太大了。

Peter Foley: 你说得对。架构微调,再投入几十亿个晶体管,这些都是主要的。然而,摩尔定律和 Dennard 缩放比例定律并不匹配,因为这些架构非常复杂,必须投入几十亿个晶体管,能力进步 5%、10%、20% 的性能。问题是这样一来温度就太高了,你要么调小时钟,要么关掉局部模具——而后就有了暗硅问题。

TPM: 我始终在说把时钟调小,让内存和 CPU 回到靠近相位的状态,因为你在大部分工夫都只是在旋转时钟来期待。所以还不如慢一点,不要期待。为了在 GPU 上运行,咱们必须并行化代码,所以要让 CPU 看起来像 GPU,并通过这种形式进步其解决能力。

Peter Foley: 英伟达的 Ampere GPU 也有这个问题。它们发热比拟厉害,即便时钟较慢,也有 400 瓦,这意味着 Ampere 不能在 PCI 板上应用,而要从新设计,使其适宜 300 瓦的 PCI-Express。

TPM: 所以,我认为这为 Ascenium 试图做的事件奠定了根底。

Peter Foley: 咱们正在做的事件将是十分不同的。这个想法是让咱们从新定义编译器和硬件之间的划分(partitioning),它建设在 50 年前应用 ISA 的 IBM 大型机以及起初的 RISC 机器上。

过后,你有一个三阶段或五阶段的流水线,编译器能解决的货色比拟无限,因为你没有太多的马力。但这在过后仿佛是一个很好的分工了。问题是,这种 API 划分曾经变得十分古老,50 年后的明天,随着计算能力的进步,以及我提到的 Dennard 缩放比例定律和将晶体管放在一个乱序架构中的问题,这种划分曾经不能真正发挥作用。

当初是从新思考的时候了,咱们应该摒弃与旧 ISA 相干的所有内容:深层流水线、乱序、从新排序、重命名、转发、运行时分支预测,把这些货色统统丢掉。

TPM: 那还剩下什么呢?你刚刚说要丢掉的货色,基本上就是我所了解的所有了。

Peter Foley: 咱们当初有一些要害的推动因素了,一个是当初有大量的马力用于编译器。 所以你能够让更简单的编译器做更多的工作,因为有足够的马力来做。

另一个驱动因素是,如果你打算应用一种基于阵列的办法,间接由编译器进行极细粒度的管制的话,这就有点像你把一个容量宏大的微码放到基于阵列的机器里,那么你应用的编译器通常是一维的。会生成一串指令流,而后你会把指令发给硬件,硬件必须提取所有的并行,实现所有事。与此相反,咱们说要让编译器实现大量的工作,深刻地理解整个程序,并且进行更加简单的优化。 当初的编译器是 5D 编译器,它须要做 2D 布局、2D 布线以及调度,所以还有更多工作要做。

[]()

因为咱们瞄准的市场是数据中心,所以能够始终从新编译。咱们能够花 15 分钟到半个小时进行编译,而后在数据中心运行 1000 万次,并播种能耗回报。从对能耗的全面关注来看,这种计算形式也产生了变动。

因而,值得一试的是是否花更多工夫在一个非常复杂的 2D 计算阵列上,这个阵列由一个有微小容量微码的编译器间接管制。如果能节俭 5% 或 10% 的功耗,这就是值得的。如果你能做到的话,超大规模企业将极力邀请你接入他们的数据中心。

说到 Ascenium 的 Aptos 处理器和咱们的方法,其实还有一个要害的驱动因素。我始终都在深究这个问题,这也是我为这家公司所做的一点奉献。我意识到了这一点,并且认为这确实会对 Ascenium 以后的工作产生肯定的影响。

一家名为 Tabula 的公司也遇到了相似的问题。他们在软件工作时遇到了真正的难题,后果还是在他们做第二次还是第三次尝试时引入了束缚求解器,这才解决。Tabula 应用基于 SAT 求解器的办法来编译后端。咱们在 Wave Computing 时也采取了同样的方法,起初我又把这项技术带到了 Ascenium。

[]()

咱们有一个规范的 LLVM 编译器基础设施,外加一个新的 LLVM 后端,次要面向适宜束缚求解器的硬件。它就像一个黑匣子,如果你有一个非常简单的规定架构,都能够在一组逻辑方程中残缺地形容行为,无论是在工夫还是物理上,那么咱们的 SAT 求解器能够剖析、解读它,并给出数学上的最佳证实后果。

这是很难被超过的。永远不能在一个简单、异构、无序的体系结构上应用束缚求解器。 算了吧,那是在浪费时间。但在咱们的场景,这是可行的。

当探讨整个程序时,SAT 求解器办法的数学最佳证实后果是夸大其词的。从数学上,它对于代码块来说是最佳的。但对于整个程序来说,计算起来却有些辣手。

这些代码块就不得不拼接在一起。所以 SAT 求解器窗口贯通整个代码,将编译后的窗口拼接在一起(这会升高效率)。因而,公司的窍门之一就是晓得如何最优地宰割、编译和拼接 SAT 编译过的程序块。

咱们的想法是使芯片的架构尽可能简略,这样把它装置到 SAT 求解器上后就会失去令人诧异的、最佳的 5D 解决方案。 这就是一场赌注:除了要跳出 X86 和 ARM 沙盒,还得有一个 IP 革除办法,这很重要。这又是另一个问题了:如果你试图和这些 CPU 架构开展角逐的话,就会撞上微小的 IP 墙。一旦你开始对他们构成威胁,他们就会马上起诉你。这就是生意,对吧?

2

通过架构简化开释性能

TPM: 所以这是一种做到极致的 RISC 吗?

Peter Foley: 没错。而且我就是做这个出身的。很久之前,我在伯克利的时候,在一个芯片钻研团队跟 David Patterson 一起钻研 Smalltalk 语言。我的整个职业生涯简直都在钻研处理器,而且绝大部分都是 RISC 处理器。

TPM: 我感觉这能够称得上是 NISC(无指令集计算)了,因为是把 RISC(精简指令集计算)做到了极致,对吧。

Peter Foley: 哈哈,没错!但说实话,束缚求解器当初是个热门话题,能够说席卷了整个 EDA(电子设计自动化)行业。实质上,咱们当初做的事件其实更属于 EDA 问题,而不是传统的编译问题。有点像把一个残缺的 Xilinx 或 Altera FPGA 后端联合到编译器里,因为它们的很多性能和 FPGA 查找表构造中的搁置、布线、调度是差不多的。咱们做的事件和这个很像,只是咱们把指标放在通用计算引擎。束缚求解器当初正在很多其余中央使用,但把它用在通用计算上,是咱们的创举。目前咱们正在致力申请知识产权和专利等,心愿获得先发劣势。

TPM: 所以这有点像是 FPGA 数据流引擎和 CPU 之间的货色,能不能这么了解?

Peter Foley: 能够这样说。不过咱们这个是通用处理器,并不像 FPGA 那样用查找表构造来模仿硬件的。

还有一点挺有意思的,在 X86 指令流里,至多 50% 的指令都是和数据搬运相干的挪动指令,而理论运算的指令,比方加减乘之类的,大略只占 20%。但在咱们的处理器中,编译器能够用同一套管制字亲密管制所有,也就是说,数据搬运、运算、设置文本流方向、布线等等,都能够由编译器通过阵列中的同一管制字同时管制。所以,咱们的产品中不存在序列化,当指令汇入只执行搬运的架构时也不会呈现阿姆达尔定律带来的毛病,因为所有都由编译器实现了。

编译器须要同时跟踪很多货色。但在典型的乱序机器中,有大批量的重命名正在执行,这是非常复杂的,须要阵列中有短缺的资源来高效执行这种超大容量的分布式重命名。因而咱们采纳了分布式内存,并通过大量复用来缩小进入典型寄存器堆(Register File)的流量,这样一来就能够实现简化。能够说,咱们基本上没有解决流程,所以分支暗影(branch shadow)特地短。这就是咱们的独特之处。

TPM: 所以能够说,惠普和英特尔联合开发了 EPIC(显式并行指令计算),而后嫁接到一个相似 X86,但又不如它的货色上,就做出了 Itanium(安腾)。而当初你们摒弃了惠普和英特尔的成绩,只保留了 EPIC 的局部……

Peter Foley: 我猜你下一句可能会问,这是真的吗?

TPM: 也不全是。你要了解一下咱们,所有的 AI 初创公司来到咱们这儿,我和 Nicole(TPM 的搭档)都会开他们的玩笑,这些公司的硬件都做得不错,而后娓娓而谈他们开发进去的编译器有如许厉害。他们总是先铺垫介绍一番,而后说“咱们的编译器能够把这些问题通通解决”。但你所说的编译器是我目前听过最神奇的。所以,如果我持狐疑态度的话,那可能是因为我兴许还不太理解……

Peter Foley: 咱们的投资者之所以违心投资 A 轮,帮忙公司进一步倒退,其中一个起因是咱们曾经证实了本人可能在 5 到 10 分钟内编译出 70 万行代码,并在 FPGA 原型上胜利运行。这正是咱们这个架构让人眼前一亮的中央:它非常简单,以至于你能够在 FPGA 上制作原型。

TPM: 更精确地说,这难道不就是把四块板组合起来模仿一块小型芯片吗?而后每块板上都装备了八个 FPGA,还是最贵的那种。

Peter Foley: 当然不是。不同于 Paladium 仿真器,咱们用的只是一块中档的 FPGA 板,不然可就累赘不起了。

咱们能够运行 700,000 行代码,其中包含 SPEC 中用到的 C 语言规范库。咱们将这些代码编译好,并在咱们的 FPGA 测试平台上运行。FPGA 测试平台并不是残缺的架构,它只是整体架构的一部分,并且得出性能正确的后果。咱们有大量的符号调试器和其余一些基础设施来辅助此类操作。

TPM: 当它成为产品时会是什么样子呢,而你又将如何采购它?

Peter Foley: 咱们正尝试在两个最重要的指标上取胜。第一个是 SPECint 性能, 咱们个别通过指令 / 时钟(IPC)来掂量,但它其实不是一个很好的衡量标准。但咱们有一个指标,即咱们的每个管制字中执行的工作就相当于 X86 指令。若从后果和优化的角度来评估编译器品质的话,下一步咱们打算在 IPCW、指令 / 管制字、以及 IPC 等值这些方面做相应调整。这一步对于超大规模的处理器来说至关重要。

TPM: 你们这齐全是在赌一把。

Peter Foley:另一个指标则是功耗。 咱们的想法是要把这两个指标都拿下,并且对此胜券在握。为了降低功耗,咱们去掉了所有的晶体管。

TPM: 所以,你看了一下须要拿掉多少个晶体管才行,对吗?

Peter Foley: 很少,也就比 X86 少很多。

TPM: 大略是一个数量级还是三倍?

Peter Foley: 应该是一个数量级。目前也还没有定论,所以我暂不分明具体的数字。咱们花这笔钱就是为了弄清这件事。咱们会将微架构具体化并且敲定下来,而后构建一些试验硅(trial silicon),并失去 5 纳米工具,或者其余咱们所需的货色,而后去构建这个微架构并进行布局。

这是构建处理器的其中一步,要做的就是解决所有的几何图形。这一步是为了解决空间提早和间隔限度。布局决定了许多因素,这些因素又会进而影响微架构。因而,咱们必须解决好这些问题,同时还要注意其余问题。一旦咱们开始深入研究这些问题,就能更加自信地通知你那个数字到底是多少。

TPM: 所以,如果要我来总结一下 Aptos 架构的话,那就是降低功耗、优化性能——但你却并不需要提价。

Peter Foley: 是的,没错。这样咱们就不用花大价格应用 ARM 架构了。

(本文已获取编译受权,原文:

https://www.nextplatform.com/…)

OneFlow v0.7.0 最新版本已公布,欢送下载体验: https://github.com/Oneflow-In…

正文完
 0