[]()

日前，英伟达在GTC大会上公布了最新一代GPU H100，采纳台积电4nm工艺，集成了800亿个晶体管。3月初，苹果公布了M1 Ultra芯片，更是集成了高达1140亿个晶体管。显然，头部厂商都在推动现有芯片设计和制作技术的极限，但问题是，当这些“把戏”用完后怎么办？

在面向AI负载的新锐芯片守业企业里，SambaNova和Tenstorrent都足够引人注目，他们都能够视作为数据流架构专门设计的软硬件零碎。据公开材料，他们都非常强调编译器软件的重要性，尽管硬件是重配置的，但重配置计划却是编译器实现的，其中最外围的问题是解决placement和routing问题，看上去他们都解决得不错。

其实，在这两家企业之前曾经有“先烈”公司Wave Computing走过这条路，但可怜没有走通。其实所有这些致力背地能够追溯到VLIW。Wave Computing破产之后，CEO Peter Foley卷土重来，在Ascenium公司持续向VLIW架构冲锋，看上去他信念满满，确实该到通关的地步了。

作者｜Timothy Prickett Morgan

翻译｜刘晓祯、张雨珊、胡燕君、徐晨阳、沈佳丽、周亚坤

在任何架构中总有一些必不可少的、基础性的且毋庸置疑的性能。直到某个聪慧的架构设计师呈现，才通知咱们状况并非如此。建筑物和桥梁是这样，零碎及其处理器同样也是如此。这就是为什么咱们用同一个词“架构设计师”来形容设计宏观和宏观构造的人。

Ascenium公司的联结创始人兼CEO Peter Foley就是这样一位架构师，该公司刚刚在2021年A轮融资中筹集到1600万美元。Foley和他率领的Ascenium团队想摒弃古代CPU中的很多架构，从头开始开发Foley所谓的由软件定义的、可间断重配置的处理器。Foley说，之所以有必要拆解处理器，再以一种全然不同的新形式构建它，是因为以后CPU的架构技巧曾经用完了。

先介绍下Foley，再谈Ascenium公司正在开发的Aptos处理器架构，以及它将如何撼动CPU市场。

Foley涉猎宽泛、见识极深，这使他走到了明天这一步。他先在莱斯大学取得了电子工程学士学位，之后在加州大学伯克利分校取得硕士学位。在伯克利时，Foley与David Patterson（Google Brain团队成员）和Alvin Despain（美国电气工程师，曾任Acorn Technologies联结创始人兼CTO）一起用Smalltalk语言做RISC（SOAR）芯片我的项目。

毕业后，Foley退出苹果公司开始研发Mac和Mac II电脑中的各种芯片，1987年，他成为研发“牛顿个人数字助理机（PDA）”的四个原始成员之一。PDA是iPad平板电脑的前身，但过后还没人晓得。值得一提的是，Foley负责开发用于PAD的“Hobbit”处理器。来到苹果后，他退出了第三方GPU供应商SuperMac，之后在Chromatic Research公司开发可编程的VLIW和SIMD媒体解决加速器。

Foley在风投公司Benchmark Capital做了一段时间的入驻企业家，而后创建了nBand Communications，并发明了软件定义的宽带无线播送（相似于WiMAX，而不是5G，说实话，在少数中央这更像是4.1G）。

而后，他在Predicant Biosciences公司做了近四年的工程副总裁，该公司开发了用于扫描血液蛋白中是否有癌症的诊断设施。之后，他在风投公司Tallwood做了近四年的驻校执行官。

经验这所有之后，特地是在2009年12月，Foley意识到减速计算前景黯淡，就成立了人工智能芯片守业公司Wave Computing并负责CEO。值得注意的是，Foley来到了Wave Computing，数年间，这家公司通过简单的交易把技术受权给中国企业，还收买了MIPS芯片公司。而MIPS芯片公司自从硅图公司（SGI, Silicon Graphics）十几年前将其分离出来之后，就在不停被转手。最初，Wave Computing在2020年4月不得不申请破产重组。

精确来说，Foley是在2016年6月来到的Wave Computing，并开始经营本人的征询业务，直到2019年6月，他以CEO的身份退出于2018年3月成立的Ascenium公司。

Ascenium公司取得了900万美元的天使轮融资和1600万美元的A轮融资。投资方Stavanger Ventures AS是一家风投公司，由挪威企业家Espen Fjogstad经营，他创建的公司曾被eBay和谷歌收买，还有多家公司在奥斯陆证券交易所上市；其中有几家公司是做储层建模（reservoir modeling）的，期间在北海石油热潮中派上了用场。自20世纪70年代末起，北海石油热潮为英国和挪威的经济注入了新的生机（油价在升高，技术也在倒退，而海上钻探石油是经济型的）。

据理解，Ascenium最早成立于2005年之前，过后它的创始人兼CTO Robert Mykland在Hot Chips会议上做了一个演讲

（https://llvm.org/ProjectsWith…）。该公司已取得九项专利，在诉讼频发的半导体畛域，这些专利很有用。Ascenium目前的实体公司成立于2019年6月，致力于充分利用和倒退Foley、Oyvind Harboe和Tore Bastiansen的研究成果。

“牛顿个人数字助理机（PDA）”过后当先于时代，根据摩尔定律，在芯片和网络的倒退迎头赶上后，咱们才真正有了PDA。相似地，兴许咱们必须等到摩尔定律终结后，能力去思考Robert Mykland（Ascenium的CTO）早在16年前就提倡的观点。

在理解背景信息后，咱们与Foley聊了Ascenium正在研发的处理器，它并没有如咱们熟知的那样有一个指令集，而是试图通过Aptos处理器从新定义软件编译器和底层硬件之间的接口。Aptos处理器是一个由64位计算单元组成的可编程阵列。上面是一个大略的结构图，有点含糊，因为Ascenium目前还比拟神秘。

[]()

以下是与Foley的对话。

摒弃旧传统的“无指令集架构”

Timothy Prickett Morgan： 我如同看到的是一个没有指令集架构的处理器。我看了两遍，而后摇摇头说，这是个什么货色？它胜利地引起了我的留神。

Peter Foley： 我之前在Tallwood时，老板Dado Banatao说过，现在市场微小、尚未复苏，对于翻新来讲，机会曾经成熟。咱们的使命就是，带着齐全不同的新事物进入这个微小的市场。

咱们认为它必须是齐全不同的架构，如果你始终在同一个沙盒里恪守同一套规定——就是说指令集架构，你得有串行指令流进入带有深层管道的乱序发射处理器（out-of-order issue machine）——我就不细说了，如果你恪守这些规定，就赢不了。 看看那些ARM牺牲品：Calxeda，Cavium，Broadcom等等。

TPM： 的确有很多牺牲品，价值几十亿美元的牺牲品。

Peter Foley： 高通公司曾经尝试过两次，他们仍在致力。在单核、单线程的SPECint上击败Intel很艰难，这才是人们真正关怀的问题。

TPM： AMD正在做这件事。

Peter Foley： 是的，但AMD依然用的是X86架构，而且他们有许可证。AMD当初能够说是在某种程度上战胜了Intel，但这很大水平上与Intel在晶圆厂抉择的失误无关，而AMD应用的是台积电（TSMC），因而他们在一段时间内有节点劣势。

TPM： 我最近写了一篇文章，还没发表，我说AMD史上最好的音讯就是GlobalFoundries（半导体晶圆代工厂商）搞砸了14纳米技术，但IBM把本人的微电子部门卖给了GlobalFoundries，这起到了作用，而后10纳米的确搞砸了。因为在那之后，AMD不得不采纳台积电的7纳米制程，同时Intel在10纳米上遇到了大问题。AMD总能设计出优质的芯片，但Intel的晶圆代工问题影响太大了。

Peter Foley： 你说得对。架构微调，再投入几十亿个晶体管，这些都是主要的。然而，摩尔定律和Dennard缩放比例定律并不匹配，因为这些架构非常复杂，必须投入几十亿个晶体管，能力进步5%、10%、20%的性能。问题是这样一来温度就太高了，你要么调小时钟，要么关掉局部模具——而后就有了暗硅问题。

TPM： 我始终在说把时钟调小，让内存和CPU回到靠近相位的状态，因为你在大部分工夫都只是在旋转时钟来期待。所以还不如慢一点，不要期待。为了在GPU上运行，咱们必须并行化代码，所以要让CPU看起来像GPU，并通过这种形式进步其解决能力。

Peter Foley： 英伟达的Ampere GPU也有这个问题。它们发热比拟厉害，即便时钟较慢，也有400瓦，这意味着Ampere不能在PCI板上应用，而要从新设计，使其适宜300瓦的PCI-Express。

TPM： 所以，我认为这为Ascenium试图做的事件奠定了根底。

Peter Foley： 咱们正在做的事件将是十分不同的。这个想法是让咱们从新定义编译器和硬件之间的划分（partitioning） ，它建设在50年前应用ISA的IBM大型机以及起初的RISC机器上。

过后，你有一个三阶段或五阶段的流水线，编译器能解决的货色比拟无限，因为你没有太多的马力。但这在过后仿佛是一个很好的分工了。问题是，这种API划分曾经变得十分古老，50年后的明天，随着计算能力的进步，以及我提到的Dennard缩放比例定律和将晶体管放在一个乱序架构中的问题，这种划分曾经不能真正发挥作用。

当初是从新思考的时候了，咱们应该摒弃与旧ISA相干的所有内容：深层流水线、乱序、从新排序、重命名、转发、运行时分支预测，把这些货色统统丢掉。

TPM： 那还剩下什么呢？你刚刚说要丢掉的货色，基本上就是我所了解的所有了。

Peter Foley： 咱们当初有一些要害的推动因素了，一个是当初有大量的马力用于编译器。 所以你能够让更简单的编译器做更多的工作，因为有足够的马力来做。

另一个驱动因素是，如果你打算应用一种基于阵列的办法，间接由编译器进行极细粒度的管制的话，这就有点像你把一个容量宏大的微码放到基于阵列的机器里，那么你应用的编译器通常是一维的。会生成一串指令流，而后你会把指令发给硬件，硬件必须提取所有的并行，实现所有事。与此相反，咱们说要让编译器实现大量的工作，深刻地理解整个程序，并且进行更加简单的优化。 当初的编译器是5D编译器，它须要做2D布局、2D布线以及调度，所以还有更多工作要做。

[]()

因为咱们瞄准的市场是数据中心，所以能够始终从新编译。咱们能够花15分钟到半个小时进行编译，而后在数据中心运行1000万次，并播种能耗回报。从对能耗的全面关注来看，这种计算形式也产生了变动。

因而，值得一试的是是否花更多工夫在一个非常复杂的2D计算阵列上，这个阵列由一个有微小容量微码的编译器间接管制。如果能节俭5%或10%的功耗，这就是值得的。如果你能做到的话，超大规模企业将极力邀请你接入他们的数据中心。

说到Ascenium的Aptos处理器和咱们的方法，其实还有一个要害的驱动因素。我始终都在深究这个问题，这也是我为这家公司所做的一点奉献。我意识到了这一点，并且认为这确实会对Ascenium以后的工作产生肯定的影响。

一家名为Tabula的公司也遇到了相似的问题。他们在软件工作时遇到了真正的难题，后果还是在他们做第二次还是第三次尝试时引入了束缚求解器，这才解决。Tabula应用基于SAT求解器的办法来编译后端。咱们在Wave Computing时也采取了同样的方法，起初我又把这项技术带到了Ascenium。

[]()

咱们有一个规范的LLVM编译器基础设施，外加一个新的LLVM后端，次要面向适宜束缚求解器的硬件。它就像一个黑匣子，如果你有一个非常简单的规定架构，都能够在一组逻辑方程中残缺地形容行为，无论是在工夫还是物理上，那么咱们的SAT求解器能够剖析、解读它，并给出数学上的最佳证实后果。

这是很难被超过的。永远不能在一个简单、异构、无序的体系结构上应用束缚求解器。 算了吧，那是在浪费时间。但在咱们的场景，这是可行的。

当探讨整个程序时，SAT求解器办法的数学最佳证实后果是夸大其词的。从数学上，它对于代码块来说是最佳的。但对于整个程序来说，计算起来却有些辣手。

这些代码块就不得不拼接在一起。所以SAT求解器窗口贯通整个代码，将编译后的窗口拼接在一起（这会升高效率）。因而，公司的窍门之一就是晓得如何最优地宰割、编译和拼接SAT编译过的程序块。

咱们的想法是使芯片的架构尽可能简略，这样把它装置到SAT求解器上后就会失去令人诧异的、最佳的5D解决方案。 这就是一场赌注：除了要跳出X86和ARM沙盒，还得有一个IP革除办法，这很重要。这又是另一个问题了：如果你试图和这些CPU架构开展角逐的话，就会撞上微小的IP墙。一旦你开始对他们构成威胁，他们就会马上起诉你。这就是生意，对吧？

通过架构简化开释性能

TPM： 所以这是一种做到极致的RISC吗？

Peter Foley： 没错。而且我就是做这个出身的。很久之前，我在伯克利的时候，在一个芯片钻研团队跟David Patterson一起钻研Smalltalk语言。我的整个职业生涯简直都在钻研处理器，而且绝大部分都是RISC处理器。

TPM： 我感觉这能够称得上是NISC（无指令集计算）了，因为是把RISC（精简指令集计算）做到了极致，对吧。

Peter Foley： 哈哈，没错！但说实话，束缚求解器当初是个热门话题，能够说席卷了整个EDA（电子设计自动化）行业。实质上，咱们当初做的事件其实更属于EDA问题，而不是传统的编译问题。有点像把一个残缺的Xilinx或Altera FPGA后端联合到编译器里，因为它们的很多性能和FPGA查找表构造中的搁置、布线、调度是差不多的。咱们做的事件和这个很像，只是咱们把指标放在通用计算引擎。束缚求解器当初正在很多其余中央使用，但把它用在通用计算上，是咱们的创举。目前咱们正在致力申请知识产权和专利等，心愿获得先发劣势。

TPM： 所以这有点像是FPGA数据流引擎和CPU之间的货色，能不能这么了解？

Peter Foley： 能够这样说。不过咱们这个是通用处理器，并不像FPGA那样用查找表构造来模仿硬件的。

还有一点挺有意思的，在X86指令流里，至多50%的指令都是和数据搬运相干的挪动指令，而理论运算的指令，比方加减乘之类的，大略只占20%。但在咱们的处理器中，编译器能够用同一套管制字亲密管制所有，也就是说，数据搬运、运算、设置文本流方向、布线等等，都能够由编译器通过阵列中的同一管制字同时管制。所以，咱们的产品中不存在序列化，当指令汇入只执行搬运的架构时也不会呈现阿姆达尔定律带来的毛病，因为所有都由编译器实现了。

编译器须要同时跟踪很多货色。但在典型的乱序机器中，有大批量的重命名正在执行，这是非常复杂的，须要阵列中有短缺的资源来高效执行这种超大容量的分布式重命名。因而咱们采纳了分布式内存，并通过大量复用来缩小进入典型寄存器堆（Register File）的流量，这样一来就能够实现简化。能够说，咱们基本上没有解决流程，所以分支暗影（branch shadow）特地短。这就是咱们的独特之处。

TPM： 所以能够说，惠普和英特尔联合开发了EPIC（显式并行指令计算），而后嫁接到一个相似X86，但又不如它的货色上，就做出了Itanium（安腾）。而当初你们摒弃了惠普和英特尔的成绩，只保留了EPIC的局部……

Peter Foley： 我猜你下一句可能会问，这是真的吗？

TPM： 也不全是。你要了解一下咱们，所有的AI初创公司来到咱们这儿，我和Nicole（TPM的搭档）都会开他们的玩笑，这些公司的硬件都做得不错，而后娓娓而谈他们开发进去的编译器有如许厉害。他们总是先铺垫介绍一番，而后说“咱们的编译器能够把这些问题通通解决”。但你所说的编译器是我目前听过最神奇的。所以，如果我持狐疑态度的话，那可能是因为我兴许还不太理解……

Peter Foley： 咱们的投资者之所以违心投资A轮，帮忙公司进一步倒退，其中一个起因是咱们曾经证实了本人可能在5到10分钟内编译出70万行代码，并在FPGA原型上胜利运行。这正是咱们这个架构让人眼前一亮的中央：它非常简单，以至于你能够在FPGA上制作原型。

TPM： 更精确地说，这难道不就是把四块板组合起来模仿一块小型芯片吗？而后每块板上都装备了八个FPGA，还是最贵的那种。

Peter Foley： 当然不是。不同于Paladium仿真器，咱们用的只是一块中档的FPGA板，不然可就累赘不起了。

咱们能够运行700,000行代码，其中包含SPEC中用到的C语言规范库。咱们将这些代码编译好，并在咱们的FPGA测试平台上运行。FPGA测试平台并不是残缺的架构，它只是整体架构的一部分，并且得出性能正确的后果。咱们有大量的符号调试器和其余一些基础设施来辅助此类操作。

TPM： 当它成为产品时会是什么样子呢，而你又将如何采购它？

Peter Foley： 咱们正尝试在两个最重要的指标上取胜。第一个是SPECint性能， 咱们个别通过指令/时钟（IPC）来掂量，但它其实不是一个很好的衡量标准。但咱们有一个指标，即咱们的每个管制字中执行的工作就相当于 X86指令。若从后果和优化的角度来评估编译器品质的话，下一步咱们打算在IPCW、指令/管制字、以及IPC等值这些方面做相应调整。这一步对于超大规模的处理器来说至关重要。

TPM： 你们这齐全是在赌一把。

Peter Foley：另一个指标则是功耗。 咱们的想法是要把这两个指标都拿下，并且对此胜券在握。为了降低功耗，咱们去掉了所有的晶体管。

TPM： 所以，你看了一下须要拿掉多少个晶体管才行，对吗？

Peter Foley： 很少，也就比X86少很多。

TPM： 大略是一个数量级还是三倍？

Peter Foley： 应该是一个数量级。目前也还没有定论，所以我暂不分明具体的数字。咱们花这笔钱就是为了弄清这件事。咱们会将微架构具体化并且敲定下来，而后构建一些试验硅（trial silicon），并失去5纳米工具，或者其余咱们所需的货色，而后去构建这个微架构并进行布局。

这是构建处理器的其中一步，要做的就是解决所有的几何图形。这一步是为了解决空间提早和间隔限度。布局决定了许多因素，这些因素又会进而影响微架构。因而，咱们必须解决好这些问题，同时还要注意其余问题。一旦咱们开始深入研究这些问题，就能更加自信地通知你那个数字到底是多少。

TPM： 所以，如果要我来总结一下Aptos架构的话，那就是降低功耗、优化性能——但你却并不需要提价。

Peter Foley： 是的，没错。这样咱们就不用花大价格应用ARM架构了。

（本文已获取编译受权，原文：

https://www.nextplatform.com/…）

OneFlow v0.7.0最新版本已公布，欢送下载体验： https://github.com/Oneflow-In…

关于人工智能:芯片设计花招已耍完无指令集架构颠覆旧套路

摒弃旧传统的“无指令集架构”

通过架构简化开释性能

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:芯片设计花招已耍完无指令集架构颠覆旧套路

摒弃旧传统的“无指令集架构”

通过架构简化开释性能

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复