关于阿里云:阿里云张献涛自主最强DPU神龙的秘诀

简介：读懂云计算，能力看清DPU热潮。

如果细数最近火爆的科技概念，DPU必然位列其中。

这是英伟达一手捧红的新造富故事，是2021年SoC畛域最热气腾腾的守业赛道，也是数据中心继CPU、GPU后的又一大“台柱子”。

只管在云计算畛域曾经培养多年，但对于外界来说，DPU并不是一个容易了解的概念，各路玩家的产品定义和结构设计也不尽相同。

总体来说，DPU是个软硬一体的数据处理单元，通常以架构的模式存在，能够帮CPU“减负”，解决一些CPU解决数据方面的短板问题，并提供硬件加速的网络、存储、平安、基础设施治理等服务。

而追溯DPU的源头，真正实现大规模商用DPU架构的，历数寰球，次要有两家云计算巨头——东方的亚马逊云AWS，西方的阿里云。

2017年10月，阿里云的神龙架构横空出世；仅1个月后，AWS的Nitro也走到了历史台前。这两个为了解决虚拟化问题而相继问世的翻新产品，被业界视作迄今最胜利的两款DPU。

一手促成神龙架构诞生的张献涛，也是国内最懂DPU的人物之一。

现在，第四代阿里云神龙曾经开始撑持阿里云的大规模云上业务，并在计算、存储、网络、平安四项要害指标达成业界最高程度。

近日，芯货色独家对话阿里巴巴团体研究员、阿里云弹性计算产品线负责人张献涛（花名旭卿），听他讲述云端业务需要变动、继续翻新的研发心得，以及对DPU热潮的独到思考。

在他看来，这不是一类适宜走通用路线的芯片，对于云厂商而言，DPU是一个软硬件技术栈联合极其亲密的工作，是软件定义的计算架构，DPU必须以自研为主，做到相干软硬件技术栈齐全可控，且通过超大规模验证。而做通用DPU的公司很难满足云厂商的需要，被收买或者是最佳终局。

01 风起云计算

DPU的新风口来得忽然。

2020年10月，在NVIDIA GTC 2020大会上，NVIDIA创始人兼CEO黄仁勋发表推出一种全新数据处理器——DPU。这颗被称作“将来计算三大支柱之一”的处理单元，赫然闯入公众和资本的视线。

此时，间隔阿里云软硬一体虚拟化架构「神龙」的诞生，曾经过来整整四年。现在，其被市场视作阿里云的DPU，而这个颇具开创性的翻新架构，当初是为解决传统虚拟化技术利用到云计算带来的老本、性能、服务质量以及平安问题而生的。

张献涛是负责阿里云神龙的核心人物，于2014年退出阿里云，彼时他曾经从事虚拟化技术钻研约十年，阿里云刚走到第五个年头。传统虚拟化架构的种种缺点，日渐成为掣肘这家云计算公司降本增效、晋升服务质量的顽疾。

虚拟化技术是云计算的根底，它将本来不可分割的硬件资源形象成共享资源池，按需分配和共享计算、存储、网络资源。

而治理资源，就需占用掉一些本来用于运行业务负载的CPU和内存，也就造成了资源损耗。比方一个工厂有100位工人，如果他们全副去流水线上干活，那么资源利用率是100%；但如果从中抽出10人负责兼顾治理，那么余下只有90人在流水线上干活，利用率则降为90%。

随着云计算业务规模继续扩充规模，资源争抢、算力损失、性能瓶颈等问题日益严厉，寻求解局之道未然火烧眉毛。

通过两年摸索，阿里云的稳定性不再是问题。2016年，张献涛开始思考下一代虚拟化技术计划在哪里？什么样的计划，能力合乎阿里云将来长期的倒退？

神龙（X-Dragon）应运而生。

这是团队头脑风暴的后果。如果造出一个专门负责做虚拟化的架构，那么CPU的算力资源就被释放出来，可能更聚焦于运行云上业务。

第一代神龙正式立项的工夫是2017年4月1日。将问题定义进去后，张献涛开始组建团队，从零碎架构设计到芯片及硬件开发，到服务器开发，再到系统软件的研发适配，初始团队总共二十几个人干了半年的工夫，胜利于2017年10月将神龙上线。

自此以后，作为解决高速数据流的高手，神龙架构从CPU手头接过虚拟化的重任，一路带飞存储、网络、平安等要害性能。

02 从小试牛刀，到大规模落地

一开始，张献涛其实不太承受「DPU」这个命名形式。

DPU的“D”有几种常见解释，包含“数据”、“数据中心”、“以数据为核心”等。可严格意义上来讲，数据中心的哪个主力芯片（如CPU、GPU）不合乎这些特色呢？

因而，阿里云对神龙架构的论述是，真正为云而生的、软硬一体的技术架构。在他看来，将来是一个云的时代，须要这样的技术架构来全面解决老本、性能、平安等问题。目前来看，DPU想做的仿佛是相似的事件，市场也认为阿里云和AWS做的就是DPU。

阿里云和AWS之所以近乎“同步”地推出DPU，最间接的起因是云计算倒退到肯定阶段后，研发人员意识到，有了这样的数据处理架构，老本将大幅降落，同时性能会大幅晋升，再加上云厂商的规模化劣势能为客户提供更有竞争力的高性价比服务。

无论是阿里云的神龙，还是AWS的Nitro，晚期都主攻虚拟化的性能损耗、资源损耗问题，即老本和性能问题。

张献涛给咱们算了一笔账，那时阿里云营收规模曾经达到上百亿元，如果存储、网络占用约10%的CPU资源，则意味着年损失10多亿元。无论从晋升性能还是优化老本的角度，研发神龙都势在必行。

获得技术冲破只是第一步。神龙上线后，如何大规模利用成为新的挑战。

阿里云先在外部业务试水，2017年双十一期间部署了1000台撑持天猫大促业务，胜利验证没有问题。上汽团体是第一家吃螃蟹的内部客户，提出违心尝试这个新产品，与阿里云共担风险。单方一起磨了近两个月，到邻近春节，终于将稳定性、性能等问题统统解决。

在此类种子客户的反对下，阿里云神龙打磨出大规模上云的功底，并开始成长为阿里云最外围的竞争力之一。

从2019年起，阿里巴巴团体的所有业务、包含阿里云的计算类服务全副迁至神龙架构。到2021年10月，第四代神龙架构问世，其存储IOPS高达300万、网络PPS达5000万、网络延时最低5微秒等多项指标刷新业界最高程度。

依据出名国内市场钻研机构Gartner颁布的2021年度寰球云计算厂商整体能力评估报告，阿里云IaaS基础设施能力超过AWS拿下寰球第一，并在计算、存储、网络、平安四项外围评比中取得最高分。

▲Gartner Solution Scorecard 2021报告显示，阿里云四项能力超AWS

03 云厂商必须自研DPU

云计算市场正在飞速扩容，当每台云服务器中都须要一个DPU，谁能跻身头部，谁就可能享受到难以估计的市场红利。

仅在2021年，取得新融资的国内DPU企业就有不少于7家，包含湖州芯启源、北京大禹智芯、珠海星云智联、上海益思芯科技、深圳云豹智能、上海云脉芯联、北京中科驭数等。

其中少数企业单笔融资额达数亿元，且投资方不乏出名科技企业身影。比方，星云智联A轮融资由美团独家投资，腾讯投资了云豹智能，云脉芯联的投资方有字节跳动、壁仞科技……

但资本只看见热度，未必能看清外面的坑。

在张献涛看来，DPU不应该被视作「智能网卡」的继任者，智能网卡只解决网络减速问题，而DPU的性能远比智能网卡丰盛。

有些DPU创企其实仍在做智能网卡，也有创企想在智能网卡的根底上做演进。但他认为：“在一个智能网卡上打补丁是解决不了的，因为自身设计理念是不统一的。”从架构层面来讲，DPU的架构是在DPU零碎上插入一台服务器从而解决整台服务器相干的数据处理减速和平安及管控问题，而智能网卡架构则是在服务器上插入一个网卡解决网络减速的问题，二者有本质性的区别。

形虽差之毫厘，神却谬以千里。

自2017年推出神龙后，张献涛印象中，简直所有DPU公司的DPU架构、接口、功能模块、能力实现等，都是仿照神龙已公开的架构来设计。

可为何仿照神龙设计，依然很难做好DPU？

外围问题出在对云业务的了解。张献涛说，第三方厂商通过跟客户、工程师沟通，只能失去对云业务需要的全面理解，所以最终做进去的成果很难满足客户需要。

他深信，云厂商必须自研DPU架构。“如果不相熟软件架构和系统软件栈，不相熟自家技术栈中哪些地方才是瓶颈，很难把它设计得很好，而这些都是内部DPU公司很难拿到的技术信息。”

换个角度来看，对云厂商而言，只有从硬件架构到固件到软件栈都自研，能力做到整个技术链路的可控，它能力成为一个负责任的云厂商。

近年云计算厂商的动向印证了张献涛的判断。京东云研发基于自研智能芯片的虚拟化架构京刚，谷歌云与英特尔单干研发基础设施解决芯片IPU，字节跳动发表其自研DPU将通过火山引擎云产品对外服务……

“从终局上判断，明天DPU的守业公司没有太好的前途，最好的前途就是把相干业务发售，卖给有须要的云计算公司，通过被收买变现。”张献涛说，如果对云计算业务不够理解，一味想把DPU做成通用架构是很难胜利的，做DPU的公司，最终都要和云厂商做产品和技术的共建单干，这样胜利的可能性才会晋升。

04 DPU不适宜走通用路线

“业界投资的DPU都想尝试着做一颗通用的DPU，有的甚至想推配套的软件技术栈作为业界规范，其实出发点就是有问题的。”

这是因为DPU齐全由软件定义的架构，由客户需要或业务倒退状态驱动，与客户整个后端软件栈联合十分严密，很难做到通用的水平。

在张献涛看来，真正做出DPU，并且让客户规模化用起来，其实比AI芯片还要难。

要害难点在于，它的软件生态注定造就不起来，因为各家公司的软件技术栈都倒退多年，很难废掉去适配一个难于自控的内部厂商举荐的技术栈，所以在三年之后，DPU畛域肯定会呈现整合，一些公司可能会隐没或者被卖掉。

DPU的使用者通常是云计算公司或做虚拟化软件的公司。如果只是针对某一个软件栈来做，无奈实现通用，如果想做得十分通用，“因为各家的软件栈都不一样，整个平安机制的设计也都不一样，则很难和云厂商进行适配”。

这与GPU+CUDA的逻辑不同。英伟达花了十多年研发，又遇到深度学习暴发的契机，才将这样的生态巩固下来，成为业界的规范。

而在DPU畛域，各家公司的软件栈曾经存在，互不雷同，强行标准化很难实现，并且研发周期长、固件很难凋谢、接口的定义不统一等都是不可控的因素。

“如果想做一个对立的规范，放之四海而皆准的规范或者软件生态，是十分难的。”张献涛解释说，当每家软件栈不一样时，DPU要解决的数据格式也都不同，因而很难将这样的一个齐全固化、做出对立的货色。

▲阿里巴巴团体研究员、阿里云弹性计算产品线负责人张献涛

05 配合软件迭代节奏，降级平安可信性能

通过四年的历练，神龙架构积攒了哪些劣势？又如何获得超过AWS Nitro的性能？

张献涛首先提到「疾速迭代」。

做软硬交融，须要架构随着软件迭代而降级革新。研发一颗ASIC的周期大略是24个月起步，这对于互联网软件迭代的节奏来说，切实太久了。

因而，阿里云神龙采纳FPGA的模式来做，并且做到了FPGA和配套系统软件全面在线实时热降级的能力，以便每周均可降级，通过灵便地继续优化，最终实现更极致的性能。

“到明天为止，最适宜做DPU的还是可编程可降级的FPGA。”张献涛亦谈到选用FPGA的局限性，随着将更多功能做到DPU里，FPGA的逻辑单元数等可能会制约DPU的倒退，这就更须要技术人员不节约每一个逻辑单元把必要性能和性能做到极致。

要做出好的DPU，对于「软硬件交融设计的了解」也必须到位。这是一个从软件、硬件到对应固件和下层零碎一直迭代的过程。

软硬件之间的接口甚至寄存器的设计，都需与软件充沛交融，如果企业对本人的软件把握水平很高，又对软硬件协同的思路、对架构和相干协定了解粗浅，能力逐渐打磨好性能。

第一代神龙的网络转发做到了每秒600万数据包，过后Nitro大概为每秒300万；通过更多数据链路上的工作改用硬件加速，第三代神龙做到2400万，最新一代更是做到了5000万。传统RDMA组网能力通常为千台规模，而第四代神龙的eRDMA组网能力可至数10万台，真正实现了RDMA能力的通用化和平民化，助力高性能计算以及以后风行的云原生软件架构的倒退需要。

此外，新一代神龙退出了对「可信计算与加密计算」的反对，实现零碎可信防篡改与数据可用不可见，确保客户对「平安」的要求。

后续阿里云打算在所有数据链路通过神龙架构时做更多预处理，从而大大晋升DPU的计算效率。原来计算1万条数据，所有数据都落到内存里挨个算，当初做预处理后可能只须要计算50条，这样一来，效率就晋升了数倍。

据张献涛走漏，接下来，除了做到速度更快、带宽更高、提早更低、每秒IO次数更多外，神龙架构还将在性能、稳定性、安全性方面层层加码，推动神龙作为加密计算的载体。

06 结语：将来走向，破解内存墙难题

随着DPU一路走俏，云计算厂商陆续通过自研或投资的形式谋篇这一赛道，一些DPU设计创企亦开始锋芒毕露。

“咱们2017年神龙的架构就公开了，大家都在follow这个规范来做，明天倒退到这样的水平，咱们感觉还是挺快慰的。”张献涛认为，DPU倒退正在走入正规，更多人意识到它的重要性对于业界是一件坏事，它将晋升整个云计算的效率。

DPU实质上是一种根底软硬件协同设计的零碎，从研发进去到一些种子用户去用起来，须要两三年工夫。他置信，将来两到三年内，DPU的热度都将继续，但到肯定的阶段，它会像明天做AI芯片一样走向收敛，一些不正确的思路将被逐步淘汰掉。

面向未来，DPU畛域可做的货色还很多。

比方新兴的存内计算，实质上要解决的问题与DPU是统一的，即如何缩小数据搬移，从而晋升计算效率和降低功耗。所有数据通过DPU时都能够进行一次存内计算过滤，只有无效的数据才会进入主CPU内存，这样整个计算零碎的性能也将会数倍的晋升。

“纵观将来，你会发现尤其是明天异构计算变成潮流的状况下，简直所有DPU致力的方向都是为了解决掉内存墙带来数据处理效率降落的问题。”张献涛置信，将来DPU的倒退值得期待，并将肯定和某种业务联合度越来越高。

（本文来源于芯货色，作者心缘）

原文链接
本文为阿里云原创内容，未经容许不得转载。