关于云计算:阿里云张献涛自主最强DPU神龙的秘诀

47次阅读

共计 5609 个字符,预计需要花费 15 分钟才能阅读完成。

简介:读懂云计算,能力看清 DPU 热潮。

微信公众号搜寻“弹性计算百晓生”,获取更多云计算常识。

如果细数最近火爆的科技概念,DPU 必然位列其中。

这是英伟达一手捧红的新造富故事,是 2021 年 SoC 畛域最热气腾腾的守业赛道,也是数据中心继 CPU、GPU 后的又一大“台柱子”。

只管在云计算畛域曾经培养多年,但对于外界来说,DPU 并不是一个容易了解的概念,各路玩家的产品定义和结构设计也不尽相同。

总体来说,DPU 是个软硬一体的数据处理单元,通常以架构的模式存在,能够帮 CPU“减负”,解决一些 CPU 解决数据方面的短板问题,并提供硬件加速的网络、存储、平安、基础设施治理等服务。

而追溯 DPU 的源头,真正实现大规模商用 DPU 架构的,历数寰球,次要有两家云计算巨头——东方的亚马逊云 AWS,西方的阿里云。

2017 年 10 月,阿里云的神龙架构横空出世;仅 1 个月后,AWS 的 Nitro 也走到了历史台前。这两个为了解决虚拟化问题而相继问世的翻新产品,被业界视作迄今最胜利的两款 DPU。

一手促成神龙架构诞生的张献涛,也是国内最懂 DPU 的人物之一。

现在,第四代阿里云神龙曾经开始撑持阿里云的大规模云上业务,并在计算、存储、网络、平安四项要害指标达成业界最高程度。

近日,芯货色独家对话阿里巴巴团体研究员、阿里云弹性计算产品线负责人张献涛(花名旭卿),听他讲述云端业务需要变动、继续翻新的研发心得,以及对 DPU 热潮的独到思考。

在他看来,这不是一类适宜走通用路线的芯片,对于云厂商而言,DPU 是一个软硬件技术栈联合极其亲密的工作,是软件定义的计算架构,DPU 必须以自研为主,做到相干软硬件技术栈齐全可控,且通过超大规模验证。而做通用 DPU 的公司很难满足云厂商的需要,被收买或者是最佳终局。

01 风起云计算

DPU 的新风口来得忽然。

2020 年 10 月,在 NVIDIA GTC 2020 大会上,NVIDIA 创始人兼 CEO 黄仁勋发表推出一种全新数据处理器——DPU。这颗被称作“将来计算三大支柱之一”的处理单元,赫然闯入公众和资本的视线。

此时,间隔阿里云软硬一体虚拟化架构「神龙」的诞生,曾经过来整整四年。现在,其被市场视作阿里云的 DPU,而这个颇具开创性的翻新架构,当初是为解决传统虚拟化技术利用到云计算带来的老本、性能、服务质量以及平安问题而生的。

张献涛是负责阿里云神龙的核心人物,于 2014 年退出阿里云,彼时他曾经从事虚拟化技术钻研约十年,阿里云刚走到第五个年头。传统虚拟化架构的种种缺点,日渐成为掣肘这家云计算公司降本增效、晋升服务质量的顽疾。

虚拟化技术是云计算的根底,它将本来不可分割的硬件资源形象成共享资源池,按需分配和共享计算、存储、网络资源。

而治理资源,就需占用掉一些本来用于运行业务负载的 CPU 和内存,也就造成了资源损耗。比方一个工厂有 100 位工人,如果他们全副去流水线上干活,那么资源利用率是 100%;但如果从中抽出 10 人负责兼顾治理,那么余下只有 90 人在流水线上干活,利用率则降为 90%。

随着云计算业务规模继续扩充规模,资源争抢、算力损失、性能瓶颈等问题日益严厉,寻求解局之道未然火烧眉毛。

通过两年摸索,阿里云的稳定性不再是问题。2016 年,张献涛开始思考下一代虚拟化技术计划在哪里?什么样的计划,能力合乎阿里云将来长期的倒退?

神龙(X-Dragon)应运而生。

这是团队头脑风暴的后果。如果造出一个专门负责做虚拟化的架构,那么 CPU 的算力资源就被释放出来,可能更聚焦于运行云上业务。

第一代神龙正式立项的工夫是 2017 年 4 月 1 日。将问题定义进去后,张献涛开始组建团队,从零碎架构设计到芯片及硬件开发,到服务器开发,再到系统软件的研发适配,初始团队总共二十几个人干了半年的工夫,胜利于 2017 年 10 月将神龙上线。

自此以后,作为解决高速数据流的高手,神龙架构从 CPU 手头接过虚拟化的重任,一路带飞存储、网络、平安等要害性能。

02 从小试牛刀,到大规模落地

一开始,张献涛其实不太承受「DPU」这个命名形式。

DPU 的“D”有几种常见解释,包含“数据”、“数据中心”、“以数据为核心”等。可严格意义上来讲,数据中心的哪个主力芯片(如 CPU、GPU)不合乎这些特色呢?

因而,阿里云对神龙架构的论述是,真正为云而生的、软硬一体的技术架构。在他看来,将来是一个云的时代,须要这样的技术架构来全面解决老本、性能、平安等问题。目前来看,DPU 想做的仿佛是相似的事件,市场也认为阿里云和 AWS 做的就是 DPU。

阿里云和 AWS 之所以近乎“同步”地推出 DPU,最间接的起因是云计算倒退到肯定阶段后,研发人员意识到,有了这样的数据处理架构,老本将大幅降落,同时性能会大幅晋升,再加上云厂商的规模化劣势能为客户提供更有竞争力的高性价比服务。

无论是阿里云的神龙,还是 AWS 的 Nitro,晚期都主攻虚拟化的性能损耗、资源损耗问题,即老本和性能问题。

张献涛给咱们算了一笔账,那时阿里云营收规模曾经达到上百亿元,如果存储、网络占用约 10% 的 CPU 资源,则意味着年损失 10 多亿元。无论从晋升性能还是优化老本的角度,研发神龙都势在必行。

获得技术冲破只是第一步。神龙上线后,如何大规模利用成为新的挑战。

阿里云先在外部业务试水,2017 年双十一期间部署了 1000 台撑持天猫大促业务,胜利验证没有问题。上汽团体是第一家吃螃蟹的内部客户,提出违心尝试这个新产品,与阿里云共担风险。单方一起磨了近两个月,到邻近春节,终于将稳定性、性能等问题统统解决。

在此类种子客户的反对下,阿里云神龙打磨出大规模上云的功底,并开始成长为阿里云最外围的竞争力之一。

从 2019 年起,阿里巴巴团体的所有业务、包含阿里云的计算类服务全副迁至神龙架构。到 2021 年 10 月,第四代神龙架构问世,其存储 IOPS 高达 300 万、网络 PPS 达 5000 万、网络延时最低 5 微秒等多项指标刷新业界最高程度。

依据出名国内市场钻研机构 Gartner 颁布的 2021 年度寰球云计算厂商整体能力评估报告,阿里云 IaaS 基础设施能力超过 AWS 拿下寰球第一,并在计算、存储、网络、平安四项外围评比中取得最高分。


▲Gartner Solution Scorecard 2021 报告显示,阿里云四项能力超 AWS

03 云厂商必须自研 DPU

云计算市场正在飞速扩容,当每台云服务器中都须要一个 DPU,谁能跻身头部,谁就可能享受到难以估计的市场红利。

仅在 2021 年,取得新融资的国内 DPU 企业就有不少于 7 家,包含湖州芯启源、北京大禹智芯、珠海星云智联、上海益思芯科技、深圳云豹智能、上海云脉芯联、北京中科驭数等。

其中少数企业单笔融资额达数亿元,且投资方不乏出名科技企业身影。比方,星云智联 A 轮融资由美团独家投资,腾讯投资了云豹智能,云脉芯联的投资方有字节跳动、壁仞科技……

但资本只看见热度,未必能看清外面的坑。

在张献涛看来,DPU 不应该被视作「智能网卡」的继任者,智能网卡只解决网络减速问题,而 DPU 的性能远比智能网卡丰盛。

有些 DPU 创企其实仍在做智能网卡,也有创企想在智能网卡的根底上做演进。但他认为:“在一个智能网卡上打补丁是解决不了的,因为自身设计理念是不统一的。”从架构层面来讲,DPU 的架构是在 DPU 零碎上插入一台服务器从而解决整台服务器相干的数据处理减速和平安及管控问题,而智能网卡架构则是在服务器上插入一个网卡解决网络减速的问题,二者有本质性的区别。

形虽差之毫厘,神却谬以千里。

自 2017 年推出神龙后,张献涛印象中,简直所有 DPU 公司的 DPU 架构、接口、功能模块、能力实现等,都是仿照神龙已公开的架构来设计。

可为何仿照神龙设计,依然很难做好 DPU?

外围问题出在对云业务的了解。张献涛说,第三方厂商通过跟客户、工程师沟通,只能失去对云业务需要的全面理解,所以最终做进去的成果很难满足客户需要。

他深信,云厂商必须自研 DPU 架构。“如果不相熟软件架构和系统软件栈,不相熟自家技术栈中哪些地方才是瓶颈,很难把它设计得很好,而这些都是内部 DPU 公司很难拿到的技术信息。”

换个角度来看,对云厂商而言,只有从硬件架构到固件到软件栈都自研,能力做到整个技术链路的可控,它能力成为一个负责任的云厂商。

近年云计算厂商的动向印证了张献涛的判断。京东云研发基于自研智能芯片的虚拟化架构京刚,谷歌云与英特尔单干研发基础设施解决芯片 IPU,字节跳动发表其自研 DPU 将通过火山引擎云产品对外服务……

“从终局上判断,明天 DPU 的守业公司没有太好的前途,最好的前途就是把相干业务发售,卖给有须要的云计算公司,通过被收买变现。”张献涛说,如果对云计算业务不够理解,一味想把 DPU 做成通用架构是很难胜利的,做 DPU 的公司,最终都要和云厂商做产品和技术的共建单干,这样胜利的可能性才会晋升。

04 DPU 不适宜走通用路线

“业界投资的 DPU 都想尝试着做一颗通用的 DPU,有的甚至想推配套的软件技术栈作为业界规范,其实出发点就是有问题的。”

这是因为 DPU 齐全由软件定义的架构,由客户需要或业务倒退状态驱动,与客户整个后端软件栈联合十分严密,很难做到通用的水平。

在张献涛看来,真正做出 DPU,并且让客户规模化用起来,其实比 AI 芯片还要难。

要害难点在于,它的软件生态注定造就不起来,因为各家公司的软件技术栈都倒退多年,很难废掉去适配一个难于自控的内部厂商举荐的技术栈,所以在三年之后,DPU 畛域肯定会呈现整合,一些公司可能会隐没或者被卖掉。

DPU 的使用者通常是云计算公司或做虚拟化软件的公司。如果只是针对某一个软件栈来做,无奈实现通用,如果想做得十分通用,“因为各家的软件栈都不一样,整个平安机制的设计也都不一样,则很难和云厂商进行适配”。

这与 GPU+CUDA 的逻辑不同。英伟达花了十多年研发,又遇到深度学习暴发的契机,才将这样的生态巩固下来,成为业界的规范。

而在 DPU 畛域,各家公司的软件栈曾经存在,互不雷同,强行标准化很难实现,并且研发周期长、固件很难凋谢、接口的定义不统一等都是不可控的因素。

“如果想做一个对立的规范,放之四海而皆准的规范或者软件生态,是十分难的。”张献涛解释说,当每家软件栈不一样时,DPU 要解决的数据格式也都不同,因而很难将这样的一个齐全固化、做出对立的货色。


▲阿里巴巴团体研究员、阿里云弹性计算产品线负责人张献涛

05 配合软件迭代节奏,降级平安可信性能

通过四年的历练,神龙架构积攒了哪些劣势?又如何获得超过 AWS Nitro 的性能?

张献涛首先提到「疾速迭代」。

做软硬交融,须要架构随着软件迭代而降级革新。研发一颗 ASIC 的周期大略是 24 个月起步,这对于互联网软件迭代的节奏来说,切实太久了。

因而,阿里云神龙采纳 FPGA 的模式来做,并且做到了 FPGA 和配套系统软件全面在线实时热降级的能力,以便每周均可降级,通过灵便地继续优化,最终实现更极致的性能。

“到明天为止,最适宜做 DPU 的还是可编程可降级的 FPGA。”张献涛亦谈到选用 FPGA 的局限性,随着将更多功能做到 DPU 里,FPGA 的逻辑单元数等可能会制约 DPU 的倒退,这就更须要技术人员不节约每一个逻辑单元把必要性能和性能做到极致。

要做出好的 DPU,对于「软硬件交融设计的了解」也必须到位。这是一个从软件、硬件到对应固件和下层零碎一直迭代的过程。

软硬件之间的接口甚至寄存器的设计,都需与软件充沛交融,如果企业对本人的软件把握水平很高,又对软硬件协同的思路、对架构和相干协定了解粗浅,能力逐渐打磨好性能。

第一代神龙的网络转发做到了每秒 600 万数据包,过后 Nitro 大概为每秒 300 万;通过更多数据链路上的工作改用硬件加速,第三代神龙做到 2400 万,最新一代更是做到了 5000 万。传统 RDMA 组网能力通常为千台规模,而第四代神龙的 eRDMA 组网能力可至数 10 万台,真正实现了 RDMA 能力的通用化和平民化,助力高性能计算以及以后风行的云原生软件架构的倒退需要。

此外,新一代神龙退出了对「可信计算与加密计算」的反对,实现零碎可信防篡改与数据可用不可见,确保客户对「平安」的要求。

后续阿里云打算在所有数据链路通过神龙架构时做更多预处理,从而大大晋升 DPU 的计算效率。原来计算 1 万条数据,所有数据都落到内存里挨个算,当初做预处理后可能只须要计算 50 条,这样一来,效率就晋升了数倍。

据张献涛走漏,接下来,除了做到速度更快、带宽更高、提早更低、每秒 IO 次数更多外,神龙架构还将在性能、稳定性、安全性方面层层加码,推动神龙作为加密计算的载体。

06 结语:将来走向,破解内存墙难题

随着 DPU 一路走俏,云计算厂商陆续通过自研或投资的形式谋篇这一赛道,一些 DPU 设计创企亦开始锋芒毕露。

“咱们 2017 年神龙的架构就公开了,大家都在 follow 这个规范来做,明天倒退到这样的水平,咱们感觉还是挺快慰的。”张献涛认为,DPU 倒退正在走入正规,更多人意识到它的重要性对于业界是一件坏事,它将晋升整个云计算的效率。

DPU 实质上是一种根底软硬件协同设计的零碎,从研发进去到一些种子用户去用起来,须要两三年工夫。他置信,将来两到三年内,DPU 的热度都将继续,但到肯定的阶段,它会像明天做 AI 芯片一样走向收敛,一些不正确的思路将被逐步淘汰掉。

面向未来,DPU 畛域可做的货色还很多。

比方新兴的存内计算,实质上要解决的问题与 DPU 是统一的,即如何缩小数据搬移,从而晋升计算效率和降低功耗。所有数据通过 DPU 时都能够进行一次存内计算过滤,只有无效的数据才会进入主 CPU 内存,这样整个计算零碎的性能也将会数倍的晋升。

“纵观将来,你会发现尤其是明天异构计算变成潮流的状况下,简直所有 DPU 致力的方向都是为了解决掉内存墙带来数据处理效率降落的问题。”张献涛置信,将来 DPU 的倒退值得期待,并将肯定和某种业务联合度越来越高。

(本文来源于芯货色,作者心缘)

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0