乐趣区

后摩尔时代-京东智联云如何解决数据中心的冷与热

往年,以数字化技术为外围的 ” 新基建 ” 首次被写入政府工作报告,引起了人们宽泛关注。新基建蕴含 5G 基站、特高压、工业互联网、城际高速铁路和城际轨道交通、新能源车充电桩、人工智能、大数据中心七个方向。其中, 数据中心既是新基建的重要组成部分,也是新基建倒退的外围 IT 基础设施,对数字经济的腾飞起到底层撑持作用。

京东智联云硬件研发总监陈国峰曾任凋谢数据中心委员会“天蝎”我的项目的总架构设计师,是国内第一批参加整机柜实际过程的行业“老兵”,日前作客 E 企研究院主办的“凋谢新基建”访谈节目,从超大规模数据中心角度分享了以后 IT 倒退新趋势对数据中心基础设施的影响与京东智联云的下一代服务器前沿技术。

往年受新冠疫情影响,人们的工作和生存形式都产生了巨大变化,居家办公成为常态,很多事件都被迫搬到了线上,如视频会议、线上网课、直播卖货等等。侥幸的是以互联网、云计算为主的数字化技术为人们带来了微小助力,让社会没有因为疫情影响而停滞。

人们对视频的依赖导致视频的数据量出现指数级增长,这对提供视频服务的服务商基础设施提出了微小挑战。无论是计算、存储、网络传输带宽,都提出了更高要求。 数据中心里最煊赫的配角莫过于提供弱小算力的服务器,面对利用场景的多样化,服务器的需要也呈现了层次化。

过来很长一段时间里,传统 x86 通用服务器基本上能满足大部分计算的诉求,但在视频、AI 畛域大火之后,场景化的计算越来越多,某些场景对计算能力或是计算个性都会有固定的要求。因为这类场景是固化的,而且有足够宏大的市场,再用通用计算去满足效率上就不肯定是最佳的。

这种状况下,催生出了一个新概念——“多元计算”。 为了满足新利用场景的需要,更适宜编解码、视频解决、AI 的计算单元被开发进去,市场中呈现了更多的参与者去做相干的处理器。 用专用芯片必定会比通用芯片效率更高,这也是将来技术倒退的必然方向。

在专用芯片倒退热火朝天之时,通用芯片却遭逢了前所未有的挑战。过来,受摩尔定律影响,每 18 个月晶体管的密度就会翻一番,但受制程工艺的制约,当初曾经很难持续维持下去,芯片行业进入后摩尔定律时代。

既然单核运算性能已无奈持续大幅晋升,芯片制造商们纷纷开始采纳多核形式进步性能。AMD 提供了 64 核 128 线程处理器,ARM 提供 80 核的 Ampere 处理器。 在工艺受限的状况下,要想实现计算能力的叠加,就只能靠堆核。但核数减少后内存通道也会相应减少,这就意味着单台服务器的整体功耗会成倍增长。

以前一台服务器的功耗整体上 300 瓦就足够了,当初可能一个 CPU 就靠近 300 瓦,功耗的回升对于零碎散热设计的挑战越来越大。通过咱们的剖析,1U 服务器能给 CPU 散热的极限就是这个 CPU 的功耗不能超过 250 瓦,一旦 1U 的空间里处理器功耗超过这个值,风冷就很难满足散热需要,某种程度上散热曾经制约了服务器和数据中心的倒退。

京东智联云在过来一年里做了大量钻研,认为在目前状况下,Cold Plate 形式是最经济最实用的散热形式。 在京东智联云推出的下一代服务器架构中,通过风液混合散热的形式解决功率密度的问题。 它和其余的浸没式液冷计划不太一样,不会让 CPU 间接去接触这些液体,而是通过 Heat Sink 的形式来传导。

除了用液冷形式解决散热,很多厂商还思考过定制的整机柜解决方案。长期以来,包含谷歌、脸书以及国内的 BATJ 等在内的顶级互联网厂商,常常采纳整机柜甚至模块化数据中心,目标就是谋求零碎效率的最大化。

整机柜服务器自概念被提出至今已经验了 3 个阶段:

  • 第一阶段是概念炒作阶段;
  • 第二阶段是落地规范阶段,国内对整机柜服务器的了解对立到天蝎的设计,国外对立到 OCP(Open Compute Project)规范。两种规范对整机柜服务器的产品状态都是统一的,空间都是 21 英寸 1U,心愿给 IT 设施提供更多的内部空间;
  • 第三阶段是云时代,云的实质是强依赖基础设施的,只有老本足够低,云的竞争力才会好,整机柜服务器的关注点也天然放到了生态和经济效益上。

21 英寸 1U 设计有一个前提是过后的服务器单机功耗还不高,明天再回头看这个设计的局限性就变得越来越大。如果 CPU 功耗曾经达到 200 瓦以上,1U 空间的散热效率就会变得极低。

早年整机柜的设计初衷就是升高 TCO,因而所有前提都是围绕着 TCO 开展的。单个机柜的功率密度不可能无限大,那么在单个机柜固定的状况下,是通过多塞机器还是进步单机性能来实现最优 TCO 呢?很显著在目前散热效力极低的状况下,多塞机器对于整个机柜的 TCO 来说是极不适合的。相比之下,2U 服务器的计算能力要远远大于 2 台 1U 服务器,能够保障更好的散热效力,反而会取得更好的整体 TCO。

为了面向更宽泛的市场,针对整机柜的改良必不可少。联合用户的需要及痛点,京东智联云提出以“标准化、模块化、弹性化”实现全场景灵便部署的设计理念,更好地撑持用户在云计算、大数据时代的业务经营和增长。

京东智联云的下一代服务器支流利用都将回归到 2U,整机柜计划采纳 42U 19 英寸规范机柜为设计单位,节点独立散热,通用性强,实现了整机柜和规范机架服务器任意切换。 这样带来的益处是高灵活性,因为用户的需要不可预测,用户场景简单,租用机房较多,每个机房基础设施条件不一样,同时业务类型简单,资源调配迁徙需要比拟多,而目前支流的整机柜与通用机相比,无论从 21 英寸的尺寸还是集中的散热形式都有很大的差别,造成了整机柜部署的局限性,很难实现灵便迁徙,混合部署。19 英寸能够最大水平满足不同场景的需要。

当功率密度进步之后,风扇转速就会更高。因为硬盘的存储密度一直回升,对于外部环境的振动、噪声的敏感度就越来越高。因而,京东智联云在设计上针对硬盘和风扇振动采纳了“硬盘前置,风扇后置”的零碎架构,最大水平拉开风扇和硬盘之间的间隔,无效升高了触动对硬盘的影响。

同时, 京东智联云下一代服务器采纳节点前 IO 设计,机柜后部无任何线缆,所有运维工作均可在冷通道进行,单边保护效率更高,环境更敌对。同时通过模块化设计,可实现前后 IO 灵便切换,集中供电和单机供电模式灵便切换。

京东定制服务器的历史,最早能够追溯到 2014 年,过后京东与英特尔单干,设立了翻新实验室,定制了两款面向电商行业的双路服务器。晚期的尝试更多是一种基于本身业务的“投石问路”,而今对于京东智联云来说,下一代服务器交付的不再只是软件和基础设施,而是一整套服务器交付的规范和落地。 京东智联云将会围绕着下一代服务器打造私有云、公有云、混合云、全方位的云产品。

点击 ” 浏览原文 ”,理解更多京东云物理服务器

退出移动版