乐趣区

关于服务器:架构革新路漫漫京东智联云自研服务器设计细节探秘

架构变革路漫漫,京东智联云自研服务器设计细节探秘
在人工智能、物联网高速倒退的明天,所有数据的计算和利用都离不开底层数据中心的撑持。如果把数据中心比作是一只数字军队,那数据中心机房机架上的一台台商业服务器就是火线的士兵。士兵的强弱间接影响军队的战斗力,服务器也是一样。底层服务器的翻新设计,将最终促成数据中心的改革,晋升下层利用的体验。

作为国内互联网巨头,京东在自建数据中心与自研服务器方面积攒了深厚的教训。在近期举办的 《面向全场景部署模块化设计,京东智联云自研服务器摸索》技术公开课 上, 来自京东智联云 IDC 与根底运维部的技术专家王世锋与英特尔云计算架构师周超, 针对 IDC 现有对于服务器硬件相干的难点和痛点,分享了京东智联云最新自研下一代服务器的设计理念、技术拆解、数据指标等干货。以下为公开课核心内容:

一,四大起因,掣肘现代化数据中心的改革之路

除了服务器本身设计,现有数据中心的最硬性指标 PUE(Power Usage Effectiveness,数据中心总能耗 / IT 设施能耗)始终偏高,均在 1.4- 3 之间。本世纪初或者上个世纪建设的机房,没有做冷热通道隔离,机房设备简陋,PUE 值更高,甚至超过 3。单位功耗提供更高的算力和存储是数据中心始终谋求的指标,在将来大规模部署的超大数据中心中,升高 PUE 将是重点须要解决的难题。

部署运维的轻便和繁琐也是掣肘数据中心的难点。 当初服务器部署周期简短,从拆包,上架,机柜内接线,均匀每台服务器部署工夫约 1 小时,每名运维工程师每天只能部署一个机架的服务器。在运维时,以后服务器设计都是前部硬盘、内置风扇、后端出线,更换风扇等硬件要全副拔线、服务器关机下架、开盖更换硬件,再次上架插线,操作繁琐。服务器的部署和运维效率低,没有实现智能化运维。

从效力角度,目前服务器采纳高密度布局,但 90% 仍采纳传统风冷对流,换热系数较低,随着服务器 CPU 功耗晋升,风冷散热模式濒临极限。通过测算,下一代 Eagle Stream 350 W 的 CPU 在 1U/2U 服务器节点用风冷形式曾经无奈实现目标性能,数据中心将来须要摸索采纳冷板式液冷或者浸没的液冷形式。

京东智联云技术专家王世锋认为,将来的服务器将倒退为依据不同客户需要进行定制,还会以整机柜形式交付以进步交付效率。 同时数据中心将谋求尽可能低的 PUE 数值以节俭电力老本,IDC 运维将向简单化、智能化、无人化方向转变。服务器整体能效将通过新的零碎架构及新技术的导入使效力显著晋升。数据中心冷却形式将由风冷向水冷模式转变。

二,全新架构自研服务器,兼具灵便与极致性能

针对数据中心和服务器的现存问题,京东智联云以稳固牢靠、可定制化、全场景笼罩、绿色节能、高性价比的设计理念,对服务器进行了全新架构设计,推出了业界第一款能够实现前后 IO 模块化切换的自研服务器,除了一体机交付,还能够通过整机柜交付,可能与传统服务器兼容,无效晋升了数据中心灵活性。

在京东智联云自研模块化服务器的全新架构设计中,最大的亮点是前后两个 IO 模块设计,可能做到灵便切换前后 IO,后 IO 能够实用于没有理线架而无奈反对前端 IO 的规范机柜,灵便的模块化设计可实用于更多部署场景的数据中心。图中具体拆解展现了京东智联云自研模块化服务器的设计思路,前端搁置硬盘、前 IO 模组,两头为主板,主板后为 PCIE 模组可外接 PCIE 卡,尾部搁置风扇,或减少后 IO 模组。另外,服务器反对 CRPS 规范电源,同时也反对电源转化模组,不便整机柜电源集中管理。京东智联云自研模块化服务器还设有上水冷模组,可实现风冷 + 水冷的风液混合散热模式。

京东智联云邀请希捷对自研模块化服务器与传统服务器进行了比照测试,别离测试服务器在 14T 和 20-24T 机械硬盘下性能体现。14T 机械盘的状况下京东智联云自研服务器性能靠近百分之百,传统服务器只达到 85%;20-24T 的状况下,京东智联云自研服务器 Performance loss 为 3%,性能达到 97%,但传统服务器性能已降为 7%,简直为不可用状态,更无奈满足对性能有较高要求的互联网企业。

硬盘的性能对整体服务器的影响颇深,那么影响硬盘性能的起因次要是服务器散热应用风扇的触动与切割空气产生的稳定,其会升高硬盘性能体现;随着存储需要迅速增长,硬盘存储密度也在相应减少,导致硬盘磁密度减少,最终硬盘对外界的触动更敏感。而这两种景象则形成了妨碍行业倒退的悖论。

而京东智联云突破悖论的形式次要有以下三点形成:

  • 第一点是通过布局设计将风扇与硬盘物理隔离在服务器两端;
  • 第二点是升高服务器温度。京东智联云自研服务器引入了业界新的液冷模块化计划,采纳冷板式液冷散热器后,风扇转速升高,防止了对硬盘性能的影响;
  • 第三点则是服务器采纳了英特尔定制化 CPU,目前曾经从规范 CPU、第一代定制进入到第二代定制 CPU 阶段,第二代定制 CPU Icelake 与和第一代相比,性价比再次晋升 30%

通过全新的架构设计,以及整机柜和一体机交付,京东智联云的自研服务器取得了以下六方面的性能优化:

  • 全新架构设计,实现整机柜和规范服务器的兼容;
  • 第一款可实现前置和后置 IO 的模块化服务器;
  • 采纳英特尔最新的定制化 CPU,性能晋升 30%;
  • 集中供电系统,效力晋升 8%;
  • 翻新的混合散热设计,散热效力晋升 50%;
  • 交付效率晋升 5 到 10 倍。

据介绍,京东智联云还将本身互联网大厂的技术实力推向企业市场,京东智联云硬件定制化服务 HaaS 一体机产品,集成空调、UPS、自研服务器、交换机和监控软件的整体解决方案。联合京东智联云自研的云产品,如 AI 一体机、PASS 一体机、办公一体机等软硬联合的一体化解决方案,赋能京东智联云。将来,京东智联云自研服务器将成为京东数据中心的主力,同时也将会对外售卖,为更多客户解决服务器应用的痛点。

三,揭秘数据中心最热门的液冷技术

液冷是目前在数据中心畛域十分热门的钻研方向,因为目前数据中心机架服务器所有的器件功耗都在快速增长,导致传统的风冷散热计划不堪重负,而液冷比风冷散热系数更优异,会成为将来数据中心倒退演进的必经之路。英特尔投入大量人力物力研发液冷的设计和技术实现,英特尔云计算架构师周超在技术公开课中介绍了京东在数据中心机架服务器的液冷设计和实际

液冷的零碎架构分为一次侧和两次侧,通过板式换热器实现“液体到液体”内外替换。冷量管制单元 CDU 把冷液体 bump 推动到机架服务器外敷通过冷板与 CPU 实现二次热交换,热液体带走机架内的热量回到 CDU 的板式换气器与内部液体替换热量,从新变为冷液体。

液冷零碎的关键部件会依据零碎的理论工况抉择最适宜的设计方案。CPU 液冷板、内存液冷板、连贯软管、节点内内液器、液漏监测等。其中最重要的是设计冷板的不同 Fin 和液体出入口设计实现最优的液冷计划,另外风冷和液冷可能共存的现状下,京东翻新地设计了两者兼容的节点内分液器,液冷导管制管封装尺寸和风扇封装尺寸完全相同,在反对 CPU 功耗较低的主板时可采纳风冷计划,如果零碎 CPU 功耗较高,能够间接无缝降级到液冷计划,实现风冷和液冷模式的自在切换。

另外 针对关键部件的漏液危险,京东选用液漏感应绳监测计划,感应绳安排在液冷零碎的流道上。 当任何一个中央产生泄露,传感器能够检测到电压阻抗的变动,来判断是否漏液。通过 BMC 监测,能够实时实现漏液的查问和上报,不便远程管理。

点击 浏览原文 查看公开课回放。

举荐浏览:

  • 11.11TECH TALK | 媲美物理机 裸金属云主机极致性能轻松应答 11.11 大促
  • 干货 | 电子设备散热技术详解
  • 后摩尔时代京东智联云如何解决数据中心的冷与热?

欢送点击【京东智联云】,理解开发者社区

更多精彩技术实际与独家干货解析

欢送关注【京东智联云开发者】公众号

退出移动版