关于服务器:我在京东做研发第五期京东云自研服务器如何将开发成本降低-60-的同时还更低碳环保

38次阅读

共计 6759 个字符,预计需要花费 17 分钟才能阅读完成。

分享人:蔡岳霖  京东科技京东云事业部 AIDC 产品研发部工程师


中国台湾台北科技大学能源与冷冻空调所硕士毕业,主修电子冷却、两相液冷技术。长期从事服务器架构设计,曾参加 Google, Microsoft 等我的项目研发,相熟通用及订制化服务器架构。次要技术钻研方向为冷板式、浸没式以及喷淋式液冷散热,发表论文 11 篇,专利 19 项。

大家好,我是京东科技京东云事业部 AIDC 产品研发部工程师蔡岳霖。很快乐能跟大家来分享京东新一代云资源池基础设施整机柜服务器 J360 G3。

随着互联网的飞速发展,科技倒退越来越发达,云计算以前所未有的速度在各行各业疾速遍及,这些利用其实都在咱们的身边,如 5G、大数据、人工智能、剖析计算、物联网、视频影音、智慧城市、数智化以及智能制作等,并且随着这些利用需要增长,也可看到寰球对于服务器需要是一直的增长,京东身为新型实体企业,更加致力推动这些技术的倒退。

京东外部有批发、科技、物流、衰弱、工业、保险、产发、自有品牌以及国际化业务,京东采纳自研服务器来撑持这些业务。

京东有着残缺的云服务的产业链,从源头的云业务到数据中心基建、外围的服务器、残缺业余的运维服务,这都是个别的云服务厂商以及硬件集成商都是无法比拟的。

京东云是更懂产业的云。针对云业务做利用优化,针对弱小的核心部件进行订制,如订制 CPU,提供更好的算力;除此之外,京东是供应链起家,能够提供更弱小的供应链体系,并且客户为先始终都是京东的外围价值观,具备业余的技术服务以及 VIP 的服务。京东云自研服务器是从零碎架构,从不同维度去剖析各项的挑战,剖析维度可分为算力、能耗、部属、运维。

随着利用的需要一直进步,芯片算力的晋升也至关重要!但能看到的是因为芯片的算力晋升,同时也带来芯片的功耗从以往的 205W 一直的进步到 350W,甚至将来能达到 500W、750W,这个趋势情况是目前业界的状态,蕴含业界大家所知的 Intel, AMD, Ampere 或者是 nVidia。当功耗一直晋升,首先面临的挑战就是散热设计,风冷设计在散热器、风扇已开始遇到瓶颈,也就逐步开始切入液冷设计,而业界常见的液冷设计,便是冷板式、浸没式或是喷淋式液冷,从技术成熟度以及 TCO 最佳的技术,次要还是冷板式液冷,也是京东的首选。

京东也看到随着寰球资源的紧缺,节能的压力越来越大,在无限的电力内,达到最佳的成果,要满足节能的计划有许多种,液冷是属于其中一个形式,可无效升高数据中心的制冷用电,晋升 IT 的使用率,进步性能,在电源效率上的改善,也是一个不错的计划。

除此之外,京东针对不同的部属环境需要,可灵便配置不同的部署计划,如整机柜交付、配合集装箱交付,这些都是能够应答疾速部属的需要。在交付后的运维上,采纳前保护的设计,能够防止让运维人员在低温、吵杂环境下进行工作,可晋升运维环境的品质,提供舒服的运维环境。

京东云服务器次要围绕三大主轴,晋升性能效率、升高整体老本、并且做到节能环保,让地球环境能够永续经营。

京东云服务器采纳翻新的零碎架构,并采纳第四代英特尔至强可扩大处理器,京东实验室内部测试后果,性能可晋升 1.7 倍,并反对整机柜交付,使交付效率晋升 5 -10 倍,并可升高包材的应用,晋升运输效率,升高碳排放。京东所采纳的 CPU 是与 Intel 订制规格,具备 SST 切换性能的技术。

在架构设计上,采纳模块化设计、灵便反对前置 I / O 或后置 I /O,并反对免工具保护。

在供电及散热上,采纳全新的服务器架构,如 54V 供电,可使全链路电源效率改善 3.67%;采纳 EVAC 散热器及液冷技术,可使散热效力晋升 50%

京东云服务器也都是经验过千锤百炼的,例如每年的 618, 11.11 的大促,像虎年抢红包高并发的需要,京东云服务器都是轻松应答,顺利完成工作。聊完特点,咱们来看看京东云服务器在架构设计上,有哪些要害设计︰

•        首先是模块化设计,模块化设计能够带来的长处是在不同的服务器平台上,兼容此设计,反复复用,升高整体的开发成本,并且通过不同平台的应用,模块化后的可靠性也一直的进步,可大量晋升开发效率;但模块化设计是须要有久远的眼光,能力定义的,要不在将来的平台上,无奈兼容复用时,那不仅是无奈满足降本、进步开发效率需要,并会造成开发成本大幅晋升

•        服务器可反对整机柜出货,整机柜出货可响应高效部属的需要,并且还可升高包材应用、缩小碳排放的功效

•        京东云服务器可提供灵便的配置,这可满足不同环境的需要,如反对前后 IO 保护、多元的供电计划,如 CRPS 规范电源、集中供电设计等,风冷 / 液冷高效散热计划,这些都可灵便应用于传统租赁机房,或是实用于节能、具备冷热通道保护的自建数据中心

•        与通用 2U 机器不同的是,京东云服务器采纳后置风扇,通用服务器个别将风扇设计在硬盘与主板之间,但因为主板的设计需要一直增大,风扇与硬盘的距离一直的放大,且因为风扇的性能要求更高,转速也一直的晋升,这就呈现风扇与硬盘之间会呈现共振景象,导致在特定风扇转速时,硬盘会有停滞的景象;京东云服务器采纳后置风扇后,与硬盘的间距拉远,从根部解决共振的问题。除此之外,还可从服务器前方间接进行风扇的热保护,解决通用服务器须要停机、开盖能力针对风扇进行保护,大幅晋升运维的效率。

在机箱的配置上,有 16 x 2.5”, 9 x 3.5”, 12 x 3.5”的硬盘配置,反对前 IO, 后 IO 的配置,电源上可抉择 CRPS, 12V, 54V 集中供电的计划,如采纳高效能散热计划,可选配液冷服务 器。服务器次要是由三大件 CPU、内存、硬盘以及 IO、供电、散热计划组成,京东云服务器在这些因素上,都能够混合搭配,整个服务器的架构使用户的配置选型上能够更灵便,这样能够应答更多灵便的场景需要。这里再提一下,京东云服务器针对 2.5”盘上有做 Anybay 的背板,Anybay 就是能够反对 SATA/SAS 以及 NVMe 的硬盘,这是从市场利用上剖析进去,其实 2.5”盘更须要有这样弹性的应用。

京东云 J360 G3 服务器,可反对 2 颗第四代英特尔可扩大处理器,代号 (Sapphire Rapids),此处理器是京东的订制 CPU,京东云是寰球多数可与英特尔订制 CPU 的合作方,解决的TDP 最高可达 350W,并反对 SST 切换性能,可依据业务需要不同,切换处理器的外围、主频个性,用于应答灵便的业务个性。

内存部份可反对 32 个 DDR5 内存槽,速率最高可达 4800MHz,并反对 Intel Optane™ Persistent Memory。在 Sapphire Rapids 平台可反对 PCIe Gen5,速率可达 32GT/s,服务器最大可反对 7 个 PCIe 卡。电源部份可反对 1 + 1 冗余需要。

京东云服务器采纳模块化设计,能够使物料复用率达到 70%,开发周期缩短 60%,开发成本降落 60%。模块化涵盖范畴有存储模块化,可反对 9 个 3.5”硬盘、12 个 3.5”硬盘、16 个 2.5”硬盘;IO 模块化可反对前 IO/ 后 IO 以及内置 IO 的设计。供电的模块化更是丰盛,可搭配业界罕用的 CRPS 电源,针对高效能利用,可采纳集中供电模式,包含 12V/54V 的供电计划。散热模块化也可选配风冷散热模块搭配风扇,或是高效能利用,采纳冷板式液冷 + 风扇的节能计划。

刚提到京东云服务器具备多元的供电计划,其中最为特地的是 54V 集中供电计划,京东云服务器是寰球多数已具备残缺计划的产品,目前常见应用的次要是海内的 OCP 组织。

为什么这个计划不常见呢?这计划其实是实用于肯定规模的数据中心,才会须要用到高功耗机柜。高功耗机柜又是怎么来的呢?源头还是从芯片功耗一直的进步,对于机柜功耗的需要也随之晋升,但当单机柜功耗晋升到肯定水平后,全链路的供电损耗也就越来越大,电力损耗,一部分代表的就是经营老本进步,另一部份便是碳排放减少,这都是京东不愿看见的方向。因而,京东针对机柜功耗的需要,采纳不同的计划。从这个图能够看到,咖啡色这条线是 12V 供电的全链路效率,能够是 CRPS 规范电源,这也就是通用服务器最常见的计划。这也能够是 12V 的集中供 +Power shelf 的计划,蓝色这条线是 54V 供电 +Power shelf 全链路效率,当随着单机柜功耗一直的减少时,全链路效率的落差就越显著。

京东云服务器开发 54V 的集中供电搭配 Power Shelf 的计划,在单机柜 20kW 的条件下,可使全链路效率改善 3.67%,这成绩可使单机柜功耗 1 年可节电 8500 度电,碳排放可升高 8.7 吨。

接着咱们来看看散热的计划,通用的 2U 服务器个别为了使服务器老本升高,所以采纳规范的散热器,而疏忽掉采纳高性能散热器可达到节能、降噪的效用。京东云则是从客户角度登程,心愿可能在生命周期内既可做到大量节能的目标,改善乐音,达到最佳 TCO,采纳高效能 EVAC 散热器,他可使整机功耗节能 8%,使风扇转速降落 34.3%,进而改善噪声。

对于数据中心更高效的散热计划,则是采纳液冷模块,京东云液冷服务器的冷板,采纳模块化设计,可反对多平台的 CPU,最高可反对 750W 的芯片功耗,并可智能切换风冷与液冷的风扇调控策略,确保节能优化,并采纳 UQD 快拆接头,满足模块化设计。最重要的是京东云液冷服务器通过谨严的可靠性测试,其中涵盖高低温、湿度、振动、冲击、极限压力等可靠性测试,晋升液冷设计的牢靠度。

聊到液冷,目前业界常见的次要还是三个液冷技术,冷板式液冷、浸没式液冷、喷淋式冷却三种,那一种液冷计划好呢?京东的优先选择是冷板式液冷。

这张图能够看到各种液冷技术的成熟度,整个技术演进过程中,冷板式液冷的成熟度是最高的,而对于数据中心的架构影响,也是冷板式液冷最小,而从服务器的架构、密度来看,因为浸没式冷却机柜是须要横躺的,须要有上方空间进行服务器保护,所以对于服务器所能部属的数量也比拟无限,冷板式液冷可不必大幅扭转服务器架构,密度上与现有部属形式统一,因而,冷板式液冷更是优于浸没式液冷。

采纳京东云液冷服务器后,在部属已有相当成绩,右图这是京东位于廊坊的数据中心,液冷机房的 PUE 改善至 1.1,具备热回收技术,可使整体的碳排放少达 2000 吨,而因为采纳液冷,可使单机柜的利用率进步,可晋升部属密度达 28.6%。

其实业界有许多厂家也想做液冷设计,但可能因为技术成熟度或着是不晓得如何下手,而却步不前。而业界违心分享或着是帮忙的厂商却是少之又少,京东云做为冷板式液冷的领先者,也心愿对业界进行赋能,帮忙推动液冷生态倒退,所以分享多项的参考设计、实际成绩、白皮书以及液冷规范的相干制订。尤其是与 Intel 的冷板式液冷参考设计,内容深入浅出,在业界是没有与 Intel 独特制订的液冷参考设计。

(京东云与 Intel 联名白皮书可下载获取:)

其实业界有许多厂家也想做液冷设计,但可能因为技术成熟度或着是不晓得如何下手,而却步不前。而业界违心分享或是帮忙的厂商却是少之又少,京东云做为冷板式液冷的领先者,也心愿对业界进行赋能,帮忙推动液冷生态倒退,所以分享多项的参考设计、实际成绩、白皮书以及液冷规范的相干制订。

尤其是与 Intel 的冷板式液冷参考设计,内容深入浅出。这参考设计内数据中心开展至 CDU 内的热交换器、水泵、管路接头、工质选型、漏液计划,这几个部件为什么要害呢?热交换器的性能取决于数据中心水回路中的一次侧与二次侧的热交换,如果温差过大就会造成热交换器的尺寸较大;水泵则是攸关于整个水回路,须要关注是否可能保障提供足够的能源将液体推到每个冷板内,除此之外,还须要有管制性能,优化的水流量,能力将水泵的功率优化。

再到 IT 侧的机柜,有分水器、快拆接头,分水器是须要将 CDU 提供的液体,平均调配到各个节点内,但每个节点有足够平均的流量就是这个关键点,以机柜为例,个别可能最上方跟最下方的流量会有落差,所以须要保障均流性;管路部份,如果管内流速过快,有可能呈现爆管的景象,或因为管内长期被液体冲刷,管壁过薄,造成管路破裂;接头部份则是要帮忙运维同仁,不便进行单节点保护,快拆接头具备球阀断开的性能,还不便运作。

到服务器外部的冷板、管路接头、漏液计划、资料兼容性。冷板对于 CPU 是要害的换热部件,外部须要做微流道,每个流道能做到 0.2mm 这么小的间隙,所以加工制程上是很有挑战的,而过密的通道,会导致阻抗变大,使水泵转速进步,功耗晋升。漏液计划,须要将漏液绳布在液冷回路上,当有滴漏时,须要进行告警提醒,并针对服务器进行断电解决,防止造成更大的灾祸。

这些部件还有很重要的要害,就是谨严的可靠性测试做撑持。这可靠性测试蕴含温湿度、盐雾测试、振动、冲击等相干测试。

京东云服务器可反对整机柜交付,其机柜宽度为 600mm, 高度为 2100mm, 深度为 1200mm,可反对规范 19”服务器,可反对前 IO/ 后 IO 的服务器,装设服务器、交换机;其中选配部份可抉择 PDU 或着是 Busbar 搭配 Power shelf,如有液冷需要,可选装分水器。整机柜交付能够在工厂端进行预制、测试验证,可大幅升高在机房组装的工夫,所以大幅晋升交付的效率。

整机柜交付的益处是可部属效率高,当运送至数据中心时,能够看到,整机柜含服务器能够疾速的卸货、测验、推动柜位,接着将电源、网络、液冷设施连贯至机柜上,即可进行业务部属,间接应用,与以往的机柜 / 服务器离开交付、上架是截然不同,这交付效率可晋升 5 -10 倍。

再者,传统交付形式,是单机柜交付至数据中心,服务器再交付至数据中心,这各自的包材、运输所须要应用的汽油,都是减少的,所以采纳整机柜交付后,并能够缩小包材使用量达 60%,交通碳排放缩小,每 1000 台服务器可达 7.2 吨。

京东云服务器具备架构翻新、高效能设计以及模块化设计,也就带来更高性能计算、存储密度、高能效、高交付效率、灵便兼容不同环境的长处。

没有最好的产品,只有最适宜本人的产品,而京东云服务器开发的初心,从客户角度登程,以性能、老本、节能环保为外围,发明可继续倒退的服务器产品。

后续,京东云还将把这些翻新成绩,通过开源社区回馈给行业,为 IT 行业的翻新倒退做更多奉献。

Question 京东云服务器有哪些劣势?

京东云服务器从客户角度登程,关注性能、老本、节能环保。利用订制化 CPU 大幅晋升性能,用模块化设计灵便搭配电源、散热计划、以及应用节能计划来达到 TCO 最佳,并采纳当先技术来助力节能减碳,如高效电源技术、冷板式液冷技术。

另外,京东云服务器是通过大规模利用,如每年的双十一、618 大促流动,或着是虎年抢红包高并发的需要,京东云服务器都是顺利应答,并且具备残缺的运维体系,可提供 VIP 级服务,7×24 小时白金服务。

Question :为什么思考用冷板式液冷?

要采纳新技术,必定是从技术成熟度、部属密度、TCO 去思考。

从技术维度进行评估,冷板式液冷的技术成熟度相比于浸没式或是喷淋式都是最高的。

从部属密度评估,雷同的空间内,冷板式液冷是比浸没式高的。

从数据中心评估,冷板式液冷的改变是最小的。

所以整体评估起来,冷板式液冷是 TCO 最佳的,且技术成熟度最高,并且还能够达到节能、降碳的指标,一个能够降老本、又有助于地球环保的技术,何乐而不为呢?

Question :京东云的液冷能够洽购应用吗?

京东云的液冷曾经做到模块化设计、齐全解耦,冷板能够灵便应答不同 CPU 平台,并且采纳 UQD 规范快拆接头,如果业界对于这些冷板组件想要应用,是能够与京东云进行接洽,依据需要能够应用不同的液冷部件。

商务︰徐景东, xujingdong5@jd.com, 18682452425

Question :京东云订制化服务器能够洽购应用吗?

京东云订制化服务器起初是反对外部应用,通过大规模的利用、千锤百炼后,目前曾经对外做商业化,如有须要能够与负责商务的共事进行接洽,或是能够在京东云官网上进行征询。可基于客户的各关键部件的规格需要,像是 CPU 须要的主频、外围需要、内存及硬盘的容量需要等,提供计划、进行洽购。

京东云官网︰https://www.jdcloud.com/cn/products/haas-server

商务︰徐景东, xujingdong5@jd.com, 18682452425

Question :京东云服务器能够搭配浸没式应用吗?

浸没式冷却的液体如果间接接触服务器主板,是会对高速信号造成很大的性能影响,对于主板是须要做非凡设计能力兼容液体。京东云服务器从各维度去思考,如同之前提到的技术成熟度、TCO、密度这些条件,次要是应用冷板式液冷,所以对于主板没有做非凡设计,防止成本上升。从另一方面来看,目前对于商业化的客户,也没有迫切应用浸没式液冷的需要,不应该为了反对浸没式液冷,而将主板、整个服务器的老本拉高,让客户来承当这块费用。

正文完
 0