乐趣区

关于数据中心:探访华为云全球最大云数据中心背后藏着这些黑科技

基础设施即服务 | infoQ

新基建背景下,数据中心作为撑持新基建倒退的重要 IT 基础设施,愈发受到重视。除三大运营商外,BAT 等互联网巨头近年也开始鼎力投入数据中心的建设和布局。近日,InfoQ 记者来到华为云贵安数据中心实地探访,进一步理解 AI 和大数据等技术在撑持超大型数据中心日常运行所施展的作用。

2016 年,华为与贵州省政府签订策略单干协定,数据中心正式投建。目前华为云贵安数据中心一期曾经投入使用,共建设有 9 栋机房,预计将来三到五年还会有更多机房建成。

据华为云营销部长董理斌介绍,贵安数据中心布局为华为寰球最大的云数据中心,全副建成后可包容 100 万台服务器。它也是华为云业务的重要承载节点,次要承载华为云、消费者云和华为外部流程 IT 等业务。“如果以贵州为核心,用一千公里画一个半径,贵安华为云数据中心的服务范畴可能辐射到重庆、广西、广东、云南、四川等周边省份和地区。”

除了建设数据中心以外,华为云贵安数据中心还将承当华为寰球 IT 保护工程师基地、员工培训实习基地的职能。预计将有约 600-800 位 IT 保护工程师对数据中心提供反对与服务,每年还将有大量人员到园区进行全景化实战培训、实习等。

以后,华为云在中国布局了五大数据中心,除了贵安和乌兰察布外,还有京津冀、长三角、粤港澳片区三大外围数据中心。在国内数据中心布局中,华为云次要基于时延来进行数据中心的冷、温、热布局,其中冷服务次要建在低成本中央,温服务贴近沿海的低成本中央,热服务则布局在贴近客户需要的中央。在海内,华为也在欧洲、中东、非洲、亚太、拉美等区域建设了本地数据中心。

在董理斌看来,以后数据中心及相关联产业目前仍处在飞速发展阶段。仅在贵州,华为云就已为超过 800 家贵州企业数字化转型提供服务,全省 62 家省直部门 1438 个数据资源都已上云。而据中国信息通信研究院数据,截至 2020 年底,我国在用数据中心机架总规模超过 400 万架,近 5 年年均增速超过 30%。

但数据中心产业疾速倒退的同时,也带来了能耗大幅增长的问题。据《中国数据中心能耗现状白皮书》,早在 2015 年,全国大数据中心的耗电量已达 1000 亿 kWh,相当于三峡电站全年的发电量;2018 年这个数值迅速俯冲至 1609 亿 kWh,超过上海全年的社会用电量。

能耗问题如何破解?

往年 7 月 14 日,工业和信息化部印发《新型数据中心倒退三年行动计划(2021-2023 年)》(以下简称“行动计划”)明确指出:到 2021 年底,全国数据中心均匀利用率力争晋升到 55% 以上,总算力超过 120EFLOPS,新建大型及以上数据中心 PUE 升高到 1.35 以下;到 2023 年底,全国数据中心机架规模年均增速放弃在 20% 左右,均匀利用率力争晋升到 60% 以上,新建大型及以上数据中心 PUE 升高到 1.3 以下,酷寒和凛冽地区力争升高到 1.25 以下。

PUE,即 Power Usage Effectiveness,这是一项用于评估数据中心能源效率的指标,它的值取自数据中心耗费的所有能源(总能耗)与 IT 设施耗费的能源的比值。其中数据中心总能耗包含 IT 设施能耗和制冷、配电等零碎的能耗,因而 PUE 值通常大于 1,PUE 值越靠近 1 表明非 IT 设施耗能越少,即能效程度越好。

华为云贵安数据中心的能效比 PUE 做到了 1.12,处于业界领先水平。董理斌在采访中向 InfoQ 示意,为了把 PUE 做到尽可能低,华为云采取了多重伎俩。

首先,数据中心选址贵安次要也是基于气象的思考,贵安年均温度约 15℃,空气质量良好,没有化学、颗粒物净化,使采纳直通风天然冷却成为可能。为了充分利用天然冷源,搁置服务器的机房修建相比其余一般修建也做了一些非凡设计,包含更高的层高和用百叶窗代替一般窗户,而百叶窗背地其实就是一个个的机柜。冷风经大楼百叶窗送进机房,热风经热通道从楼顶排出。

其次,数据中心设施区和办公区域采纳中温冷冻水零碎,散发的热量一部分通过瀑布和湖面实现天然冷却,另一个局部通过热回收技术用于游泳池和办公区夏季制热,实现余热回收,缩小热损耗。此外还引入了服务器液冷技术,可能把热量间接从芯片上带走,缩小制冷无关损耗,晋升设施密度升高能效比。

AI 技术也在其中施展了重要作用,基于 AI 技术可能实现随业务功率的变动实时调整制冷功率、削峰平谷,使各服务器负荷平衡,进一步晋升资源应用效率比。同时在供电环节用功率半导体替换铜器件,联合智能算法,又能进一步升高供电损耗。

华为云称,在满负荷运行的状况下,预计每年可节俭电力 10.1 亿度,缩小碳排放 81 万吨,相当于年植树 3567 万棵。

智能运维:人均运维设施数量晋升 10 倍

在数据中心生命周期中,数据中心运维治理是数据中心生命周期中最初一个、也是历时最长的一个阶段。如何用尽可能少的运维人员高效实现数据中心的运维工作,同样是一个十分大的挑战。

随着数据中心规模不断扩大,当故障产生时,想要在几十万甚至上百万台服务器中,通过人工来确定故障具体产生在哪个机房、哪个机柜、哪台机器,并找到出问题的具体起因,曾经十分艰难。为了解决这个问题,华为云联合智能传感和 IoT 等技术构建了数字孪生平台,能够实时显示数据中心环境和设施的状态,把供电和制冷全链路状态以及各模块每台服务器工作状态、工作温度全副可视化。

联合华为河图虚构加强事实技术,运维工程师能够十分不便地实时看到机柜温度、湿度、通风等机房环境信息,人均运维设施数量晋升了 10 倍,故障定界定位工夫也从 30 分钟大幅升高到 1 分钟。

据理解,河图是华为在 2019 年 8 月推出的底层技术平台,定位数据基础设施,其外围能力包含全场景空间计算能力、AR 步行导航、场景编辑、渲染等核心技术。

此外,借助大数据分析和 AI 技术,还能够提前剖析可能存在的隐患,对基础设施故障进行预测并公布智能危险揭示,从而把运维工作从“被动”变为“被动”,防备于未然。

本文由华为云公布

退出移动版