关于人工智能:无惧大规模预训练模型浪潮AI服务器引领Transformer训练性能提升

4次阅读

共计 2212 个字符,预计需要花费 6 分钟才能阅读完成。

近日,寰球权威 AI 基准评测 MLPerf™最新 V2.0 训练评测问题榜单颁布。浪潮 AI 服务器体现优异,继两月前在 MLPerf™ V2.0 数据中心推理评测中斩获全副冠军后,本次又在 MLPerf™ V2.0 单机训练性能持续放弃当先。

本次 MLPerf™评测吸引了包含谷歌、NVIDIA、浪潮信息、百度、Intel-Habana、Graphcore 等寰球 21 家厂商和钻研机构参加,共有 264 项评测问题提交,是上一轮基准评测的 1.5 倍。评测工作涵盖了当下支流 AI 场景,包含自然语言解决(BERT)、智能举荐(DLRM)、图像分类(ResNet)、医学影像宰割(3D U-Net)、轻量级指标物体检测(RetinaNet)、重量级指标物体检测(Mask R-CNN)、语音辨认(RNN-T)以及强化学习(Minigo)8 类 AI 工作。

在本次单机训练评测的固定工作中,浪潮信息以高端 AI 服务器斩获自然语言了解(BERT)、智能举荐(DLRM)、语音辨认(RNN-T)三项性能问题第一,位列单机冠军榜首。在本次配置 8 颗 NVIDIA A100 Tensor Core GPU 的支流高端 AI 服务器中,浪潮 AI 服务器斩获 5 项工作最佳问题(BERT、DLRM、RNN-T、ResNet、Mask R-CNN)。

大幅晋升 Transformer 训练性能

以后,基于 Transformer 神经网络的预训练大模型正引领新一代 AI 算法倒退,并逐渐从自然语言解决走向计算机视觉、多模态等畛域。MLPerf™评测工作中的 BERT 模型即是基于 Transformer 架构的模型。Transformer 简洁、可重叠的架构使得开发极大参数量、基于极大数据集的预训练大模型成为可能,这带来了模型算法能力的大幅晋升,但同时也对 AI 计算零碎的解决性能、通信互联、I/ O 性能、并行扩大、拓扑门路及散热能力提出了更高的要求。

在本次 BERT 评测工作中,浪潮 AI 服务器通过优化数据预处理、GPU 之间密集参数通信、超参数主动寻优等,进一步晋升了 BERT 训练性能,在 15.869 分钟内即在 Wikipedia 数据集的 2850176 条数据上实现了 3.3 亿参数的 BERT 模型训练,相较于 V0.7 版本的最佳问题 49.01 分钟的性能晋升达到 309%。至此,浪潮 AI 服务器曾经间断三次取得 MLPerf™训练 BERT 工作性能冠军。

超过摩尔定律,继续领跑 AI 计算性能晋升

MLPerf™评测组织机构 MLCommons 执行主任 David Kanter 在此次问题发布会上示意,自首次颁布评测基准以来,MLPerf 性能晋升速度远超过摩尔定律。思考到业界对计算和 AI 的需要正以惊人的速度增长,这让人十分振奋。

自加入 MLPerf™ AI 性能评测以来,浪潮 AI 服务器通过软硬件全面优化,继续实现 AI 性能冲破。相较于 2018 年 12 月 MLPerf™ 初始版本 V0.5 的典型配置 8 卡机型的性能数据,浪潮 AI 服务器的性能显示出大幅晋升,晋升比例最高达 789%,2.35 倍于摩尔定律增速。

浪潮 AI 服务器在 MLPerf™基准评测中的卓越体现,得益于浪潮信息在 AI 计算零碎上优异的设计创新能力和全栈优化能力。浪潮 AI 服务器针对 AI 训练中常见的密集 I / O 传输瓶颈,通过 PCIe retimer-free 设计实现了 CPU-GPU 间通道免中继高速互联,大幅升高通信提早;并针对高负载多 GPU 协同任务调度,以及 NUMA 节点与 GPU 之间的数据传输性能进行了深度优化,确保训练任务中的数据 I / O 通路处于最高性能状态;在散热层面,率先实现 4U 空间内部署 8 颗 500W 的高端 NVIDIA A100 Tensor Core GPU,并反对风冷、液冷两种散热形式。同时,在模型训练全流程中,浪潮 AI 服务器继续通过优化预训练数据处理、GPU 之间高速通信、GPU 外围减速等要害模块,最大化晋升了 AI 模型的训练性能。

浪潮信息在 MLPerf™ V2.0 训练评测中获得佳绩的 2 款 AI 服务器别离是 NF5488A5 及 NF5688M6。NF5488A5 是寰球首批上市的 NVIDIA A100 Tensor Core GPU 服务器,在 4U 空间反对 8 颗 由 NVIDIA NVLink 互联的 NVIDIA A100 Tensor Core GPU 和 2 颗 AMD Milan CPU,同时反对液冷和风冷散热技术,累计斩获 40 项 MLPerf™ 冠军。NF5688M6 是面向大规模数据中心优化设计的具备极致扩大能力的 AI 服务器,反对 8 颗第三代 NVLink 互联的 NVIDIA A100 Tensor Core GPU 和两颗 Intel Ice Lake CPU,反对多达 13 张 PCIe Gen4 的 IO 扩大能力,累计斩获 25 项 MLPerf™ 冠军。

附:MLPerf™简介

MLPerf™ 是影响力最广的国内 AI 性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联结顶尖学术机构发动成立。2020 年,非盈利性机器学习凋谢组织 MLCommons 基于 MLPerf™ 基准测试成立,其成员包含 Google、Facebook、NVIDIA、英特尔、浪潮信息、哈佛大学、斯坦福大学、加州大学伯克利分校等 50 余家寰球 AI 领军企业及顶尖学术机构,致力于推动机器学习和人工智能规范及掂量指标。目前,MLCommons 每年组织 2 次 MLPerf™ AI 训练性能测试和 2 次 MLPerf™ AI 推理性能测试,以便疾速跟进迅速变动的计算需要和计算性能晋升,为用户掂量设施性能提供权威无效的数据领导。

正文完
 0