关于人工智能:无惧大规模预训练模型浪潮AI服务器引领Transformer训练性能提升

近日，寰球权威AI基准评测MLPerf™最新V2.0训练评测问题榜单颁布。浪潮AI服务器体现优异，继两月前在MLPerf™ V2.0数据中心推理评测中斩获全副冠军后，本次又在MLPerf™ V2.0单机训练性能持续放弃当先。

本次MLPerf™评测吸引了包含谷歌、NVIDIA、浪潮信息、百度、Intel-Habana、Graphcore等寰球21家厂商和钻研机构参加，共有264项评测问题提交，是上一轮基准评测的1.5倍。评测工作涵盖了当下支流AI场景，包含自然语言解决（BERT）、智能举荐（DLRM）、图像分类（ResNet）、医学影像宰割（3D U-Net）、轻量级指标物体检测（RetinaNet）、重量级指标物体检测（Mask R-CNN）、语音辨认（RNN-T）以及强化学习（Minigo）8类AI工作。

在本次单机训练评测的固定工作中，浪潮信息以高端AI服务器斩获自然语言了解（BERT）、智能举荐（DLRM）、语音辨认（RNN-T）三项性能问题第一，位列单机冠军榜首。在本次配置8颗NVIDIA A100 Tensor Core GPU的支流高端AI服务器中，浪潮AI服务器斩获5项工作最佳问题（BERT、DLRM、RNN-T、ResNet、Mask R-CNN）。

大幅晋升Transformer训练性能

以后，基于Transformer神经网络的预训练大模型正引领新一代AI算法倒退，并逐渐从自然语言解决走向计算机视觉、多模态等畛域。MLPerf™评测工作中的BERT模型即是基于Transformer架构的模型。Transformer简洁、可重叠的架构使得开发极大参数量、基于极大数据集的预训练大模型成为可能，这带来了模型算法能力的大幅晋升，但同时也对AI计算零碎的解决性能、通信互联、I/O性能、并行扩大、拓扑门路及散热能力提出了更高的要求。

在本次BERT评测工作中，浪潮AI服务器通过优化数据预处理、GPU之间密集参数通信、超参数主动寻优等，进一步晋升了BERT训练性能，在15.869分钟内即在Wikipedia数据集的2850176条数据上实现了3.3亿参数的BERT模型训练，相较于V0.7版本的最佳问题49.01分钟的性能晋升达到309%。至此，浪潮AI服务器曾经间断三次取得MLPerf™训练BERT工作性能冠军。

超过摩尔定律，继续领跑AI计算性能晋升

MLPerf™评测组织机构MLCommons 执行主任 David Kanter 在此次问题发布会上示意，自首次颁布评测基准以来，MLPerf性能晋升速度远超过摩尔定律。思考到业界对计算和AI的需要正以惊人的速度增长，这让人十分振奋。

自加入MLPerf™ AI性能评测以来，浪潮AI服务器通过软硬件全面优化，继续实现AI性能冲破。相较于2018年12月MLPerf™ 初始版本V0.5的典型配置8卡机型的性能数据，浪潮AI服务器的性能显示出大幅晋升，晋升比例最高达789%，2.35倍于摩尔定律增速。

浪潮AI服务器在MLPerf™基准评测中的卓越体现，得益于浪潮信息在AI计算零碎上优异的设计创新能力和全栈优化能力。浪潮AI服务器针对AI训练中常见的密集I/O传输瓶颈，通过PCIe retimer-free 设计实现了CPU-GPU间通道免中继高速互联，大幅升高通信提早；并针对高负载多GPU协同任务调度，以及NUMA节点与GPU之间的数据传输性能进行了深度优化，确保训练任务中的数据I/O通路处于最高性能状态；在散热层面，率先实现4U空间内部署8颗500W的高端NVIDIA A100 Tensor Core GPU，并反对风冷、液冷两种散热形式。同时，在模型训练全流程中，浪潮AI服务器继续通过优化预训练数据处理、GPU之间高速通信、GPU外围减速等要害模块，最大化晋升了AI模型的训练性能。

浪潮信息在 MLPerf™ V2.0训练评测中获得佳绩的2款AI服务器别离是NF5488A5及NF5688M6。NF5488A5是寰球首批上市的NVIDIA A100 Tensor Core GPU服务器，在4U空间反对8颗由NVIDIA NVLink 互联的 NVIDIA A100 Tensor Core GPU和2颗 AMD Milan CPU，同时反对液冷和风冷散热技术，累计斩获40项 MLPerf™ 冠军。NF5688M6是面向大规模数据中心优化设计的具备极致扩大能力的AI服务器，反对8颗第三代 NVLink 互联的 NVIDIA A100 Tensor Core GPU 和两颗 Intel Ice Lake CPU，反对多达13张 PCIe Gen4 的IO扩大能力，累计斩获25项 MLPerf™ 冠军。

附：MLPerf™简介

MLPerf™ 是影响力最广的国内AI性能基准评测，由图灵奖得主大卫•帕特森（David Patterson）联结顶尖学术机构发动成立。2020年，非盈利性机器学习凋谢组织MLCommons基于MLPerf™ 基准测试成立，其成员包含Google、Facebook、NVIDIA、英特尔、浪潮信息、哈佛大学、斯坦福大学、加州大学伯克利分校等50余家寰球AI领军企业及顶尖学术机构，致力于推动机器学习和人工智能规范及掂量指标。目前，MLCommons每年组织2次MLPerf™ AI训练性能测试和2次MLPerf™ AI推理性能测试，以便疾速跟进迅速变动的计算需要和计算性能晋升，为用户掂量设施性能提供权威无效的数据领导。

关于人工智能:无惧大规模预训练模型浪潮AI服务器引领Transformer训练性能提升

大幅晋升Transformer训练性能

超过摩尔定律，继续领跑AI计算性能晋升

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:无惧大规模预训练模型浪潮AI服务器引领Transformer训练性能提升

大幅晋升Transformer训练性能

超过摩尔定律，继续领跑AI计算性能晋升

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复