关于paddle:PaddleBox百度基于GPU的超大规模离散DNN模型训练解决方案

作者 | 焦学武、李淼

导读
本文介绍百度基于GPU的超大规模离散DNN训练框架PaddleBox。PaddleBox 打造了业界首个层次化GPU稠密参数服务器，联合高效的流水线调度架构，以及多机多卡的分布式架构，反对单机10TB级/多机数十TB模型训练，具备低成本、高性能、高稳固、灵便易用的多重劣势。PaddleBox于2019在百度凤巢首次上线，目前已在百度广告零碎全面落地，笼罩搜寻广告、信息流广告、联盟广告业务，相比传统CPU解决方案，资源性价比晋升5~40倍。
注：本文基于2020年百度内网文章批改而成。

全文5246字，预计浏览工夫24分钟。

01 超大离散DNN模型训练的背景与挑战

精准的广告是很多互联网产品重要的盈利形式之一，基于海量数据的广告零碎可能很好的匹配用户的用意，为用户带来良好产品体验，同时晋升商业变现效率。CTR预估模型是广告零碎中十分重要的一环，被誉为“镶嵌在互联网技术上的明珠”，而高效稳固的训练框架则是CTR模型日常迭代更新的基石。

近年来深度学习迅猛发展，百度早在2014年就曾经将DNN模型利用到广告零碎，是国内首个将大规模DNN用在广告畛域并获得了良好效果的公司。Google 此前公布了万亿级模型 Switch Transformer，参数量达到了 1.6 万亿，其实凤巢广告模型的参数量比Google的Switch Transformer还要大，广告模型采纳了十亿级别的用户ID、Query、广告ID以及多种组合特色构建模型，特色数量能够达到千亿级别，模型训练过程中须要将千亿级的高维稠密特色转化为低维的浓密特征向量（8、16以及64维），模型参数规模高达万亿维。

△图1. 大规模离散DNN

大规模离散DNN CTR模型以Embedding Layer和 FC Layer为主，尽管与CV和NLP畛域的经典模型相比网络结构并不简单，然而宏大的参数规模、样本规模和大规模高维稠密的个性为模型的高效稳固训练提出了多重挑战。(下文把高维稠密特色对应的Embedding参数称为Sparse参数，DNN参数为Dense参数)

存储挑战。Sparse参数量可达万亿级别，存储空间占用达到10TB级别，远超单机内存，个别须要分布式全内存的存储系统。
IO挑战。IO挑战来自训练样本和模型参数两个维度，很多场景每天产出亿级用户的数十亿条训练样本；每个mini-batch模型须要从千亿特色的Embedding Table中查找和更新对应的参数，须要应答超高频的参数查问和更新。
计算挑战。CTR模型与NLP和CV模型不同，大部分计算不是矩阵运算，样本解析、稠密参数的查问和更新等非矩阵运算占比超过70%。

02 传统分布式CPU解决方案

基于多台cpu服务器的参数服务器架构是大规模模型训练的成熟计划，该计划采纳了数据并行和模型并行的混合形式，数据并行是指将训练样本扩散到多个计算节点上，模型并行是指将稠密参数扩散到多个存储节点上。参数服务器架构有两个角色Worker 和 Server。其中Worker 用于执行模型的前向和反向计算；Server 负责从各个Worekr 收集汇总梯度并更新参数。

△图2. 参数服务器的分布式训练架构

参数服务器以Scale-out的思路胜利解决了参数规模和样本规模带来的零碎可伸缩性问题，能够通过调整CPU服务器的数量来应答参数规模和样本规模的伸缩性需要，但也有本身的限度：

老本问题。训练任务占用上百台CPU服务器，此前百度大商业用于CTR模型训练的服务器靠近2万台，带来大量的硬件洽购和保护老本。
通信长尾和稳定性问题。训练过程中上百台CPU服务器须要进行mini-batch级的超高频网络通信（参数拉取和梯度更新），通信长尾导致重大的性能好转，也导致了梯度过期问题，影响策略成果；此外，因为故障概率的指数级回升，基于上百台CPU服务器的训练任务存在重大的稳定性问题。
算力问题。随着Gate Network、Attention等网络结构被引入到CTR模型，模型网络越来越简单，对算力的要求越来越高，CPU机器很难满足模型复杂度增长的算力需要。

NVIDIA近年来始终在推动GPU通用计算能力的倒退，从2006年推出CUDA编程平台以来，面向通用计算的GPU架构先后经验了Fermi、Kepler、Maxwell、Pascal、Volta和Ampere等6代产品，最新一代的Tesla A100单精度浮点数运算性能达156 TFLOPS, 比Intel Xeon E7系列高出2个数量级，算力的晋升使得语音、图像、NLP等畛域获得了革命性的停顿，但在超大规模离散DNN场景却始终没有落地。

间接采纳GPU做参数服务器架构的Worker来解决算力问题并不可行，因为模型训练过程中高频的参数拉取与梯度更新须要频繁地进行CPU/GPU通信，难以施展GPU算力劣势，且存储超大模型须要较多GPU服务器，老本过高。

03 PaddleBox GPU 解决方案

为了解决传统参数服务器架构面临的问题，本框架设计了基于GPU的PaddleBox解决方案，整体架构如下图所示：

△图3. PaddleBox整体架构

PaddleBox推出了异构层次化参数服务器，通过SSD、MEM、HBM三级参数服务器高效协同的计划来晋升模型参数容量和访存速度，采纳高效的流水线调度流程使得异构硬件最大化并行，充分发挥异构硬件劣势，实现单台GPU服务器反对10TB级模型高效训练。为了反对更大规模的模型和样本，PaddleBox基于多机进行扩大，设计了性能近线性减速比的分布式架构。而且PaddleBox与Paddle共建开源生态，可反对简单模型的疾速接入与调研，具备低成本、高性能、高稳固、灵便易用的多重劣势。

PaddleBox打造了业界首个分布式GPU 稠密参数服务器，上面将具体介绍PaddleBox是如何解决模型训练的多重挑战的。

3.1 异构层次化参数服务器

△图4. 异构参数服务器

3.1.1 撑持超大模型参数存储的SSD参数服务器

GPU服务器领有超强的算力，从算力角度，单台或几台GPU参数服务器的算力就能够反对超大规模模型的训练。然而从存储角度，几台机器的内存和显存无奈存储10TB级的模型参数，因而也就无奈进行模型训练。为了应答超大规模模型的存储挑战，在HDD、NVMe SSD、Optane 和 AEP等多种硬件存储设备间，综合思考训练所需的存储容量、性能和老本等多方面因素，最终抉择SSD作为全量参数存储设备。

测试显示在Raid0 下的SSD的读写性能仍旧落后于内存1-2个数量级，业务场景对读写性能要求十分高，传统的SSD索引一次检索须要屡次IO，性能太差，为此零碎进行多重性能优化。

IO优化：通过构建多级全内存hash索引，实现了对SSD数据一次性的精确读写，每次查问最多一次IO。
查问剪枝：联合数据拜访的冷热比例，MEM Cache 存储热数据；应用BloomFilter判断以后key 是否在SSD上进一步升高有效的访盘次数。这两种剪枝策略使得SSD查问次数升高一个数量级。
底层优化：通过异步IO和数据对齐等优化技术，SSD读写性能晋升5倍，中转SSD实践极限5*3GB/s。

△图5. SSD参数服务器构造

这是业界首个基于SSD的超大规模异构存储稠密参数服务器，胜利反对单机10TB、万亿维参数存储，使得采纳单GPU服务器进行10 TB级模型训练成为事实。

3.1.2 撑持参数高效访存的HBM参数服务器

采纳SSD参数服务器后，单台GPU服务器即可进行超大模型训练，然而其训练速度却并没有失去很大晋升。其起因在于训练过程中Sparse参数的超高频CPU-GPU通信，无奈充分发挥GPU超强算力。

为了解决这个问题，框架设计实现了业界首个多机多卡分布式GPU稠密参数服务器。HBM、MEM和SSD三层参数服务器自动化协同，既具备SSD的大容量，又具备HBM的高性能。

机器内GPU卡间须要应答超高频的万亿次稠密参数拜访，传统通信技术无奈满足性能需求，咱们通过软硬件双重翻新来优化。

软件翻新：NVLink的带宽高达300GB/s, 性能超过PCIe 一个数量级。传统卡间通信技术采纳低速的PCIe, 难以满足海量的参数通信需要。对此咱们依据GPU的拓扑构造实现了Multi-Hop 通信策略，实现GPU跨卡参数拜访性能晋升7倍。(百度自研XMAN2.0机型)

△图6. 非NVLink全互连的GPU拓扑构造（来自NVIDIA官网）

硬件翻新：首次引入NVSwitch全互联总线架构，任意GPU间能够通过NVLink进行P2P高速通信，GPU跨卡参数拜访性能晋升10倍。(百度自研XMAN3.0机型)

△图7. NVSwitch 全互联总线架构

3.2 高效的训练流水线架构

PaddleBox 应用的机型设施具备多种异构硬件，怎么能够充分发挥硬件能力呢？

PaddleBox 模型的训练流程包含样本读取、样本解析、参数拉取和模型训练四个阶段，每个阶段对硬件资源类型的需要是不同的。

样本读取：从分布式文件系统读取数据，是网络密集型工作。
样本解析：把文本数据解析为特定的数据结构，是CPU密集型工作。
参数拉取：从SSD中拉取Sparse参数，是SSD IO密集型工作。
模型训练：在GPU硬件上训练模型，是GPU密集型工作。

△图8.高效的流水线结构

3.3 近线性减速比的分布式版本

PaddleBox单机版本可能撑持10TB模型的高效训练。为了反对更大规模的模型和样本，以及更快地训练，PaddleBox 进一步实现了分布式架构。

△图9. 分布式PaddleBox架构

分布式SSD存储引擎：通过参数分区存储的形式将稠密参数sharding到多台机器上，构建分布式SSD参数服务器来实现更大规模的稠密参数存储。
超高的多机通信效率：超强的GPU算力，要求更加高效的多机通信效率，否则会重大制约分布式的减速比。对此，PaddleBox框架在网卡拓扑、通信协议等方面进行了软硬一体的整体设计。
算法翻新：梯度聚合和量化通信联合，通信量降为原来的1/4，极大的晋升了模型训练效率。咱们通过多个维度的优化榨干异构硬件的性能，最终使得PaddleBox的分布式架构具备近似线性的减速比。

△图10. 分布式PaddleBox性能测试后果

3.4 Paddle 开源生态

PaddlePaddle 源于产业实际，是业界公认的国内惟一性能齐备的开源深度学习平台，具备灵便的组网能力和丰盛的算法库，提供高效的并行训练能力和良好的可扩展性，目前曾经反对公司内外多个业务上线。

PaddleBox 提供基于GPU的超大规模异构参数服务器，联合Paddle灵便的组网能力和丰盛的算法库，同时具备算力和组网的双重劣势，能够疾速引入来自学术界的CNN、RNN、Attention、Bert 等模型和机制，为业务场景引入开源简单模型算法提供了广大空间。

04 落地与收益

PaddleBox目前曾经笼罩了百度搜寻广告、举荐广告、网盟广告和手百举荐等场景的上百个模型，撑持各业务获得支出上的微小晋升。与此同时，公司外部丰盛的业务也在驱动着PaddleBox的降级与成熟。获取的收益次要来源于三方面：

极高的性价比：PaddleBox以更低的老本提供了更多的训练资源，绝对采纳MPI参数服务器，获得了5~40倍的性价比晋升。
算力和灵活性双重劣势：反对简单的模型，PaddleBox 使得CTR不再只是全连贯模型，融入开源生态后提供语义模型、注意力模型、多模态联结训练的能力。
反对多种业务场景：PaddleBox 不仅仅是CTR模型训练框架，更是通用的大规模离散模型训练框架，适宜多种场景。除点击率模型外，框架在转化率CVR、TDM模型、图模型等场景也有宽泛的落地。

05 总结

Paddlebox设计之初就开始潜心研究GPU分布式训练技术，以应答大规模离散模型的训练任务，在丰盛的广告举荐业务驱动下，PaddleBox推出了业内独创的异构参数服务器，反对多种场景而且能够极大地晋升硬件资源利用率，具备极高的性价比。

同时，PaddleBox也在进行框架的更深层次降级，包含模型混布、异构集群、昆仑芯新硬件的摸索等，进一步晋升模型训练性能和资源利用率。PaddleBox也在场景上扩大到了特色抽取，目前曾经反对特色抽取、模型训练一体化工作，极大晋升了模型训练效率。后续，也心愿能跟大家分享特色抽取框架FeaBox和大规模图引擎PGLBox。

置信PaddleBox必将成为星辰大海上的那颗北极星，引领大规模离散模型的进一步翻新。

————END————

举荐浏览：
聊聊机器如何”写”好广告文案?
百度工程师教你玩转设计模式（适配器模式）
百度搜寻业务交付无人值守实际与摸索
分布式ID生成服务的技术原理和我的项目实战
揭秘百度智能测试在测试评估畛域实际
再添神器！Paddle.js 公布 OCR SDK

关于paddle:PaddleBox百度基于GPU的超大规模离散DNN模型训练解决方案

01 超大离散DNN模型训练的背景与挑战

02 传统分布式CPU解决方案

03 PaddleBox GPU 解决方案

3.1 异构层次化参数服务器

3.1.1 撑持超大模型参数存储的SSD参数服务器

3.1.2 撑持参数高效访存的HBM参数服务器

3.2 高效的训练流水线架构

3.3 近线性减速比的分布式版本

3.4 Paddle 开源生态

04 落地与收益

05 总结

更多文章

未能装载“software”。(com.apple.DiskManagement.disenter错误49223。- macosx catalina系统磁盘挂载出错解决办法

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能