关于深度学习:AI算力加速之道

人工智能倒退至今并非一帆风顺，从起步阶段到现今的深度学习阶段，数据、算法和算力形成了人工智能三大基本要素，独特推动人工智能向更高层次的感知、认知倒退。

如前所述，以后人工智能凋敝离不开数据、算法和算力的独特倒退，在算法层面，深度学习三巨头 Geoffrey Hinton、Yann LeCun 和 Yoshua Bengio 对 AI 畛域的奉献无人不知、无人不晓，他们围绕神经网络重塑了 AI；

数据层面，2007 年李飞飞创立了世界上最大的图像识别数据库 ImageNet，使人们意识到了数据对深度学习的重要性，也正是因为通过 ImageNet 辨认大赛，才诞生了 AlexNet, VggNet, GoogleNet, ResNet 等经典的深度学习算法。

前几次人工智能凋敝后又陷入低谷，一个外围的起因就是算力难以撑持简单的算法，而简略的算法成果又不佳。黄仁勋开办的 NVIDIA 公司推出的 GPU，很好的缓解了深度学习算法的训练瓶颈，开释了人工智能的全新后劲。

在智慧时代，计算力就是生产力。什么是生产力，就是人类革新天然的能力，就是发明价值的能力。在这个表中，咱们有一个很乏味的发现。

在 10 年前，寰球市值最高的企业大部分是能源公司、金融企业，市值靠前的 IT 公司仅仅微软一家，那时候 windows 如日中天，office 独步天下，属于集体 PC 时代。

到了以后，寰球最值钱的公司简直清一色的信息技术与服务公司，乏味的中央还不在这里，这前几名的公司正好也是寰球洽购服务器最多公司，仅亚马逊一家，2017 年便洽购了寰球 13% 的云服务器。是海量的计算能力在为这些公司发明价值。

对于企业是这样子，对于国家也是如此。计算力之于智慧时代就像是电力之于电气时代，都是生产力的重要模式。

那么，咱们便能够通过计算力的状况，来剖析一个国家的经济倒退状况，就如同克强指数外面的电力可能掂量一个行业的倒退状况相似。据统计，国家 GDP 的数字与服务器的出货量，GDP 与服务器采购额呈现出显著的正线性相关关系。

美国、中两国不仅 GDP 远远当先于日本和德国，每万亿 GDP 的服务器数量也远远高于他们，数字经济的奉献占比显著高于他们。

咱们国内各个省得状况，与此齐全相似，北、上、广、浙每万亿 GDP 的服务器出货量远大于其余省区，因而他们新旧动能转换的就快，倒退品质就跑在了后面。所以咱们能够说计算力曾经成为掂量社会和经济倒退程度的重要指标。

面对指数级增长的计算需要，计算技术、产品与产业也面临着新的挑战。具体来说，体现在以下三个方面，一个是多元化的挑战，也就是计算场景的简单、计算架构的多元；一个是巨量化的挑战，也就是由巨量模型、巨量数据、巨量算力及巨量利用引发的对现有计算机体系结构的挑战；

最初一个则是生态化的挑战，简略来说当初的智算处于群雄并起阶段，自成体系、生态离散，同时产业链上下游脱节。

第一个挑战是多元化。

咱们讲计算最要害的工作就是撑持业务，那么不同的业务类型，势必要求有不同的计算零碎来实现。例如针对传统的地震波模仿等科学计算，数值精度要求高，须要能到 64 位；而 AI 训练，则能够应用数值范畴大、精度低的 16 位浮点类型；对于 AI 推理，因为推理要求速度、耗能少，则能够在更低的数值精度下进行解决，如 4 位、甚至 2 位、1 位整数类型。

也就是说 AI 的利用引入了新计算类型，从推理到训练，跨度更大，同时，数据量也从 GB 级到 TB 级、PB 级一直晋升，类型从结构化到半结构化、非结构化更加简单多样。

不同数值精度的计算类型对于计算芯片指令集、架构的要求是不一样的，这样就导致之前咱们始终应用的通用 CPU 芯片曾经无奈满足这种多元化计算场景要求了，这也是计算芯片的品种越来越多的很重要的起因。

第二个挑战是巨量化。巨量化首先体现在模型参数多、训练数据量大。
以自然语言解决为例，基于自监督学习的预训练模型衰亡后，模型精度随着模型尺寸及训练数据的减少而显著晋升。

20 年 GPT- 3 模型的参数量首次冲破千亿大关，达到了 1750 亿。依照以后的发展趋势，23 年模型的参数量将冲破百万亿，也就是根本达到人脑神经突触数量，人脑的神经突触数量约 125 万亿。

巨量模型须要巨量内存。以后一颗 GPU 的板载高速内存容量为 40GB，对于蕴含百万亿参数的巨量模型，仅是将这些参数平均分配到每个 GPU 内存中，就须要 1 万块 GPU 能力装得下。

思考到训练中须要额定的存储，实际上至多须要 2 万块 GPU 能力启动训练。现有 AI 芯片的架构曾经不足以撑持巨量模型的参数存储需要。

同时，巨量模型依赖海量数据的喂养，目前的 AI 算法实质上还是一种依赖质变的量变，很难从一种量变跳跃到另一种量变，例如最新的巨量模型须要万亿级的词量数据。海量数据须要海量存储。在超大规模集群中同时满足几万块 AI 芯片的高性能读取，对存储系统是个极大的挑战。

巨量化的第二个体现是计算力需要指数增长

深度学习自 2011 年衰亡至今，对算力的需要始终呈指数增长。每隔 3.4 个月，算力需要翻一倍。Petaflops*day 代表以 1P 每秒的算力计算一天所用浮点计算量来度量算力。训练巨量模型须要微小算力：20 年 GPT- 3 的算力达到了 3640PD，到 23 年巨量模型的算力需要将达到百万 PD。

在当今世界最快的超算零碎上，实现百万 PD 的计算所需工夫约为 2 年。不同畛域须要不同类型的巨量模型：GPT- 3 以解决英文了解工作为主，为了满足不同语言，不同场景的精度要求，也要训练不同的巨量模型，这进一步加剧了对算力的需要。

如此宏大的算力需要给计算技术和产品带来了微小挑战。解决这样的挑战须要从体系结构、系统软件等各个领域发展翻新。

最初咱们来看一下智算面临的生态化的挑战，AI 的技术链条、产业链条是脱节的。我想很多人会有这样的疑难，人工智能那么好，然而这货色怎么跟我的业务，跟我的客户利用场景联合起来呢，我想用 AI 技术做智能化转型，然而发现我这里没人懂算法，懂模型，也短少好用的 AI 开发平台。同时，那么多算法，模型，如何找到不同算法在利用中的最优组合。

懂这些的人，往往都集中在科研机构或者头部公司。这些中央集中了最优良的 AI 人才，但短少对传统行业的需要场景、业务法则的深刻了解，也拿不到最要害的业务数据去对模型进行训练，导致技术无用武之地。

埃森哲等咨询机构的调查报告也表明，70% 以上的有技术的钻研机构、科技公司缺需要场景、缺畛域常识和数据，70% 以上的行业用户缺技术人才、缺 AI 平台和实际能力。

通常用户对接触到的 AI 架构相干的信息是申请 XX 核 CPU，XX 张 CPU 卡，XXGB 内存等资源，其对应 AI 架构的计算资源、存储资源和网络资源，理论的 AI 架构包含计算节点、治理节点、存储节点、计算网络、管理网络和客户端等。

如何进行计算资源的布局呢？秉持的准则是花最低的老本满足需要，同时思考到扩展性，比方有两种以上计算特色的业务，而且规模都不小，那么对应的计算节点类型也应有两种以上；如果极限需要规模远大于其它需要，那么能够缩小计算节点类型数量，以便未来一直扩大。

AI 对计算的需要十分大，如何减速间接关系到生产效率和老本，上面介绍一下以后最新的一些 AI 减速技术。

在 GPU 用于 AI 计算前，都是 CPU 承当计算工作，然而随着 AI 计算需要的急剧减少，CPU 的计算效率难以满足需要，产生了“CPU+GPU”的异构计算架构，如下图右上角所示。

如下图右下角所示，GPU 的计算效率是 CPU 的几倍~ 几十倍，为什么 CPU 和 GPU 的计算效率会有这么大的差别呢？次要是 CPU 和 GPU 的架构存在微小差别，如下图左下角所示，GPU 的计算单元数量远远多于 CPU 的计算单元，所以 GPU 更适宜于大规模并行计算。

而 CPU 架构中 Control 和 Cache 单元面积则比 GPU 大得多，所以 CPU 更实用于不能高度并行的简单计算（比方代码中的 if 语句等）。

随着 AI 计算规模增大，例如大规模 AI 训练，须要多卡甚至多个节点同时参加一个工作的计算，其中一个关键点就是如何反对节点内 GPU 间的高速通信，以便他们能够作为一个微小的加速器相互协作。

尽管 PCIe 十分规范，然而带宽十分无限，如下图左上角所示，PCIe Gen3 的实践带宽是 32GB/s，PCIe Gen4 的实践带宽是 64GB/s，而实测带宽大略别离是 24GB/ s 和 48GB/s。

在 AI 训练中，没实现一轮计算，都要同步更新一次参数，也就是权系数，模型规模越大，参数规模个别也会更大，这样 GPU 之间通信（P2P）能力对计算效率影响就比拟大，如下图右上角所示，同样是 8 卡 V100，NVLINK2.0 架构相比 PCIe 架构性能晋升 26%，NVLINK2.0 Next 架构（全互联，任意两张卡间 P2P 通信带宽都是 300GB/s）则相比 PCIe 架构晋升 67%。

NVLINK 是 NVIDIA 开发的一项高速 GPU 互联技术，当初曾经倒退到第三代（NVLINK3.0），如下图下半局部，从 NVLINK1.0（P100）到 NVLINK2.0（V100），再到 NVLINK3.0（A100），带宽从 160GB/ s 到 300GB/s，再到 600GB/s，NVLINK1.0 和 2.0 的 P2P 通信不是全互联，也就是，任意两张 GPU 卡之间的通信带宽理论没有达到最大带宽，有的甚至还通过 PCIe 通信，这样节点内 GPU P2P 通信就产生了台阶。

而 NVLINK3.0 则实现了 P2P 全互联通信，任意两张卡之间的通信带宽是 600GB/s，极大的晋升了节点内多卡计算效率。

V100 的张量外围是可编程的矩阵乘法和累加单元，能够提供多达 125 Tensor TFLOPS 的训练和推理利用。V100 蕴含 640 个 Tensor Cores。每个张量核提供一个 4x4x4 矩阵解决数组，它执行操作 D =a*B+C，其中 a、B、C 和 D 是 4×4 矩阵，如下图上部所示。矩阵乘法输出 A 和 B 是 FP16 矩阵，而累积矩阵 C 和 D 能够是 FP16 或 FP32 矩阵。

每个 Tensor 外围每个时钟周期可执行 64 次浮点混合乘加 (FMA) 运算。从而为训练和推理应用程序提供高达 125 TFLOPS 的计算性能。这意味着开发人员能够应用混合精度（FP16 计算应用 FP32 累加）执行深度学习训练，从而实现比上一代产品快 3 倍的性能，并可收敛至网络预期准确度。

Tensor 内核提供的 GEMM 性能是以前硬件的几倍，如下图右下角所示，GP100（Pascal）和 GV100（Volta）硬件的比拟性能。

随着 AI 的倒退，产生了各类芯片，比方 CPU、GPU、ASIC、FPGA，如下图上部所示，从通用性和性能两个维度去剖析比拟，通用性维度：CPU > GPU > FPGA > ASIC，性能维度则是正好相同。不同的 AI 工作，对芯片的要求不同，比方训练任务，须要能反对各类框架、模型、算法库等，须要很高的通用性，NVIDIA GPU 因为其齐备的生态，具备很高的通用性，从而占据主导地位。

而对于推理工作，则仅需反对某一或某几个框架、模型、算法库等，因为凑近业务，所以对性能和老本的需要更多，于是 ASIC 芯片则在局部场景的性价比超过 NVIDIA GPU，从下图下半所示的 IDC 统计的各类芯片市场销量能够看进去，在推理市场，NVIDIA GPU 尽管依然占据主导，然而其它芯片的仍然能跟上 NVIDIA GPU 的步调，训练市场，其它芯片仍然停顿迟缓。

如果能将 32 位的浮点数压缩到 16 位，尽管会损失肯定的示意精度，但无论在参数的存储空间上还是在计算量（FPU 计算次数）上都会带来极大的改良。

这就是混合精度训练的基本原理。权重的主版本是以 FP32 模式存储的，在做推理与反向流传运算时先换成 FP16 在做计算，在做权重更新时，更新的增量（梯度乘以学习率）也是加到以 FP32 示意的权重上的，如下图上部所示。

如下图所示，在某些场景，低精度不仅带来性能的提，还能够在推理工作重用来解决更简单的模型，从而进步推理工作的精度。

GDR（GPU Direct RDMA），就是计算机 1 的 GPU 能够间接拜访计算机 2 的 GPU 内存，如下图上半部所以。理解 GDR 概念之前，首先理解 DMA 和 RDMA 概念。

DMA（Direct Memory Access）间接内存拜访，是 Offload CPU 负载的一项重要技术。DMA 的引入，使得原来设施内存与零碎内存的数据交换必须要 CPU 参加，变为交给 DMA 管制来进行数据传输，是一种齐全由硬件执行 I / O 替换的工作形式。
RDMA 能够简略了解为利用相干的硬件和网络技术，服务器 1 的网卡能够间接读写服务器 2 的内存，最终达到高带宽、低提早和低资源利用率的成果。

目前 RDMA 的实现形式次要分为 InfiniBand 和 Ethernet 两种传输网络。而在以太网上，又能够依据与以太网交融的协定栈的差别分为 IWARP 和 RoCE（包含 RoCEv1 和 RoCEv2）。

所谓 GPUDirect RDMA，就是计算机 1 的 GPU 能够间接拜访计算机 2 的 GPU 内存。而在没有这项技术之前，GPU 须要先将数据从 GPU 内存搬移到零碎内存，而后再利用 RDMA 传输到计算机 2，计算机 2 的 GPU 还要做一次数据从零碎内存到 GPU 内存的搬移动作。

GPUDirect RDMA 技术使得进一步缩小了 GPU 通信的数据复制次数，通信提早进一步升高。

SHARP（Scalable Hierarchical Aggregation and Reduction Protocol）是一种汇合通信网络卸载技术。

在 AI 训练中，经常有很多汇合类通信，这些汇合类通信因为波及全局，经常对应用程序并行效率产生微小的影响。

针对这种状况，NVIDIA Mellanox 从 EDR InfiniBand 交换机开始引入了 SHARP 技术，在交换机芯片中集成了计算引擎单元，能够反对 16 位、32 位及 64 位定点计算或浮点计算，能够反对求和，求最小值，求最大值，求与，求或及异或等计算，能够反对 Barrier、Reduce、All-Reduce 等操作。

在多交换机组成的机群环境下，Mellanox 定义了一整套的可扩大分档次聚合和归约协定（SHARP）卸载机制，由聚合管理器 (Aggregation Manager) 在物理拓扑中结构一个逻辑的 SHARP 树，由 SHARP 树中的多个交换机并行分布式解决汇合类通信操作。

当主机须要进行全局通信例如 allreduce 时，所有主机把通信数据提交到各自连贯的交换机，第一级交换机收到数据后，会应用内置的引擎对数据进行计算和解决，而后把后果数据提交到 SHARP 树的上一级交换机，上一级交换机也应用本人的引擎对从若干个交换机收上来后果数据做聚合解决，并持续向 SHARP 树的上一级递交。

达到 SHARP 树的根交换机后，根交换机做最初计算并把后果回发给所有的主机节点。通过 SHARP 形式，能够大幅升高汇合通信的提早，缩小网络拥塞，并晋升机群系统的可扩展性（如下图上半部所示）。
SHARP 对于简单模型，简单多层网络成果更加显著，如下图下半部所示，随着集群规模的增大，开启 SHARP 性能后，提早根本没变动，相比未启用 SHARP 性能，提早呈线性增长；同样对于最终的性能晋升也是差别比拟大。

InfiniBand Architecture 是为大规模数据中心设计的软件定义网络架构，它的设计旨在实现最高效的数据中心互连基础设施。InfiniBand 原生地反对 SDN、Overlay 和虚拟化等网络技术，是一种凋谢规范的高带宽、低时延、高牢靠的网络互连。相比 RoCE 网络，IB 有诸多劣势，如下图上半局部。

当然对于 AI 训练网络是选用 IB 还是 RoCE，在近期的套餐降级计划中争执的比拟强烈，NVIDIA 是主推 IB 的，他们的论据是除了列出各种性能劣势外，还有近两年互联网企业，如阿里、百度、京东、腾讯等部署的 AI 集群大都采纳 IB 网络，然而也拿不出十分让人服气的量化数据，从阿里的维度看，因为有一支专门的 RoCE 网络优化团队，所以取得了近似 IB 的性能，同时 NVIDIA 所列的 SHARP 等 Benchmark 性能在理论用户中仅获得 3%-5% 左右的性能晋升（当初预计是在大模型、三层及以上网络架构效果显著些）。

总的来说，目前阶段的论断是 IB 是优于 RoCE，IB 把优化工作做到生态（NCCL/CUDA/…）中，对用户来说，优化工作量十分小，然而对于 RoCE，须要有专门的团队，较深的优化积攒，相比较而言，以后抉择 IB 更适宜，当然老本有所晋升，但如下图下半局部，带来的性能晋升量更大。

当然，在云化的大背景下，除了以太，又多了一套网络架构，对于整体运维和治理带来复杂度晋升，所以，IB&RoCE 之争无妨能够再深入分析，列举更多的量化数据，做更多的原理性分析，从而达到对网络的深度认知。

后面讲到 NVLINK3.0 的通信带宽为 600GB/s，PCIe4.0 的实测通信带宽也达到了 48GB/s，而以后的计算网络通常最大是 100Gb/s（12.5GB/s），所以对于须要跨节点多机多卡计算的大模型训练任务时，节点间参数通信就会遇到瓶颈，这时有必要采纳多网卡策略，也就是两个节点间不再是连贯 1 根网线，而是多根，从下图能够看出多网卡对于性能的晋升量显著，因为网络老本占整个计算零碎老本个别为 10% 左右，所以 10% 以上的性能晋升对于整个计算零碎来说，性价比是晋升的。

GDS（GPUDirect Storage），是 NVIDIA 推出的又一 GPUDirect 技术，因为 GPU 计算速度很快，然而随着数据集和模型规模一直减少，应用程序载入数据破费的工夫越来越长，进而影响了应用程序的性能，而且特地是端到端架构，会因为迟缓的 I / O 使得运算速度日益晋升的 GPU 无用武之地。

数据从 NVMe 磁盘传输到 GPU 內存的规范门路，是应用零碎內存中的回弹缓存（Bounce Buffer）也就是额定的数据拷贝。而 GPUDirect 存储技术防止应用回弹缓存，以缩小额定的数据正本，并应用间接內存存取引擎（Direct Memory Access，DMA）将数据间接放到 GPU 內存中，为远端或是本地存储。

诸如 NVMe 或 NVMe over Fabric，和 GPU 內存之间，建设一个间接传输数据的门路，而这能无效加重 CPU I/ O 的瓶颈，晋升 I / O 带宽和传输数据的量。

英伟达倒退 GPUDirect 存储技术，大幅晋升 GPU 载入大型数据集的速度。英伟达提到，GPUDirect 存储技术的次要性能，就是通过这个新的零碎，以间接內存的存取形式，将数据传输至 GPU 内存上。

当然，倒退到当初 GDR 落地场景还不是很多，首先是文件系统须要做适配，只有通过 NVIDIA 认证了能力反对 GDR 技术，限度了技术的推广；其次，GDR 次要还是单机内的技术，而且 NVME 次要是用来承载内存空间有余，对立存储带宽又偏低的一个中间状态需要，实用的场景较窄，所以业内适配的积极性也不高，但不管怎么说，GDR 也为 AI 架构又提供了一种减速抉择。

Burst Buffer 技术可能利用计算节点本地 SSD 硬盘，组成长期高速缓存文件系统。该性能能够通过更快的 checkpoint restart 进步应用程序可靠性；放慢小块传输和剖析的 I / O 性能；为外围内部应用程序提供疾速长期存储空间；为须要计算过程中长久疾速存储的大量文件输出计算工作创立暂存区域。

之前在 HPC 架构中采纳较多，比方世界 HPC TOP500 榜单排名前 10 的超算集群，有多套已采纳 Burst Buffer 技术，在 AI 架构中，当初也有用户在尝试采纳相似技术，为大规模训练提供超大高速缓存。

AI 大规模训练中，十分重要的一项技术就是并行技术。在多个计算设施上部署深度学习模型是训练大规模简单模型的一种形式，随着对训练速度和训练频率的要求越来越高，该办法的重要性一直增长。

数据并行化（Data parallelism，DP）是利用最为宽泛的并行策略，但当一张 GPU 的显存不能放下一个模型时，须要堆模型进行拆分，将模型分为 N 个局部，别离加载到不同的 N 个 GPU 节点中，模型拆分依照拆分形式不同，又分为张量切片模型并行(层内模型并行)、Pipeline 模型并行(层间模型并行)。

如 DeepSpeed 模型，GPT- 3 模型等则须要采纳多种并行形式组合，能力残缺装下整个模型。

而对于 GPT- 3 模型来说，其对计算和 I / O 的需要都十分大，须要综合后面讲到的次要的减速技术，比方 NVLINK，Tensor Core、IB、多网卡、GDR、并行形式等，能力高效的实现大模型训练。

后面讲到了各种 AI 减速技术，其实汇总起来无外乎都是在朝着两个方向致力：计算和 I /O，采纳异构计算是为了晋升计算能力，采纳 NVLINK、IB、GDR、GDS、BurstBuffer、多网卡等都是为了晋升 IO 带宽和提早。

因为从 GPU 缓存（7TB/s）到显存（1.6TB/s）、CPU 内存（90GB/s）、高速缓存（24GB/s）、NVME 硬盘（6GB/s）、分布式存储（5GB/s，规模大可到几十上百 GB/s）、冷存货（2GB/s），IO 带宽存在台阶，所以 AI 架构 IO 减速的方向是在逐渐补救台阶的差别，当然算法上还须要尽可能的利用架构的特点，最大化的利用最快的 IO 架构。

上面以 GPT- 3 模型预训练为例，进行简略的架构剖析。

在进行 AI 架构方案设计时，首先要弄清楚 GPT- 3 的计算特色，也就是什么样的计算和 I / O 满足 GPT- 3 模型预训练的极限需要。

个别是通过实践剖析和理论测试两个维度剖析，通过剖析，能够获知，GPT- 3 的 I / O 须要靠近 100GB/s，对应的网络须要 4 *HDR 200 网络反对，也就是须要 4 网卡，这次采纳的是 Infiniband 网络。

其次是计算需要，以 A100 的算力 312TFlops 来评估：GPT- 2 的计算需要约为 10 PetaFlop/s-day, 约等于 64 个 A100 GPU 训练 1 天工夫；GPT- 3 的计算需要约为 3640 PetaFlop/s-day, 约等于 64 个 A100 GPU 训练 1 年工夫。下表是近期业内公布的几个大模型应用的训练计算资源状况。

如前一节剖析，AI 计算架构的计算局部采纳最新的 A100 GPU 卡，I/ O 局部采纳 4 *HDR200 IB 网络，GPU 之间采纳 NVLINK 实现 600GB/ s 高速互联。

NVLINK A100 服务器拓扑

下图是对应的网络拓扑：

大模型训练平台架构（140 节点）

AI 算力是人工智能三要素的重要组成部分，AI 减速技术围绕计算和 I / O 正在飞速的倒退，一直晋升 AI 计算工作的计算效率，咱们增强对于 AI 架构的了解。

当然 AI 减速除了配置相应的硬件架构，还须要平台、框架、算法等相干技术人员一起单干，能力最大化的利用以后最新的 AI 架构。

作者简介

Jason OPPO 高级 AI 架构师

毕业于中科院地质与地球物理研究所，曾任职浪潮高级 AI 架构师，为 AI 客户提供 AI 算力架构选型与优化。

获取更多精彩内容，请扫码关注 [OPPO 数智技术] 公众号

关于深度学习:AI算力加速之道

1 AI 算力发展趋势

1.1 人工智能实践：深度学习

1.2 第三次人工智能浪潮代表人物

1.3 计算力就是生产力

2 AI 减速技术介绍

2.1 AI 架构

2.2 AI 减速技术

2.2.1 计算

（1）异构计算

（2）NVLINK 通信

（3）Tensor Core

（4）多元算力

（5）低精度

2.2.2 网络

（1）GDR

（2）SHARP

（3）IB（INFINIBAND）

（4）多网卡

2.2.3 存储

（1）GDS

（2）Burst Buffer

2.2.4 并行技术

2.3 总结

3 GPT- 3 模型预训练计算架构剖析

3.1 GPT- 3 模型计算特征分析

3.2 GPT- 3 模型预训练计算架构剖析

4 结语

Just My Socks（注册教程内含优惠码）

关于深度学习:AI算力加速之道

1 AI 算力发展趋势

1.1 人工智能实践：深度学习

1.2 第三次人工智能浪潮代表人物

1.3 计算力就是生产力

2 AI 减速技术介绍

2.1 AI 架构

2.2 AI 减速技术

2.2.1 计算

（1）异构计算

（2）NVLINK 通信

（3）Tensor Core

（4）多元算力

（5）低精度

2.2.2 网络

（1）GDR

（2）SHARP

（3）IB（INFINIBAND）

（4）多网卡

2.2.3 存储

（1）GDS

（2）Burst Buffer

2.2.4 并行技术

2.3 总结

3 GPT- 3 模型预训练计算架构剖析

3.1 GPT- 3 模型计算特征分析

3.2 GPT- 3 模型预训练计算架构剖析

4 结语

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）