关于人工智能:MindSpore易点通精讲系列模型训练之GPU分布式并行训练

Dive Into MindSpore – Distributed Training With GPU For Model TrainMindSpore易点通·精讲系列–模型训练之GPU分布式并行训练本文开发环境Ubuntu 20.04Python 3.8MindSpore 1.7.0OpenMPI 4.0.3RTX 1080Ti * 4本文内容摘要基础知识环境搭建单卡训练多卡训练–OpenMPI多卡训练–非OpenMPI本文总结遇到问题本文参考1. 基础知识1.1 概念介绍在深度学习中，随着模型和数据的一直增长，在很多状况下须要应用单机多卡或者多机多卡进行训练，即分布式训练。分布式训练策略依照并行形式不同，能够简略的分为数据并行和模型并行两种形式。数据并行数据并行是指在不同的 GPU 上都 copy 保留一份模型的正本，而后将不同的数据调配到不同的 GPU 上进行计算，最初将所有 GPU 计算的后果进行合并，从而达到减速模型训练的目标。模型并行与数据并行不同，分布式训练中的模型并行是指将整个神经网络模型拆解散布到不同的 GPU 中，不同的 GPU 负责计算网络模型中的不同局部。这通常是在网络模型很大很大、单个 GPU 的显存曾经齐全装不下整体网络的状况下才会采纳。

1.2 MindSpore中的反对1.1中介绍了实践中的并行形式，具体到MIndSpore框架中，目前反对下述的四种并行模式：数据并行：用户的网络参数规模在单卡上能够计算的状况下应用。这种模式会在每卡上复制雷同的网络参数，训练时输出不同的训练数据，适宜大部分用户应用。半自动并行：用户的神经网络在单卡上无奈计算，并且对切分的性能存在较大的需要。用户能够设置这种运行模式，手动指定每个算子的切分策略，达到较佳的训练性能。主动并行：用户的神经网络在单卡上无奈计算，然而不晓得如何配置算子策略。用户启动这种模式，MindSpore会主动针对每个算子进行配置策略，适宜想要并行训练然而不晓得如何配置策略的用户。混合并行：齐全由用户本人设计并行训练的逻辑和实现，用户能够本人在网络中定义AllGather等通信算子。适宜相熟并行训练的用户。对于大部分用户来说，其实可能用到的是数据并行模式，所以上面的案例中，会以数据并行模式来开展解说。2. 环境搭建2.1 MindSpore装置略。可参考笔者之前的文章MindSpore入门–基于GPU服务器装置MindSpore 1.5.0，留神将文章中的MindSpore版本升级到1.7.0。2.2 OpenMPI装置在GPU硬件平台上，MindSpore采纳OpenMPI的mpirun进行分布式训练。所以咱们先来装置OpenMPI。本文装置的是4.0.3版本，装置命令如下：wget -c https://download.open-mpi.org…
tar xf openmpi-4.0.3.tar.gz
cd openmpi-4.0.3/
./configure –prefix=/usr/local/openmpi-4.0.3
make -j 16
sudo make install
echo -e “export PATH=/usr/local/openmpi-4.0.3/bin:&dollar;PATH” >> ~/.bashrc
echo -e “export LD_LIBRARY_PATH=/usr/local/openmpi-4.0.3/lib:&dollar;LD_LIBRARY_PATH” >> ~/.bashrc
source ~/.bashrc
应用mpirun –version命令验证是否装置胜利，输入如下内容：mpirun (Open MPI) 4.0.3

Report bugs to http://www.open-mpi.org/commu…
2.3 环境验证下面根底环境装置实现后，咱们对环境进行一个初步验证，来看看是否搭建胜利。验证代码如下：# nccl_allgather.py
import numpy as np
import mindspore.ops as ops
import mindspore.nn as nn
from mindspore import context, Tensor
from mindspore.communication import init, get_rank

class Net(nn.Cell):

def __init__(self):
    super(Net, self).__init__()
    self.allgather = ops.AllGather()

def construct(self, x):
    return self.allgather(x)

if name == “__main__”:

context.set_context(mode=context.GRAPH_MODE, device_target="GPU")
init("nccl")
value = get_rank()
input_x = Tensor(np.array([[value]]).astype(np.float32))
net = Net()
output = net(input_x)
print(output)

将下面代码保留到文件nccl_allgather.py中，运行命令：命令解读：-n 前面数字代表应用GPU的数量，这里应用了机器内全副GPU。如果读者不想应用全副，记得设置相应的环境变量。mpirun -n 4 python3 nccl_allgather.py
输入内容如下：[[0.]
[1.]
[2.]
[3.]]
[[0.]
[1.]
[2.]
[3.]]
[[0.]
[1.]
[2.]
[3.]]
[[0.]
[1.]
[2.]
[3.]]
至此，咱们的环境搭建实现，且验证胜利。3. 单卡训练为了可能后续进行比照测试，这里咱们先来进行单卡训练，以此做为基准。3.1 代码局部代码阐明：网络结构采纳的是ResNet-50，读者能够在MindSpore Models仓库进行获取，复制粘贴过去即可，ResNet-50代码链接。数据集采纳的是Fruit-360数据集，无关该数据集的更具体介绍能够参看笔者之前的文章MindSpore易点通·精讲系列–数据集加载之ImageFolderDataset。数据集下载链接读者留神将代码中的train_dataset_dir和test_dataset_dir替换为本人的文件目录。单卡训练的代码如下：import numpy as np

from mindspore import context
from mindspore import nn
from mindspore.common import dtype as mstype
from mindspore.common import set_seed
from mindspore.common import Tensor
from mindspore.communication import init, get_rank, get_group_size
from mindspore.dataset import ImageFolderDataset
from mindspore.dataset.transforms.c_transforms import Compose, TypeCast
from mindspore.dataset.vision.c_transforms import HWC2CHW, Normalize, RandomCrop, RandomHorizontalFlip, Resize
from mindspore.nn.loss import SoftmaxCrossEntropyWithLogits
from mindspore.nn.optim import Momentum
from mindspore.ops import operations as P
from mindspore.ops import functional as F
from mindspore.train import Model
from mindspore.train.callback import CheckpointConfig, ModelCheckpoint, LossMonitor
from scipy.stats import truncnorm

define reset50

def create_dataset(dataset_dir, mode=”train”, decode=True, batch_size=32, repeat_num=1):

if mode == "train":
    shuffle = True
else:
    shuffle = False

dataset = ImageFolderDataset(
    dataset_dir=dataset_dir, shuffle=shuffle, decode=decode)

mean = [127.5, 127.5, 127.5]
std = [127.5, 127.5, 127.5]
if mode == "train":
    transforms_list = Compose(
        [RandomCrop((32, 32), (4, 4, 4, 4)),
         RandomHorizontalFlip(),
         Resize((100, 100)),
         Normalize(mean, std),
         HWC2CHW()])
else:
    transforms_list = Compose(
        [Resize((128, 128)),
         Normalize(mean, std),
         HWC2CHW()])

cast_op = TypeCast(mstype.int32)

dataset = dataset.map(operations=transforms_list, input_columns="image")
dataset = dataset.map(operations=cast_op, input_columns="label")
dataset = dataset.batch(batch_size=batch_size, drop_remainder=True)
dataset = dataset.repeat(repeat_num)

return dataset

def run_train():

context.set_context(mode=context.GRAPH_MODE, device_target="GPU")
set_seed(0)

train_dataset_dir = "/mnt/data_0002_24t/xingchaolong/dataset/Fruits_360/fruits-360_dataset/fruits-360/Training"
test_dataset_dir = "/mnt/data_0002_24t/xingchaolong/dataset/Fruits_360/fruits-360_dataset/fruits-360/Test"
batch_size = 32

train_dataset = create_dataset(dataset_dir=train_dataset_dir, batch_size=batch_size)
test_dataset = create_dataset(dataset_dir=test_dataset_dir, mode="test")
train_batch_num = train_dataset.get_dataset_size()
test_batch_num = test_dataset.get_dataset_size()
print("train dataset batch num: {}".format(train_batch_num), flush=True)
print("test dataset batch num: {}".format(test_batch_num), flush=True)

# build model
net = resnet50(class_num=131)
loss = SoftmaxCrossEntropyWithLogits(sparse=True, reduction="mean")
optim = Momentum(params=net.trainable_params(), learning_rate=0.01, momentum=0.9, loss_scale=1024.0)
model = Model(net, loss_fn=loss, optimizer=optim, metrics={"accuracy"})

# CheckPoint CallBack definition
config_ck = CheckpointConfig(save_checkpoint_steps=train_batch_num, keep_checkpoint_max=35)
ckpoint_cb = ModelCheckpoint(prefix="fruit_360_renet50", directory="./ckpt/", config=config_ck)
# LossMonitor is used to print loss value on screen
loss_cb = LossMonitor()

# model train
model.train(10, train_dataset, callbacks=[ckpoint_cb, loss_cb], dataset_sink_mode=True)

# model eval
result = model.eval(test_dataset)
print("eval result: {}".format(result), flush=True)

def main():

run_train()

if name == “__main__”:

main()

3.2 训练局部保留代码到gpu_single_train.py，应用如下命令进行训练：export CUDA_VISIBLE_DEVICES=0
python3 gpu_single_train.py
训练过程输入内容如下：train dataset batch num: 2115
test dataset batch num: 709
epoch: 1 step: 2115, loss is 4.219570636749268
epoch: 2 step: 2115, loss is 3.7109947204589844
……
epoch: 9 step: 2115, loss is 2.66499400138855
epoch: 10 step: 2115, loss is 2.540522336959839
eval result: {‘accuracy’: 0.676348730606488}
应用tree ckpt命令，查看一下模型保留目录的状况，输入内容如下：ckpt/
├── fruit_360_renet50-10_2115.ckpt
├── fruit_360_renet50-1_2115.ckpt
……
├── fruit_360_renet50-9_2115.ckpt
└── fruit_360_renet50-graph.meta

多卡训练–OpenMPI上面咱们通过理论案例，介绍如何在GPU平台上，采纳OpenMPI进行分布式训练。4.1 代码局部代码阐明：前三点阐明请参考3.1局部的代码阐明。多卡训练次要批改的是数据集读取和context设置局部。数据集读取：须要指定num_shards和shard_id，具体内容参考代码。context设置：蕴含参数一致性和并行模式设定。参数一致性这里应用的是set_seed来设定；并行模式通过set_auto_parallel_context办法和parallel_mode参数来进行设置。多卡训练的代码如下：import numpy as np

define reset50

def create_dataset(dataset_dir, mode=”train”, decode=True, batch_size=32, repeat_num=1):

if mode == "train":
    shuffle = True
    rank_id = get_rank()
    rank_size = get_group_size()
else:
    shuffle = False
    rank_id = None
    rank_size = None

dataset = ImageFolderDataset(
    dataset_dir=dataset_dir, shuffle=shuffle, decode=decode, num_shards=rank_size, shard_id=rank_id)

mean = [127.5, 127.5, 127.5]
std = [127.5, 127.5, 127.5]
if mode == "train":
    transforms_list = Compose(
        [RandomCrop((32, 32), (4, 4, 4, 4)),
         RandomHorizontalFlip(),
         Resize((100, 100)),
         Normalize(mean, std),
         HWC2CHW()])
else:
    transforms_list = Compose(
        [Resize((128, 128)),
         Normalize(mean, std),
         HWC2CHW()])

cast_op = TypeCast(mstype.int32)

dataset = dataset.map(operations=transforms_list, input_columns="image")
dataset = dataset.map(operations=cast_op, input_columns="label")
dataset = dataset.batch(batch_size=batch_size, drop_remainder=True)
dataset = dataset.repeat(repeat_num)

return dataset

def run_train():

context.set_context(mode=context.GRAPH_MODE, device_target="GPU")
init("nccl")
rank_id = get_rank()
rank_size = get_group_size()
print("rank size: {}, rank id: {}".format(rank_size, rank_id), flush=True)
set_seed(0)
context.set_auto_parallel_context(
    device_num=rank_size, gradients_mean=True, parallel_mode=context.ParallelMode.DATA_PARALLEL)

train_dataset_dir = "/mnt/data_0002_24t/xingchaolong/dataset/Fruits_360/fruits-360_dataset/fruits-360/Training"
test_dataset_dir = "/mnt/data_0002_24t/xingchaolong/dataset/Fruits_360/fruits-360_dataset/fruits-360/Test"
batch_size = 32

train_dataset = create_dataset(dataset_dir=train_dataset_dir, batch_size=batch_size//rank_size)
test_dataset = create_dataset(dataset_dir=test_dataset_dir, mode="test")
train_batch_num = train_dataset.get_dataset_size()
test_batch_num = test_dataset.get_dataset_size()
print("train dataset batch num: {}".format(train_batch_num), flush=True)
print("test dataset batch num: {}".format(test_batch_num), flush=True)

# build model
net = resnet50(class_num=131)
loss = SoftmaxCrossEntropyWithLogits(sparse=True, reduction="mean")
optim = Momentum(params=net.trainable_params(), learning_rate=0.01, momentum=0.9, loss_scale=1024.0)
model = Model(net, loss_fn=loss, optimizer=optim, metrics={"accuracy"})

# CheckPoint CallBack definition
config_ck = CheckpointConfig(save_checkpoint_steps=train_batch_num, keep_checkpoint_max=35)
ckpoint_cb = ModelCheckpoint(prefix="fruit_360_renet50_{}".format(rank_id), directory="./ckpt/", config=config_ck)
# LossMonitor is used to print loss value on screen
loss_cb = LossMonitor()

# model train
model.train(10, train_dataset, callbacks=[ckpoint_cb, loss_cb], dataset_sink_mode=True)

# model eval
result = model.eval(test_dataset)
print("eval result: {}".format(result), flush=True)

def main():

run_train()

if name == “__main__”:

main()

4.2 训练局部上面来介绍如何应用多卡GPU训练。4.2.1 4卡GPU训练应用如下命令，进行4卡GPU训练：export CUDA_VISIBLE_DEVICES=0,1,2,3
mpirun -n 4 python3 gpu_distributed_train.py
训练过程中，输入内容如下：rank size: 4, rank id: 0
rank size: 4, rank id: 1
rank size: 4, rank id: 2
rank size: 4, rank id: 3
train dataset batch num: 2115
test dataset batch num: 709
train dataset batch num: 2115
test dataset batch num: 709
train dataset batch num: 2115
test dataset batch num: 709
train dataset batch num: 2115
test dataset batch num: 709
[WARNING] PRE_ACT(294248,7fa67e831740,python3):2022-07-13-17:11:24.528.381 [mindspore/ccsrc/backend/common/pass/communication_op_fusion.cc:198] GetAllReduceSplitSegment] Split threshold is 0. AllReduce nodes will take default fusion strategy.
[WARNING] PRE_ACT(294245,7f57993a5740,python3):2022-07-13-17:11:26.176.114 [mindspore/ccsrc/backend/common/pass/communication_op_fusion.cc:198] GetAllReduceSplitSegment] Split threshold is 0. AllReduce nodes will take default fusion strategy.
[WARNING] PRE_ACT(294247,7f36f889b740,python3):2022-07-13-17:11:30.475.177 [mindspore/ccsrc/backend/common/pass/communication_op_fusion.cc:198] GetAllReduceSplitSegment] Split threshold is 0. AllReduce nodes will take default fusion strategy.
[WARNING] PRE_ACT(294246,7f5f1820c740,python3):2022-07-13-17:11:31.271.259 [mindspore/ccsrc/backend/common/pass/communication_op_fusion.cc:198] GetAllReduceSplitSegment] Split threshold is 0. AllReduce nodes will take default fusion strategy.
epoch: 1 step: 2115, loss is 4.536644458770752
epoch: 1 step: 2115, loss is 4.347061634063721
epoch: 1 step: 2115, loss is 4.557111740112305
epoch: 1 step: 2115, loss is 4.467658519744873
……
epoch: 10 step: 2115, loss is 3.263073205947876
epoch: 10 step: 2115, loss is 3.169656753540039
epoch: 10 step: 2115, loss is 3.2040905952453613
epoch: 10 step: 2115, loss is 3.812671184539795
eval result: {‘accuracy’: 0.48113540197461213}
eval result: {‘accuracy’: 0.5190409026798307}
eval result: {‘accuracy’: 0.4886283497884344}
eval result: {‘accuracy’: 0.5010578279266573}
应用tree ckpt命令，查看一下模型保留目录的状况，输入内容如下：ckpt/
├── fruit_360_renet50_0-10_2115.ckpt
├── fruit_360_renet50_0-1_2115.ckpt
├── fruit_360_renet50_0-2_2115.ckpt
├── fruit_360_renet50_0-3_2115.ckpt
├── fruit_360_renet50_0-4_2115.ckpt
├── fruit_360_renet50_0-5_2115.ckpt
├── fruit_360_renet50_0-6_2115.ckpt
├── fruit_360_renet50_0-7_2115.ckpt
├── fruit_360_renet50_0-8_2115.ckpt
├── fruit_360_renet50_0-9_2115.ckpt
├── fruit_360_renet50_0-graph.meta
……
├── fruit_360_renet50_3-10_2115.ckpt
├── fruit_360_renet50_3-1_2115.ckpt
├── fruit_360_renet50_3-2_2115.ckpt
├── fruit_360_renet50_3-3_2115.ckpt
├── fruit_360_renet50_3-4_2115.ckpt
├── fruit_360_renet50_3-5_2115.ckpt
├── fruit_360_renet50_3-6_2115.ckpt
├── fruit_360_renet50_3-7_2115.ckpt
├── fruit_360_renet50_3-8_2115.ckpt
├── fruit_360_renet50_3-9_2115.ckpt
└── fruit_360_renet50_3-graph.meta
4.2.2 2卡GPU训练为了进行比照，再来进行2卡GPU训练，命令如下：这里为了验证普遍性，并非依序抉择GPU。export CUDA_VISIBLE_DEVICES=2,3
mpirun -n 2 python3 gpu_distributed_train.py
训练过程中，输入内容如下：rank size: 2, rank id: 0
rank size: 2, rank id: 1
train dataset batch num: 2115
test dataset batch num: 709
train dataset batch num: 2115
test dataset batch num: 709
[WARNING] PRE_ACT(295459,7ff930118740,python3):2022-07-13-17:31:07.210.231 [mindspore/ccsrc/backend/common/pass/communication_op_fusion.cc:198] GetAllReduceSplitSegment] Split threshold is 0. AllReduce nodes will take default fusion strategy.
[WARNING] PRE_ACT(295460,7f5fed564740,python3):2022-07-13-17:31:07.649.536 [mindspore/ccsrc/backend/common/pass/communication_op_fusion.cc:198] GetAllReduceSplitSegment] Split threshold is 0. AllReduce nodes will take default fusion strategy.
epoch: 1 step: 2115, loss is 4.391518592834473
epoch: 1 step: 2115, loss is 4.337993621826172
……
epoch: 10 step: 2115, loss is 2.7631659507751465
epoch: 10 step: 2115, loss is 3.0124118328094482
eval result: {‘accuracy’: 0.6057827926657263}
eval result: {‘accuracy’: 0.6202397743300423}
应用tree ckpt命令，查看一下模型保留目录的状况，输入内容如下：ckpt/
├── fruit_360_renet50_0-10_2115.ckpt
├── fruit_360_renet50_0-1_2115.ckpt
├── fruit_360_renet50_0-2_2115.ckpt
├── fruit_360_renet50_0-3_2115.ckpt
├── fruit_360_renet50_0-4_2115.ckpt
├── fruit_360_renet50_0-5_2115.ckpt
├── fruit_360_renet50_0-6_2115.ckpt
├── fruit_360_renet50_0-7_2115.ckpt
├── fruit_360_renet50_0-8_2115.ckpt
├── fruit_360_renet50_0-9_2115.ckpt
├── fruit_360_renet50_0-graph.meta
├── fruit_360_renet50_1-10_2115.ckpt
├── fruit_360_renet50_1-1_2115.ckpt
├── fruit_360_renet50_1-2_2115.ckpt
├── fruit_360_renet50_1-3_2115.ckpt
├── fruit_360_renet50_1-4_2115.ckpt
├── fruit_360_renet50_1-5_2115.ckpt
├── fruit_360_renet50_1-6_2115.ckpt
├── fruit_360_renet50_1-7_2115.ckpt
├── fruit_360_renet50_1-8_2115.ckpt
├── fruit_360_renet50_1-9_2115.ckpt
└── fruit_360_renet50_1-graph.meta
4.2.3 多卡比照阐明联合3.2局部，进行4卡GPU训练和2卡GPU训练的比照。三种状况下，别离将batch_size设置为了32、8、16，对应到的batch_num不变。也能够认为是在GPU显存有余于反对更大batch_size时，通过多卡来实现更大batch_size的计划。从理论训练状况来看（都训练了10个epoch），单卡的成果最好，2卡次之，4卡最差。导致这种状况的起因是因为网络中应用到了BatchNorm2d算子，而在多卡状况下，无奈跨卡计算，从而导致精度上的差异。在GPU硬件下，笔者临时并没有找到正当的解决方案。5. 多卡训练–非OpenMPI在4中咱们介绍了依赖OpenMPI如何来进行GPU多卡训练，同时MindSpore也反对不依赖OpenMPI来进行GPU多卡训练。官网对此的阐明如下：出于训练时的平安及可靠性要求，MindSpore GPU还反对不依赖OpenMPI的分布式训练。OpenMPI在分布式训练的场景中，起到在Host侧同步数据以及过程间组网的性能；MindSpore通过复用Parameter Server模式训练架构，取代了OpenMPI能力。不过Parameter Server相干的文档及代码示例不够充沛。笔者尝试采纳此种形式进行训练，参考了官网文档、gitee下面的测试用例，最终未能顺利完成整个pipline。6. 本文总结原本重点介绍了在GPU硬件环境下，如何依赖OpenMPI进行多卡训练。对于非依赖OpenMPI的Parameter Server本文也有所波及，但因为官网文档的缺失和相应代码有余，无奈造成可行案例。7. 遇到问题Parameter Server模式下的官网文档跳跃性太大，相干的测试用例缺失两头过程代码，心愿可能欠缺这部分的文档和代码。8. 本文参考深度学习中的分布式训练MindSpore分布式并行总览MindSpore分布式并行训练根底样例（GPU）MindSpore Parameter Server模式本文为原创文章，版权归作者所有，未经受权不得转载！

关于人工智能:MindSpore易点通精讲系列模型训练之GPU分布式并行训练

define reset50

define reset50

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:MindSpore易点通精讲系列模型训练之GPU分布式并行训练

define reset50

define reset50

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复