作者 | 徐晓舟(萧元)
起源 | 阿里巴巴云原生公众号
背景
因为云计算在资源老本和弹性扩容方面的人造劣势,越来越多客户违心在云上构建 AI 零碎,而以容器、Kubernetes 为代表的云原生技术,曾经成为开释云价值的最短门路,在云上基于 Kubernetes 构建 AI 平台曾经成为趋势。
当面临较简单的模型训练或者数据量大时,单机的计算能力往往无奈满足算力要求。通过应用阿里的 AiACC 或者社区的 horovod 等分布式训练框架,仅需批改几行代码,就能将一个单机的训练任务扩大为反对分布式的训练任务。在 Kubernetes 上常见的是 kubeflow 社区的 tf-operator 反对 Tensorflow PS 模式,或者 mpi-operator 反对 horovod 的 mpi allreduce 模式。
现状
Kubernetes 和云计算提供敏捷性和伸缩性,咱们能够通过 cluster-AutoScaler 等组件为训练任务设置弹性策略,利用 Kubernetes 的弹性能力,按需创立,缩小 GPU 设施空转。
但这种伸缩模式面对训练这种离线工作还是略有有余:
- 不反对容错,当局部 Worker 因为设施起因失败,整个工作须要进行重来。
- 训练任务个别工夫较长,占用算力大,工作短少弹性能力。当资源有余时,除非工作终止,无奈按需为其余业务腾出资源。
- 训练任务工夫较长,不反对 worker 动静配置,无奈平安地应用抢占实例,施展云上最大性价比
如何给训练任务赋予弹性能力,是进步性价比的要害门路。近期 horovod 等分布式框架逐步反对了 Elastic Training,即弹性训练能力。也就是容许一个训练任务在执行的过程中动静的扩容或者缩容训练 worker,从不会引起训练任务的中断。须要在代码中做大量批改适配,可参考:https://horovod.readthedocs.io/en/stable/elastic_include.html。
对 Elastic training 的实现原理感兴趣能够看这篇 Elastic Horovod 设计文档,本文不具体介绍。
在 mpi-operator 中,参加训练的 Worker 都是作为动态资源设计和保护,反对弹性训练模式后,给工作减少了灵活性,同时也给运维层带来了挑战,例如:
- 必须通过 horovod 提供的 horovordrun 作为入口,horovod 中 launcher 通过 ssh 登陆 worker,须要买通 launcher 和 worker 之间的登陆隧道。
- 负责计算弹性的 Elastic Driver 模块通过指定 discover_host 脚本获取最新 worker 拓扑信息,从而拉起或进行 worker 实例。当 worker 变动时,首先要更新 discover_host 脚本的返回值。
- 在抢占或价格计算等场景中,有时须要指定 worker 缩容,K8s 原生的编排元语 deployment,statefulset 无奈满足指定缩容的场景。
解决办法
针对以上问题,咱们设计开发了 et-operator,提供 TrainingJob CRD 形容训练任务, ScaleOut 和 ScaleIn CRD 形容扩容和缩容操作,通过它们的组合,使咱们的训练任务更具备弹性。将这个计划开源,欢送大家提需要、交换、吐槽。
开源计划地址:https://github.com/AliyunContainerService/et-operator
设计
TrainingJob Controller 次要有以下性能:
- 保护 TrainingJob 的创立 / 删除生命周期,以及子资源管理。
- 执行扩缩容操作。
- 容错,当 worker 被驱赶,创立新的 worker 退出到训练中。
1. 资源创立
TrainingJob 子资源创立程序如下:
- 创立买通 ssh 所需的密钥对,创立 secret。
- 创立 workers,蕴含 service 和 pod,挂载 secret 公钥。
- 创立 configmap,蕴含 discover_host 脚本 , hostfile 文件。
- 创立 launcher,挂载 configmap。因为 hostfile 后续会随着拓扑关系批改,所以 hostfile 独自通过 initcontainer 从 configmap 拷贝到独自目录。
TrainingJob 相干资源:
TrainingJob CR 的配置分为 Lanucher 和 Worker。在 Launcher 中指定工作的镜像和启动执行,默认 et-operator 会依据 worker 分配情况,生成一个 hostfile 文件和 discover_host 脚本,discover_host 脚本挂载到 Launcher 的 /etc/edl/discover_hosts.sh 文件,在入口脚本的 horovodrun 执行中通过 –host-discovery-script 参数指定。在 Worker 设置中指定 worker 的镜像和 GPU 占用,并能够通过 maxReplicas / minReplicas 指定 workers 的正本数容许范畴。
apiVersion: kai.alibabacloud.com/v1alpha1
kind: TrainingJob
metadata:
name: elastic-training
namespace: default
spec:
cleanPodPolicy: Running
etReplicaSpecs:
launcher:
replicas: 1
template:
spec:
containers:
- command:
- sh
- -c
- horovodrun -np 2 --min-np 1 --max-np 9 --host-discovery-script
/etc/edl/discover_hosts.sh python /examples/elastic/tensorflow2_mnist_elastic.py
image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu
imagePullPolicy: Always
name: mnist-elastic
worker:
maxReplicas: 9
minReplicas: 1
replicas: 2
template:
spec:
containers:
- image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu
imagePullPolicy: Always
name: mnist-elastic
resources:
limits:
nvidia.com/gpu: "1"
requests:
nvidia.com/gpu: "1"
status:
currentWorkers:
- elastic-training-worker-0
- elastic-training-worker-1
- elastic-training-worker-2
- elastic-training-worker-3
phase: Succeeded
replicaStatuses:
Launcher:
active: 1
succeeded: 1
Worker:
active: 4
2. Worker 扩容 / 缩容
除了 TrainingJob 外,et-operator 同时反对 ScaleOut 和 ScaleIn 两种 CRD,下发训练任务扩容和缩容操作。
当下发一个 ScaleOut CR,ScaleOutController 触发 Reconcile,这里工作很简略,依据 ScaleOut CR 中的 Selector 字段,找到 Scaler 对应的 TrainingJob,设置到 CR 的 OwnerReferences 上。
以一个 ScaleOut 操作举例:
- apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleOut
metadata:
creationTimestamp: "2020-11-04T13:54:26Z
name: scaleout-ptfnk
namespace: default
ownerReferences:
- apiVersion: kai.alibabacloud.com/v1alpha1
blockOwnerDeletion: true
controller: true
kind: TrainingJob
name: elastic-training // 指向扩容对象 TrainingJob
uid: 075b9c4a-22f9-40ce-83c7-656b329a2b9e
spec:
selector:
name: elastic-training
toAdd:
count: 2
TrainingJobController 中监听到属于 TrainingJob 的 ScaleOut CR 有更新,触发 TrainingJob 的 Reconcile,遍历过滤 TrainingJob 下 OwnerReference 指向的 ScaleIn 和 ScaleOut,依据创立工夫和状态工夫决定执行的扩容或者缩容。
apiVersion: kai.alibabacloud.com/v1alpha1
kind: TrainingJob
metadata:
name: elastic-training
namespace: default
spec:
// ...... Launcher and Worker spec
status:
currentScaler: ScaleIn:default/scaleout-ptfnk
phase: Scaling
currentWorkers:
- elastic-training-worker-0
- elastic-training-worker-1
ScaleOut 工作 CR:
ScaleIn 工作 CR:
具体工作过程:
运行
1. 装置 ET-Operator
mkdir -p $(go env GOPATH)/src/github.com/aliyunContainerService
cd $(go env GOPATH)/src/github.com/aliyunContainerService
git clone https://http://github.com/aliyunContainerService/et-operator
cd et-operator
kubectl create -f deploy/all_in_one.yaml
检测 crd 的装置:
# kubectl get crd
NAME CREATED AT
scaleins.kai.alibabacloud.com 2020-11-11T11:16:13Z
scaleouts.kai.alibabacloud.com 2020-11-11T11:16:13Z
trainingjobs.kai.alibabacloud.com 2020-11-11T11:16:13Z
检测 controller 的运行状态,默认装置在 kube-ai 中:
# kubectl -n kube-ai get po
NAME READY STATUS RESTARTS AGE
et-operator-controller-manager-7877968489-c5kv4 0/2 ContainerCreating 0 5s
2. 运行 TrainingJob
运行当时已筹备好的示例:
kubectl apply -f examples/training_job.yaml
检测运行状态:
# kubectl get trainingjob
NAME PHASE AGE
elastic-training Running 77s
# kubectl get po
NAME READY STATUS RESTARTS AGE
elastic-training-launcher 1/1 Running 0 7s
elastic-training-worker-0 1/1 Running 0 10s
elastic-training-worker-1 1/1 Running 0 9s
3. 缩容训练任务 Worker
执行缩容时,能够通过 ScaleIn CR 中的 spec.toDelete.count 或 spec.toDelete.podNames 字段指定缩容的 worker。
通过 count 配置缩容的数量,则通过 index 计算由高到低缩容 Worker。
apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleIn
metadata:
name: scalein-workers
spec:
selector:
name: elastic-training
toDelete:
count: 1
如果想要缩容特定的 Worker,能够配置 podNames:
apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleIn
metadata:
name: scalein-workers
spec:
selector:
name: elastic-training
toDelete:
podNames:
- elastic-training-worker-1
运行一个缩容示例,指定数量缩容 1 个 worker:
kubectl create -f examples/scale_in_count.yaml
检测缩容执行状态和训练任务:
# kubectl get scalein
NAME PHASE AGE
scalein-sample-t8jxd ScaleSucceeded 11s
# kubectl get po
NAME READY STATUS RESTARTS AGE
elastic-training-launcher 1/1 Running 0 47s
elastic-training-worker-0 1/1 Running 0 50s
4. 扩容训练任务
在 ScaleOut CR 中,通过 spec.toAdd.count 字段指定扩容的 worker 数:
apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleOut
metadata:
name: elastic-training-scaleout-9dtmw
namespace: default
spec:
selector:
name: elastic-training
timeout: 300
toAdd:
count: 2
运行示例:
kubectl create -f examples/scale_out.yaml
检测缩容执行状态和训练任务:
kubectl get scaleout
NAME PHASE AGE
elastic-training-scaleout-9dtmw ScaleSucceeded 30s
kubectl get po
NAME READY STATUS RESTARTS AGE
elastic-training-launcher 1/1 Running 0 2m5s
elastic-training-worker-0 1/1 Running 0 2m8s
elastic-training-worker-1 1/1 Running 0 40s
elastic-training-worker-2 1/1 Running 0 40s
总结
ET-Operator 提供一组训练和扩缩容 CRD 和 Controller,让咱们在 Kubernetes 上不便地运行弹性分布式训练,反对下发分布式训练任务,并通过和分布式框架的集成联动,在训练任务运行过程中动静地扩容和缩容参加运算的 Workers。使咱们的训练任务具备弹性能力,联合抢占实例,可能更好的利用云上的资源弹性和性价比劣势。