关于ack:vivo-AI-计算平台的-ACK-混合云实践

113次阅读

共计 3392 个字符，预计需要花费 9 分钟才能阅读完成。

作者|刘东阳、吴梓洋

2018 年底，vivo AI 研究院为了解决对立高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点，着手建设 AI 计算平台。通过两年多的继续迭代，平台建设和落地获得了很大停顿，成为 vivo AI 畛域的外围根底平台。平台从当初服务深度学习训练为主，到当初演进成蕴含 VTraining、VServing、VContainer 三大模块，对外提供模型训练、模型推理和容器化能力。平台的容器集群有数千个节点，领有超过数百 PFLOPS 的 GPU 算力。集群里同时运行着数千个训练任务和数百个在线服务。本文是 vivo AI 计算平台实战系列文章之一，次要分享了平台在混合云建设方面的实际。

混合云是近年来云原生畛域关注的新方向之一，它是指将公有云和私有云服务联合起来应用的解决方案。目前几大公有云厂商都提供了各自的混合云计划，如 AWS 的 AWS Outpost、谷歌的 GEC Anthos 和阿里的 ACK 混合云。大部分厂商都是通过应用 Kubernetes 和容器来屏蔽底层基础设施的差别，对上提供对立的服务。AI 计算平台抉择建设混合云，次要是基于以下两点起因。

平台的集群应用公司自建机房内的裸金属服务器，新增资源的洽购流程简单、周期长，无奈及时响应业务长期的大量的算力需要，如大规模参数模型的训练和在线服务的节假日流动扩容。同时因为往年服务器供应链形势严峻，网卡、硬盘、GPU 卡等硬件设施都缺货，服务器洽购交付存在较大危险。私有云的资源能够按需申请和开释，通过混合云应用私有云资源，可能满足业务的长期算力需要，又能无效降低成本。

私有云有一些高级的个性，比方 AI 高性能存储 CPFS、高性能网络 RDMA、深度学习减速引擎 AIACC，这些计划或个性目前公司公有云尚不具备，而私有化落地的工夫和金钱老本都很高，通过混合云能够疾速和低成本的应用这些个性。

通过后期调研，以下三种计划能够实现混合云的需要：

计划一的实现成本低、不扭转以后资源申请流程，可疾速落地。业务能够承受小时级的扩容。因而咱们抉择了计划一。

混合云的整体架构如下图所示。K8s 集群的治理立体部署在公司自建机房，工作立体蕴含了机房的物理机和阿里云的云主机。机房和阿里云间通过专线买通了网络，物理机和云主机能够互相拜访。计划对下层平台通明，比方 VTraining 训练平台不须要改变即可应用云主机的算力。

首先须要将自建的集群注册到阿里云。留神应用的 VPC 的网段不能和集群的 Service CIDR 抵触，否则无奈注册。VPC 的虚构交换机和 Pod 虚构交换机的 CIDR 也不能和机房内应用的网段重合，否则会有路由抵触。注册胜利后，须要部署 ACK Agent。它的作用是被动建设从机房到阿里云的长链接，接管控制台的申请并转发给 apiserver。对于没有专线的环境，此机制能够防止将 apiserver 裸露在公网。控制台到 apiserver 的链路如下：

阿里云 ACK 控制台 <<–>> ACK Stub（部署在阿里云）<<–>> ACK Agent（部署在 K8s）<<–>> K8s apiserver

控制台到集群的申请是平安可控的。Agent 连贯 Stub 时，会带上配置的 token 和证书；链接采纳了 TLS 1.2 协定，保证数据加密；能够通过 ClusterRole 来配置控制台对 K8s 的拜访权限。

K8s 的容器网络要求 Pod 和 Pod、Pod 和宿主机之间通信失常，平台采纳了 Calico + Terway 的网络计划。机房内的工作节点采纳 Calico BGP，Route Reflector 会将 Pod 的路由信息同步给交换机，物理机和云主机都能失常拜访 Pod IP。阿里云上的工作节点会采纳 Terway 共享网卡模式，Pod 会从 Pod 虚构交换机配置的网段中调配到 IP，该 IP 在机房内能够拜访。平台给云主机打上标签，配置 calico-node 组件的 nodeAffinity，不调度到云主机上；同时配置 Terway 组件的 nodeAffinity，让其只运行在云主机上。这样实现了物理机和云主机应用不同的网络组件。在部署和应用 Terway 中，咱们遇到并解决了以下三个问题：

1、terway 容器创立失败，报 /opt/cni/bin 目录不存在。

通过批改 terway daemonset 中该门路的 hostPath 的 type，从 Directory 改为 DirectoryOrCreate 能够解决上述问题。

2、业务容器创立失败，报找不到 loopback 插件。

terway 没有像 calico-node 一样在 /opt/cni/bin/ 目录下部署 loopback 插件 (创立回环网络接口)。咱们给 terway daemonset 增加了 InitContainer 来部署 loopback 插件，解决了问题。

3、业务容器调配的 IP 是属于主机交换机网段。

这是因为在应用中，咱们新增了一个可用区，然而没有把可用区的 Pod 虚构交互机的信息配置给 terway。通过在 terway 配置的 vswitches 字段新增可用区的 Pod 虚构交换机信息，能够解决问题。

将云主机退出集群的流程和物理机基本一致。首先通过公司云平台申请云主机，而后通过 VContainer 的自动化平台将云主机初始化并加到集群中。最初给云主机打上云主机专有的标签。对于自动化平台的介绍，能够参见 vivo AI 计算平台云原生自动化实际。

机房到阿里云的专线是公司所有业务共用的，如果平台占用过多专线带宽，会影响到其余业务的稳定性。在落地时咱们发现深度学习训练任务从机房的存储集群拉取数据，的确对专线造成压力，为此平台采取了以下措施：

1、监控云主机的网络应用状况，由网络组帮助监控对专线的影响。
2、应用 tc 工具对云主机 eth0 网卡的上行带宽进行限流。
3、反对业务应用云主机的数据盘，将训练数据进行预加载，防止重复从机房拉取数据。

数个业务方长期须要大量的算力用于深度学习模型的训练。通过混合云的能力，平台将数十台 GPU 云主机退出到集群，提供给用户在 VTraining 训练平台上应用，及时满足了业务的算力需要。用户的应用体验和之前完全一致。这批资源依据不同业务的状况，应用周期在一个月到数个月。通过估算，应用费用大大低于自行洽购物理机的费用，无效升高了老本。

混合云的建设和落地获得了阶段性的成绩，在将来咱们会继续欠缺性能机制和摸索新个性：

反对 AI 在线服务通过混合云能力部署到云主机，满足在线业务长期算力需要。
建设一套简略无效的资源申请、开释、续期的流程机制，晋升跨团队的沟通合作效率。
针对云主机的老本、利用率进行度量和考核，促使业务方应用好资源。
将云主机申请、退出集群整个流程自动化，缩小人工操作，提高效率。
摸索云上的高级个性，晋升大规模分布式训练的性能。

感激阿里云容器团队的华相、建明、流生等和公司根底平台一部的杨鑫、黄海廷、王伟等对混合云计划的设计和落地过程中提供的大力支持。

作者介绍:

刘东阳，vivo AI 研究院计算平台组的资深工程师，曾就任于金蝶、蚂蚁金服等公司；关注 k8s、容器等云原生技术。

吴梓洋，vivo AI 研究院计算平台组的资深工程师，曾就任于 Oracle、Rancher 等公司；kube-batch, tf-operator 等我的项目的 contributor；关注云原生、机器学习零碎等畛域。

文内相干链接：

1）vivo AI 计算平台实战：
https://www.infoq.cn/theme/93

2）AWS Outpost：
https://aws.amazon.com/cn/out…

3）GEC Anthos：
https://cloud.google.com/anthos

4）ACK 混合云：
https://help.aliyun.com/docum…

5）AI 高性能存储 CPFS：
https://www.alibabacloud.com/…

6）深度学习减速引擎 AIACC：
https://market.aliyun.com/pro…

7）vivo AI 计算平台云原生自动化实际：
https://www.infoq.cn/article/…

点击下方，深刻理解阿里 ACK 混合云！
https://help.aliyun.com/docum…

正文完

ack

发表至： ack

2021-10-25

0

关于ack:vivo-AI-计算平台的-ACK-混合云实践

关于ack:基于-ACK-Fluid-的混合云优化数据访问二搭建弹性计算实例与第三方存储的桥梁

关于ack:基于-ACK-Fluid-的混合云优化数据访问三加速第三方存储的读访问降本增效并行

关于ack:如何在容器服务-ACK-玩转-MSE-Ingress

关于docker:Docker相关

关于ack:vivo-AI-计算平台的-ACK-混合云实践

背景

私有云的弹性资源

私有云的高级个性

计划

计划选型

整体架构

落地实际

注册集群

容器网络配置

云主机退出集群

升高专线压力

落地成果

将来瞻望

致谢

Just My Socks（注册教程内含优惠码）

关于ack:vivo-AI-计算平台的-ACK-混合云实践

背景

私有云的弹性资源

私有云的高级个性

计划

计划选型

整体架构

落地实际

注册集群

容器网络配置

云主机退出集群

升高专线压力

落地成果

将来瞻望

致谢

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）