作者:vivo 互联网容器团队- Pan Liangbiao

本文依据潘良彪老师在“2022 vivo开发者大会"现场演讲内容整顿而成。公众号回复【2022 VDC】获取互联网技术分会场议题相干材料。

2018年起,vivo以容器作为根底底座,打造了一站式云原生机器学习平台。向上撑持了算法中台,为算法工程师提供数据治理、模型训练、模型治理、模型部署等能力,为广告、举荐和搜寻等业务赋能,胜利为算法实现了降本、提效,让云原生和容器价值初露锋芒。基于机器学习平台的试点成绩,通过算法场景的试点实际和价值剖析,对外部策略做了降级。确定基于云原生理念去构建行业一流的容器生态,实现规模化的降本提效指标。

本文会具体介绍vivo在容器集群高可用建设中的具体实际,包含在容器集群高可用建设、容器集群自动化运维、容器平台架构降级、容器平台能力加强、容器生态买通等层面的打磨和建设。目前,vivo容器产品能力矩阵逐步趋于欠缺,并将围绕全面容器化、拥抱云原生和在离线混部三个方向持续发力。

云原生和容器,是当下比拟炽热的话题,其中 Kubernetes更是成为容器编排畛域的事实标准。

国内外各企业在外部落地云原生和容器的过程中,基于本人的业务场景和倒退阶段,会遇到各种问题和挑战,本文是vivo在云原生容器畛域的摸索和落地实际,心愿能对读者有一些借鉴和帮忙。

一、容器技术和云原生理念

首先是容器技术和云原生理念的介绍。

1.1 容器技术简介

容器技术不是一个新技术,从1979年unix零碎的chroot诞生到当初,历经40多年的倒退,共通过了四个阶段,别离是:技术萌芽期、技术爆发期、商用探索期和商用拓展期

每个阶段,解决了不同的技术问题,别离是:环境隔离、软件散发和编排、商用服务状态、规模化和场景拓展。

相比于虚拟机,容器技术少了一层虚构操作系统的损耗,因而它比虚拟机具备更好的性能体现。另外容器在系统资源、启动工夫、集群规模、高可用策略等方面,也有非常明显的劣势。

2020年CNCF中国云原生调查报告显示,承受考察的中国企业,有68%曾经在生产环境应用容器技术。

从行业倒退看,不论是云厂商还是各大科技公司,都在基于容器技术构建本人的新一代基础架构,推动企业数字翻新。容器技术曾经失去宽泛的认可和遍及。

1.2 云原生理念介绍

容器技术催生了云原生思潮,云原生生态推动了容器技术的倒退。那么云原生的精确定义和含意是什么呢?

云原生其实没有规范定义,如果非要给他一个定义,行业有两种观点:

  • 一个定义来自Pivotal 这家公司,它是云原生利用的提出者,是云原生的先驱者、探路者。Pivotal最新的官网对云原生的介绍有四个要点,别离是:DevOps、继续交付、微服务和容器
  • 另外一个定义来自CNCF,CNCF建设于2015年,它是一个开源组织,其存在的目标,是反对开源社区开发要害的云原生组件,包含 Kubernetes、Prometheus监控等。

它把云原生分为3种核心技术2个核心理念

  • 3种核心技术:别离是容器、微服务、服务网格
  • 2个核心理念:别离指不可变基础设施和申明式API

然而,不论是那一种定义,容器都是其根底,是云原生落地的外围技术手段。

1.3 云原生价值剖析

任何技术和理念,都必须有理论的业务价值。从效率、老本、品质三个维度,来剖析云原生和容器的技术价值,可总结如下:

  • 效率:可实现继续交付部署快、镜像封装可移植、弹性计算秒扩容。
  • 老本:可实现按需分配不节约、对立调度高填充、混合部署少碎片。
  • 品质:可实现运行状态可观测、故障产生可自愈、集群治理可运维。

二、vivo 容器技术摸索与实际

新技术的引入带来新的价值,也必然会引入新的问题,接下来介绍vivo在容器技术上的摸索和实际。

2.1 试点摸索

在vivo的算法场景中,机器学习平台负责算法模型迭代,是互联网算法业务中外围的一环,晚期的平台基于传统的架构,在效率、老本、性能和体验上均有肯定的有余,无奈满足算法业务快速增长的诉求。基于此,咱们首先在算法场景进行容器的试点摸索。从2018年开始,咱们以容器作为根底底座,打造了vivo的一站式云原生机器学习平台,向上撑持了公司的算法中台,为算法工程师提供数据治理、模型训练、模型治理、模型部署等能力,为广告、举荐和搜寻等业务赋能。

vivo的云原生机器学习平台具备如下5大劣势:

  • 场景全:业务端到端,笼罩举荐、广告、搜寻多场景。
  • 体验好:排队工夫短,用户体验优,工作P99排队时长小于45分钟。
  • 成本低:调度能力好,资源利用率高,CPU利用率均值大于45%。
  • 效率高:网络规模大,训练跑得快,训练速度8.3亿样本每小时。
  • 后果优:算法迭代稳固,训练成功率高,训练成功率大于95%。

vivo云原生机器学习平台,胜利为算法实现了降本、提效,让云原生和容器价值初露锋芒。

2.2 价值开掘

基于后面机器学习平台的试点成绩,咱们深入分析和开掘容器和云原生的价值,联合vivo的状况,咱们发现容器和云原生是企业大规模降本和提效的最佳计划。

1)在降本方面

以后咱们外部服务器资源的利用率较低,以CPU利用率为例,以后vivo服务器整体利用率均值在25%左右,相比行业一流程度的40%~50%,还有不少的晋升空间。

容器在资源隔离、对立调度和在离线混部等方面的劣势,均是晋升资源ROI的无效技术手段。

2)在提效方面

以后咱们在中间件版本升级、机器迁徙、测试环境治理、突发流量应答和全球化部署的环境一致性等方面均有业务痛点。

容器的疾速交付、弹性自运维、微服务、服务网格等云原生技术和架构,则是提效的无力措施。

2.3 策略降级

通过算法场景的试点实际和价值剖析,咱们对外部策略做了降级, 确定基于云原生理念去构建行业一流的容器生态,实现规模化的降本提效指标。

为了更好匹配策略落地,拥抱云原生,咱们还对外部技术架构从新布局和降级,新增引入对立流量接入平台、容器运维治理平台、对立名字服务、容器监控等平台和能力,撑持容器生态在公司外部的全面建设和推广。

2.4 面临挑战

2.4.1 集群挑战

要提供大规模的生产可用的容器服务,容器集群的可用性首先会面临诸多挑战。上面介绍vivo容器化,在生产集群建设过程中遇到的4个比拟大的挑战。

  • 集群规模快速增长:vivo集群服务器规模上万个宿主机节点,治理的集群数十个,单集群规模2千+,实例数10万+,对集群性能和机器治理挑战极大。
  • 集群运维、经营和标准化:因为晚期集群治理不标准,黑屏化操作和人为误操作等问题层出不穷,集群运维人员每天因为各种救火忙得焦头烂额。
  • 集群容器监控架构和可观测性:随着集群规模快速增长,容器的监控组件面临极大压力,对容器监控的采集、存储和展现,提出更高的要求。
  • 线上K8s版本升级迭代:面对Kubernetes版本的疾速迭代,须要实现给航行的飞机换引擎。

针对挑战,咱们的应答计划别离是:高可用、可观测、标准化和自动化。其中容器监控和k8s版本无损降级的挑战,vivo公众号有具体技术计划的介绍,本文偏重介绍集群高可用和运维自动化两局部。

2.4.2 平台挑战

除了集群稳定性的挑战,平台也将面临各种挑战,因为容器平台和周边生态能力不欠缺,对业务存在较高的适配和迁徙老本。总结起来咱们遇到的挑战次要有4点:

  • 容器IP的变动:k8s晚期把业务都设计成无状态的,其原生实现是每次公布容器的IP都会变动,这对局部依赖固定IP的传统业务不太敌对,业务革新老本较高。
  • 周边生态的适配和兼容:包含公布零碎、中间件微服务平台、外部开发框架和流量接入层等
  • 用户应用习惯:vivo有比拟成熟的公布平台,用户习惯按机房公布,习惯资源分配和公布离开操作。
  • 价值输入:运维研发效率的晋升不好量化,容器老本劣势短期不好掂量。

下面这些挑战,推动咱们要进行容器周边生态买通,同时通过加强容器平台产品能力,来适配各种业务场景,升高用户的迁徙老本。

2.5 最佳实际

2.5.1 容器集群高可用建设

接下来,介绍vivo在容器集群高可用建设中的最佳实际,咱们是从故障预防、故障发现和故障复原,3个维度来构建容器集群可用性保障体系的。

1、在故障预防上,咱们别离从流程工具、容灾能力和基础架构3个方面来进行建设:

  • 流程工具:次要蕴含故障预案和故障演练,以及通过建设运维治理平台,来实现运维标准化、白屏化和自动化。
  • 容灾能力:次要是构建业务跨故障域容灾能力,保障集群故障时,服务和业务流量能跨集群调度和疾速一键迁徙等。
  • 基础架构:次要是通过屏蔽用户对底层集群的感知,一个机房多套集群,一个业务同时部署在多个集群上,防止单集群故障对业务造成影响。

2、在故障发现上,咱们次要是通过,自建的监控大盘、日常集群巡检、外围组件监控、集群外拨测等措施,对故障及时发现和解决,升高对业务影响。

3、在故障复原上,次要是基于后面的故障预案,疾速复原,及时止损,并做好故障的复盘,不断改进咱们的故障预防和发现机制,积淀贵重教训。

另外,集群的可观测性是可用性保障的一个重要依据,咱们通过建设本人的SLO面板,对集群状态实时地进行监控,只有对经营情况一目了然,能力做到稳如泰山,从容应答所有变动。

2.5.2 容器集群自动化运维

除了容器集群本身稳定性建设,在运维自动化方面,咱们建设了容器多集群治理平台,实现集群配置标准化,外围运维场景白屏化,来晋升运维效率。

咱们的容器集群治理平台,是以云原生的形式来治理云原生,简略来说,就是基于k8s的operator机制,实现k8s on k8s。

以后,咱们的平台曾经可能实现多集群的对立纳管,集群部署也是自动化、标准化的,还实现了底层IAAS层买通,集群节点能全流程化、可视化的一键扩缩容,而集群巡检性能,能够帮忙咱们及时发现集群的问题和隐患。

通过平台进行日常运维和操作,不仅能晋升效率,也具备审计能力,有操作和变更日志可追溯,便于问题定位。

2.5.3 容器平台架构降级

为适应业务容器化在外部的疾速遍及和推广,咱们降级了vivo的容器平台架构。

新的架构分为4层,容器+k8s则作为根底的对立底座,向下对接公司IAAS层的基础设施,向上提供容器产品和平台能力,并通过凋谢API供下层调用和定制本人的下层逻辑。

API之上是容器反对的各种服务类型,包含在线服务、中间件服务、大数据计算、算法训练、实时计算等,最下面是为vivo互联网各个业务进行赋能。

基于这套容器平台架构,业务能实现资源隔离部署、疾速交付和按需应用,同时也具备更好的弹性伸缩能力。对平台,咱们能够对立资源的调度,实现资源的分时复用、在离线混部等,来晋升资源的利用率。

2.5.4 容器平台能力加强

vivo外部容器化场景比拟多样化,为了让业务可能安心、低成本的接入和应用容器的能力,在推广过程中,咱们基于开源+自研做了容器的适配和原生能力的加强。

上面对6个产品能力加强进行简略的分享:

  • 云原生工作负载加强:基于开源的openkruise,对原生deployment、statefulset等workload进行了加强,实现诸如原地降级、公布暂停、流式和配置优先级等扩大能力。
  • 服务无损公布加强:基于外部框架和平台自主研发,实现HTTP、RPC等协定框架的流量无损公布。
  • 容器镜像平安:基于开源的Harbor定制开发,实现容器镜像平安扫描和卡控能力。
  • 容器镜像减速:基于开源dragonfly2定制扩大,让大规模集群镜像的散发性能晋升80%以上。
  • IP固定能力加强:基于有状态服务和CNI进行自研,撑持黑白名单、有状态服务场景诉求,升高业务接入革新老本。
  • 多集群治理能力加强:基于开源Karmada进行性能优化和扩大,晋升业务容灾能力,撑持单集群横向扩大能力。

当然,在充沛享受开源红利的同时,咱们也继续地参加开源协同,回馈社区。在应用和自研的过程中,咱们也把本人生产实践过程中发现的问题和积攒的教训提交到社区,例如Dragonfly2、Karmada等。

2.5.5 容器CICD一体化

除了平台能力的加强,容器平台作为一个PaaS平台,须要和周边的生态买通,能力让业务更好的迁徙和应用,其中最重要的就是公布零碎的买通,也就是CICD平台。

简直每个科技公司都会有本人的CICD,它是一个DevOps自动化的工具,可进行业务构建和编排部署的流水线。

vivo的CICD平台底层架构是基于JenKins+Spinnaker实现的,整个容器构建和部署流程如下:

  • 首先,用户在CICD平台上创立好公布过程的流水线配置并保留。
  • 其次,CI环节可实现和外部GitLab对接,拉取代码,基于jenkins进行代码编译和镜像构建,构建好的镜像通过平安扫描后,推送到开发环境的镜像仓库。
  • 最初,在CD环节,CICD平台会调用容器平台提供的API,进行开发、测试、预发和生产环境的部署操作。

2.5.6 对立流量接入

接下来,介绍容器生态里,最重要的业务流量接入层的买通。

晚期,vivo外部是基于Nginx,来实现的南北流量和货色流量的转发。在虚拟机和物理机场景能比拟好的撑持,随着容器在外部全面的推广,传统的Nginx架构已不能适配。

次要体现在,容器场景业务实例数量,相比原来虚拟机和物理机成倍数增长,容器公布过程IP的频发变动和状态同步,都会对Nginx集群造成十分大的压力,在业务申请量十分大的状况下,接入层的配置文件刷新和加载,会造成业务的抖动,这是咱们不能承受的。

基于这个背景,咱们基于APISIX构建了云原生流量接入层,来适应全面容器化的需要。通过一年多的建设,以后咱们的对立流量接入平台曾经可能很好的撑持容器化的接入,同时具备更好的扩大能力。

2.6 实际成绩

2.6.1 产品能力矩阵欠缺

通过多年的打磨和建设,vivo容器产品能力矩阵趋于欠缺,整个产品能力矩阵,分为4层:

  • 根底服务层:蕴含3类服务,镜像治理、集群运维和集群监控。
  • 能力层:蕴含6个外围能力,别离是集群调度、CAAS-API、容器配置、容器业务监控告警、容器日志和平台扩大能力。
  • 平台层:蕴含2大平台能力,别离是CI和CD。
  • 业务层:以后笼罩了vivo互联网所有业务场景。

2.6.2 业务接入成绩凸显

接下来,会具体介绍下vivo容器推广状况。

目前容器在vivo外部次要笼罩4大场景,别离是:互联网在线业务算法在线大数据计算AI算法训练等。接下来,会从接入规模和价值来简略介绍。

  • 互联网在线服务:外部各个业务线均有大量服务运行在容器上,例如vivo商城、账号、浏览器、快利用、天气等,曾经接入服务600+。
  • 算法在线服务:以后接入500+服务,3000+服务器,波及推广搜的各个业务线。
  • 大数据计算服务:蕴含离线计算如Spark,实时计算如Flink、Olap等场景,以后接入集群20+。
  • AI算法训练:次要是提供GPU、CPU异构计算,业务场景如Tensorflow、mpi等场景,算力十几万核,以及若干GPU卡。

业务容器化后,给业务在降本提效上带来的成果非常明显,包含但不限于扩缩容效率、弹性伸缩能力、业务自愈能力、资源老本等方面。

2.7 实际总结

基于咱们的摸索和实际,可总结为技术价值、推广策略、平台建设和云原生冲破4个维度的思考。

  • 找价值:关注新技术,但不执着于技术自身,必须联合业务痛点和价值。
  • 定策略:自下而上小范畴试点摸索,产生理论的业务价值,影响自上而下的策略调整。
  • 建平台:当曾经有比较完善的平台和能力时,要找到容器的切入点,进行交融共建,切忌推到重来;对于须要从0到1建设的新能力,须要果决的孵化翻新。
  • 求冲破:在业务容器化过程中,为了疾速容器化,咱们做了许多的兼容和适配。为了更好的降本提效,将来,咱们心愿疏导用户,实现从应用云原生,到用好云原生的冲破。

总的来说,技术服务于业务,企业应基于本身现状,寻找适合的解决方案,并为业务发明价值。

三、vivo对云原生的将来瞻望

3.1 vivo基础架构倒退

从过来看将来倒退,回顾过去10年历程,vivo基础架构的倒退经验了3个阶段:

  • 阶段一:传统研发运维阶段,从2011到2018年,从晚期的do拆散研发模式,到基于openstack+kvm的虚拟化计划落地。
  • 阶段二:利用架构互联网化阶段,从2018到2020年,容器化开始在vivo外部衰亡。
  • 阶段三:云原生基础架构演进阶段,从2021年到当初,云原生和容器将会在vivo外部有更多场景的利用和推广,如在离线混部等。

3.2 vivo云原生将来瞻望

回归事物根源思考,做正确的事,并把事件做正确。不盲从,有定力,基于价值,主观对待新技术倒退,大胆假如、小心验证、实际出真知。

vivo云原生的将来,将会朝着3个方向倒退,别离是全面容器化、拥抱云原生和在离线混部。

咱们的愿景是:一次开发到处运行,通过主动运维实现极致效率和老本最优!

  • 对开发人员:咱们心愿大家成为那只漫游海上的蓝色鲸鱼,驮着咱们的业务利用,一次构建到处散发,灵便调度和运维。
  • 对管理者:咱们心愿谋求效率的同时,可能实现老本最优。