关于大数据:实录分享-Alluxio-Operator一体化部署方案

明天给大家分享的内容是 Alluxio Operator的一体化部署计划。我会将内容分成 4 个局部来给大家解说。

首先，介绍 Kubernetes 容器化部署和以后所面临的挑战。
而后，引入operator的概念，介绍以后业界对于Kubernetes 容器化部署问题的支流解决方案。
接着，解说如何针对应用服务去实现对应的operator。
最初用Alluxio作为理论案例展现operator是如何实现的。

一、Kubernetes 容器化部署所面临的挑战

目前 Kubernetes 曾经是业界比拟支流的容器化部署计划，次要因为它对当初的容器化反对十分好，然而同时它也存在一些问题。咱们具体看一下Kubernetes容器化部署的过程，以Presto 为例，部署Presto、将Presto上云，须要做哪些事件？

第一步：梳理组件上云之后须要部署哪些 Kubernetes 资源。咱们把利用打包成容器镜像，传到云仓库外面。

第二步：设计部署组件所须要的 Kubernetes 资源。如上图就展现了Presto在 Kubernetes 上的部署架构。因为Presto 组件蕴含了 coordinator 和 worker 两个不同的角色，所以咱们针对这两个不同角色的配置须要有对应的ConfigMap资源，而且对coordinator和 worker 别离都须要有 Deployment 撑持部署。此外，为了买通 worker 与 coordinator的网络通讯，咱们还须要一个 Service 资源。有了这样一个部署架构图之后，咱们还要去思考到底要按什么样的程序提交资源。比方对Presto 来说，咱们须要提交Service、Deployment，还有 ConfigMap，这些资源都是通过 yaml 文件形容的，它们之间有先后顺序，有肯定的依赖关系。比方在这个例子里，咱们要先提交ConfigMap，再基于 ConfigMap创立Deployment，有了 Deployment 之后，咱们再去部署Service。至此，咱们发现须要有先后顺序做部署组件，这样就带来了一些问题：

首先它带来的第一个问题就是所波及到的Kubernetes 资源可能有多个，保护起来很不不便。尤其是对于很多大数据存储和计算畛域外面的中间件，可能波及到十分多的依赖，甚至包含一些上游上游的撑持组件。

在Kubernetes 上要跑起来，须要多个 yaml 文件。比方以 Presto 为例，它须要的yaml文件有 5 个，咱们如果要去实现Presto上云，就要保护多个yaml文件，这就导致了第二个问题，当咱们须要批改某一个配置的时候，其实咱们不仅要批改某一个 yaml 文件，可能还要批改所波及到的跟它相关联的yaml文件。假如咱们要批改容器的镜像版本，咱们应该只须要批改某一个文件的镜像版本即可，但事实上，因为整个架构外面波及到多个yaml文件、多个 Kubernetes 资源，所以这就导致了至多批改两个文件，批改起来非常复杂。又假如咱们要批改服务的端口，从8080改成8081，会导致保护的复杂度变高，要改多个文件。诸如此类的批改操作，就导致减少了运维复杂度。

第三个问题是一个组件其实是由多个资源独特撑持而实现，然而这些资源的状态又是互相独立的。咱们无奈从更形象更高维度的层级去监控所有资源的信息。比方刚刚提到的这些 Kubernetes 资源，独特组成了一个集群。但咱们无奈主动收集集群的应用状况，因为不同资源之间互相独立，而它们各自的日志只局限于本人自身。假如咱们想依据集群的状况进行主动扩缩容，这个时候须要手动依据集群的状况去做扩缩容。咱们只能晓得某一个资源在某个时刻产生了变更，但无奈晓得集群到底什么时候产生了变更，要获取到这些信息，须要在更形象的层级下能力实现。再比方，咱们无奈在集群的层面做主动备份容灾，如果忽然遇到了一个需要，要下线一批机器，须要对机器上的数据进行迁徙，那么这个时候只能手动做这些事件，通过手动调整Kubernetes的配置来实现。一方面须要很大的人力保护老本，另一方面即便可能通过手动实现，也很难跟踪到集群在何时做了哪些变更，只能看Kubernetes的内置日志，因而，咱们也无奈很好地做到弹性扩缩容。

诸如 Presto 这样的计算引擎，白天可能用的人较多，申请量很大，这时候须要的资源就比拟多，能够适当地给它裁减一些资源，然而到了早晨，或者是一个业务比拟闲置的状况下，其实大部分的资源就能够回收起来，去做一些别的事件。比方留给 spark 或者 Flink 做ETL ，节俭资源缩小耗费，也相当于是在省钱。

二、对于Kubernetes 容器化部署问题的支流解决方案

咱们看到了诸多Kubernetes 容器化部署所遇到的挑战，相应地，业界为了解决这些问题，提出了Operator 的概念。咱们先来回顾一下，Kubernetes的资源包含哪些货色？咱们要把一个利用部署到Kubernetes集群里，常常会用到的资源包含：PV、PVC、StatefulSet、CronJob、DaemonSet、 ConfigMap、Secret等。

这些资源在 Kubernetes 中属于内置资源，兴许咱们会有疑难，Kubernetes为什么可能监听到咱们提交的这些资源？

上图展现了三个资源文件，别离是Service、Deployment和ConfigMap，其中 Deployment援用了ConfigMap中的属性内容，而Service 则给 Deployment 提供了一个网络拜访的反对。Service、Deployment和ConfigMap这三种资源类型都是Kubernetes内置的。

当用户通过 kubectl创立一个 Deployment 资源时， kubectl外部会通过Kubernetes API Service 将申请提交到Kubernetes 集群。此时，Kubernetes内置的 Deployment Controller监听到了用户提交创立Deployment资源的申请事件，并负责解决申请。所谓Controller，能够了解为一个始终挂在集群中运行的守护过程。具体来说，用户提交的申请实际上会插入到一个被Deployment Controller监听的队列里，当队列中有新的申请进来时，Deployment Controller就会负责解决。当Deployment Controller从队列中获取到申请事件之后，它会进一步解析资源中的属性，而后比照集群中的资源和用户提交的 Deployment 资源，判断状态、属性是否统一，当呈现不统一的时候， Deployment Controller 就会执行一些措施来扭转目前的状态，让它可能变成用户所冀望的状态。

比方，假如用户提交了一个Deployment资源，Deployment Controller 发现以后集群里不存在这样的一个资源，那么它就会创立新的Deployment，依照申明里的正本数创立相应数量的POD，并且依照所指定的镜像版本从镜像仓库里拉取镜像。当用户更新了 Deployment 时，在队列里相应地也会呈现一个update事件。

Deployment Controller会比照现有 Department 的状态，如果它发现镜像的版本产生了变更，就会把原来的容器删掉，从新拉取新的镜像，用新的镜像创立新的容器。

上述就是内置 Kubernetes 资源Controller的原理，Kubernetes里的每一种资源都有一种对应的Controller，比方Deployment对应有 Deployment Controller，StatefulSet对应有 StatefulSet Controller。

一般来说，部署一个服务利用会波及到很多不同的 Kubernetes 内置资源，正如方才介绍的部署Presto的例子，须要将Kubernetes提供的这些内置资源组合起来，借助这种组合的形式能力实现部署集群的目标。此时咱们无妨能够想一想，是否能够有一个自定义的定制资源来代替那些资源的组合呢？比方假如要部署Presto，如果存在一个叫做Presto的资源，同时让 Kubernetes 具备一个Presto Controller来监控Presto资源，并且主动创立ConfigMap、Deployment和Service，这样就省去手动创立、校验等步骤。此外，当咱们批改某一个配置时，也不须要同时批改相干的资源。

Kubernetes 为咱们提供了customer resource 定制资源。customer resource容许咱们创立一个自定义的资源，并且能够定义资源外面蕴含哪些属性（比方 image 属性）。单纯定义customer resource依然是不够的，因为当咱们将定义好的customer resource commit到Kubernetes之后，此时Kubernetes并不知道该如何去解决，它只能校验customer resource的定义是否非法。它并不知道如何依据customer resource的属性去创立deployment ConfigMap等内置资源。因而，咱们依然须要去实现这样一个自动化程序（即定制资源的controller）。在此基础上，Operator的概念就是一个定制资源加上绝对应定制资源的controller。

方才咱们以 Deployment 为例解释了 Kubernetes 的controller，介绍了它是如何和用户提交的 deployment 资源产生作用进而实现 Kubernetes Deployment 部署的。

同样地，如果咱们要定义一个名为Presto的 customer resource，首先须要提交一个CRD来定义这个名为Presto的customer resource蕴含哪些属性，CRD也就是 custom resource 的definition，它用于通知 Kubernetes customer resource里有一个名为Presto的资源类型，同时定义了这个Presto资源类型外面有哪些属性。提交了CRD之后， Kubernetes便能够辨认Presto这种customer resource。此时如果用户提交了一个Presto customer resource到Kubernetes，咱们还须要一个相似于deployment controller过程的自定义controller，以同样的形式发现并解决customer resource。

自定义的 controller 会获取到资源的形容，当它发现有人提交了一个名为Presto 的资源，它须要依照肯定的程序创立对应的这些 kubernetes 资源：
1、依据Presto资源中定义的属性，先去创立一个 ConfigMap 来形容JVM配置；

2、创立一个 deployment，蕴含Presto具体的镜像版本；

3、创立一个service，连通Presto coordinator 和Presto worker。

上述的3个步骤须要在 controller 过程里实现。因而，自定义的controller 其实跟内置的Kubernetes controller 原理一样。只不过自定义的 controller 须要咱们本人去实现本人的业务逻辑。当咱们创立了一个 Presto 资源后，自定义的controller依然要监控资源的状态，如果资源的状态被更新了（比方Presto的镜像被更新了），那么它也须要依据更新之后的状态和以后状态进行比照，之后controller 要去做的事件就是自动更新它所创立的相干资源，而咱们则毋庸关怀要更新哪些内置的deployment和service。至此，咱们就了解了实际上Operator通过一套解决方案自动化地缩小了咱们手工保护资源的步骤。

对于 Operator 来说，它的职责是帮咱们缩小人工的保护老本。以方才的 Presto部署为例，如果咱们实现了一个 Presto controller，这个controller实际上是一个过程，咱们能够把它放在 Kubernetes 集群上的一个pod里运行。当它发现有一个Presto的customer resource提交到Kubernetes集群时，它就应该要按程序地创立对应的内置资源。原来这个创立的步骤是由人工创立的，当初变成由Presto controller负责创立。它会先创立 config map，再创立deployment，再创立service。

咱们能够看一下 Operator 的能力分级。首先，假如咱们抛开Operator，回到最原始的 Kubernetes 部署形式，则所有的这些资源都须要咱们本人去创立和部署，并且按程序手工提交。所以如果有一个过程可能帮忙咱们依照程序创立这些资源，省去人工创立的步骤，那么这样就达到了Level 1。相当于所有步骤都曾经被编排好，不再须要人工保护。

在此基础上，当咱们批改了customer resource中的某些属性，Operator也应该负责更新相干的资源。比方如果镜像的版本产生了变更，此时天经地义地Operator也能帮咱们同时去批改那些相干的资源，这样一来，咱们也不须要保护外面这些资源之间的关系了。如果能做到这一点，就达到了Level 2。

更进一步地，Operator作为整个利用组件之上更形象的过程，其实它还能够帮咱们做一些利用集群之外的事件（比方存储的备份、容灾、主动迁徙等）。如果具备这样的能力，咱们就能够说Operator达到了Level 3。

再有，咱们还能够在此之上收集一些对于利用组件或者集群的宏观信息，比方什么时候产生了扩缩容、什么时候做了配置变更等，再比方如果它进行了滚动降级，那咱们能够收集到无关CPU和内存的应用状况，晓得什么时候 CPU 的使用率高、内存资源应用得多，什么时候应用得少。这些信息在前期能够被进一步用来做优化，比方能够对资源进行调优，能够对整个集群的指标进行收集，甚至实现水位告警，发送一条短信或者是打电话或者用邮件来告诉用户，此时的Operator达到了Level 4。

最初，假如在集群部署的利用组件可能在Operator根底上做到主动扩缩容，咱们就能够说它达到了Level 5。比方，基于后面Level 4所收集的指标进行剖析后，发现利用在白天的申请较多，而早晨较少，则Operator能够主动依据申请的数目去做扩缩容，主动地去批改pod的正本数。在这样的状况下，Operator实现了参数的主动调优。

上述的这5个Level的分级规范实际上来自于Operator SDK 的官网。接下来咱们就以Alluxio为例论述如何实现Alluxio Operator。咱们首先要思考的是，将Alluxio部署到 Kubernetes 须要哪些类型的资源做撑持。

三、如何针对应用服务实现对应的Operator

一个Alluxio集群所须要的资源很多，其中还包含存储和网络相干的资源。咱们第一步先设计出如图所示的架构图。如图所示，部署Alluxio所需的资源能够分成 3 层：
1）第一层是配置和存储相干的资源。咱们须要一些 config map 专门配置 Alluxio的根本配置信息，比方jvm配置、pv存储配置。另外，因为Alluxio集群须要波及到存储，所以还须要 PVC 资源。
2）第二层是workload。目前业界大部分的大数据组件都采纳了主从架构的设计，Alluxio也一样，它存在master和worker两种角色，针对master和worker的部署，咱们别离应用DaemonSet和StatefulSet，而针对logserver（用于日志的收集）的部署，则应用 deployment。
3）第三层是service。为了让所有节点之间能够网络互通，还要部署service。

第二步是梳理出具体要创立哪些资源，以及每一种资源蕴含哪些属性。如图所示给出了所有部署Alluxio所需资源的YAML文件。

无论咱们是否采纳 Operator 的部署计划，都须要梳理出要创立哪些资源（对应如图所示的YAML文件）。Operator的作用是在此基础上帮忙咱们实现自动化部署，罢黜了手工按程序提交这些 YAML文件的操作。为了实现本人的Operator，要先定义customer resource，将波及到的资源属性形象进去，如图所示，在Alluxio的customer resource里把一些比拟要害的属性形象进去，比方master和worker的配置信息。

因为不同资源之间存在着先后依赖关系，所以咱们须要依照肯定程序逐个创立这些资源。首先要部署的是ConfigMap和存储相干的资源，第二步才去部署workerload，第三步部署services。因为显然咱们须要先创立出deployment，才可能把 service 部署起来。即便咱们采纳手工部署的形式，也要遵循这样的程序，只不过咱们当初先把这个程序梳理进去，以便在实现 Operator 的时候，通过程序来主动依照这个程序创立资源。

实现 Operator 的逻辑其实就是通过 Operator 调用 kubernetes API 提供的接口，依照程序部署和更新资源。Operator SDK是以后比拟风行的一个实现Operator的框架（https://sdk.operatorframework.io），它主体通过golang 实现，框架内也提供了一些实用的例子。另一方面，目前在社区上也有相应的Operator 仓库(https://operatorhub.io)，外面有相当丰盛的各个组件的Operator实现。Operator 这一概念被提出之后，业界也陆陆续续地针对支流大数据组件实现了一些社区版的Operator，提供了一些绝对不便的容器化部署解决方案。

四、Alluxio Operator如何更好地实现Alluxio的一体化部署

咱们最初再来回顾一下Alluxio Operator所创立的资源有哪些。Operator帮咱们创立的资源能够分成三个级别：
1）配置信息相干的资源：包含 JVM 配置和 PV 存储，以及worker、master 和 logserver 的 PVC。
2） Workload资源： Alluxio Worker、Alluxio Master 和 Alluxio LogServer 的节点别离应用了 DaemonSet、 SatefulSet 和 Deployment 进行部署。
3） Service资源： Alluxio Master和 Alluxio LogServer所须要的service。

截图中展现了Alluxio Operator创立和更新Alluxio集群的过程，Operator运行在一个POD中，当用户提交了一个他本人的customer resource之后，集群外面就多了一个名为 Alluxio Cluster 的资源。

片刻之后，Operator 帮咱们创立了所需的资源，如图所示咱们能看到有很多POD被主动创立进去，包含master和worker相干的POD，同时config map和service也被创立进去了。将来，其实还能够再做一些事件：
1）利用 Operator 做数据主动备份和负载平衡；
2）收集集群内CPU和内存的应用状况，实现节点的动静扩缩容，依据 CPU 内存的应用状况做弹性伸缩；
3）实现 UFS 的数据预缓存、预加载；
4）为Alluxio集群提供一个可视化的操作仪表板，对 UFS 进行状态跟踪。这些性能能够在将来为咱们大幅缩小Alluxio集群的保护老本。

问答环节

Q1：以后大数据平台个别是采纳HDFS作为底层分布式存储，如果想整体迁徙到 Kubernetes，是否有相似HDFS Operator的计划？
目前支流的 HDFS 部署形式仍然还是通过YARN 来部署，因为这种形式曾经做得比拟成熟了，所以如果想整体迁徙到Kubernetes，现阶段业界对于 HDFS Operator 这样的一些解决方案还是比拟少见，可能这种模式依然须要一段摸索的工夫。

Q2：Alluxio作为一个分布式缓存组件，介于计算利用与底层存储之间，实现了数据缓存的减速。如果将Alluxio、计算和存储组件部署在同一个K8S 集群上，在架构层面上有什么倡议呢？
如果都是放在Kubernetes，其实它们之间是绝对比拟独立的。Alluxio其中一个十分重要的利用场景，就是在存算拆散的根底上来做实现性能晋升，因而往往Alluxio会跟计算集群部署在同一侧。目前 Kubernetes 的部署形式，更有利于Alluxio和计算利用端进行联合。

想要理解更多对于Alluxio的干货文章、热门流动、专家分享，可点击进入【Alluxio智库】：