关于javascript:云原生在京东丨如何在Kubernetes上部署有状态的云原生应用下

点击浏览：《如何在 Kubernetes 上部署有状态的云原生利用（上）》

上面咱们将以最先进的开源数据库 PostgreSQL 为例，介绍如何在 Kubernetes 上部署运维有状态云服务（以下所有的操作都是基于 Kubernetes 1.14 及以上版本来实现的）。

Operator 进去以前，即便有 StatefulSet 控制器，将 PostgreSQL、MySQL 等数据库部署到 Kubernetes 也是非常复杂的。两年前对于在 Kubernetes 上部署数据库还有过一场探讨，过后的广泛倡议是不要在 Kubernetes 部署数据库。

对于这场探讨能够通过该链接查看：

https://www.reddit.com/r/devo…

通过 StatefulSet 在 Kubernetes 上部署高可用的 MySQL 服务请参考以下链接：

https://www.kubernetes.org.cn…

这个办法中 yaml 文件相当简单，用户能够参加管制的中央不多。

开源的 PostgreSQL Operator 有 CrunchyData/postgres-operator、zalando-incubator/postgres-operator，咱们以 CrunchyData/postgres-operator 为例来解说如何通过 Operator 这个新生事物在 Kubernetes 上治理 PostgreSQL 数据库，抉择它的起因是性能相当齐备并且集成了 PostgreSQL 周边生态相干的利用。

该 Operator 实现了 在 Kubernetes 上自动化部署 PostgreSQL 集群，简化了 PostgreSQL 服务的部署，并通过 Kubernetes 平台放弃 PostgreSQL 集群的运行状态，其中蕴含的基本功能有：

PostgreSQL 集群配置：轻松创立、扩大和删除 PostgreSQL 集群，同时齐全自定义 Pod 和 PostgreSQL 配置。

高可用性：基于分布式共识的高可用解决方案，反对平安的主动故障转移。应用 Pod Anti-Affinity 来加强弹性，失败的主数据库会主动复原，从而缩短复原工夫。

劫难复原：利用开源 pgBackRest 程序实现备份和还原性能，并包含对全备，增量和差别备份以及无效增量还原的反对。能够设置要保留的备份工夫，比拟适宜较大型的数据库，也通过共享 S3 存储及多 Kubernetes 部署实现了跨机房多区域异地灾备。

TLS：通过为 PostgreSQL 服务器启用 TLS 来爱护应用程序和数据服务器之间的通信安全，包含强制所有连贯应用 TLS。

监控形式：应用开源 pgMonitor 库跟踪 PostgreSQL 集群的运行状况。

PostgreSQL 用户治理：应用功能强大的命令给 PostgreSQL 集群疾速增加和删除用户。治理明码过期策略或应用首选的 PostgreSQL 身份验证计划。

降级治理：平安地将 PostgreSQL 更新利用到您的 PostgreSQL 集群中，而对可用性的影响最小。

高级复制反对：用户能够在异步复制和同步复制之间进行抉择，以解决对失落事务敏感的工作负载。

克隆：应用简略的 pgo clone 命令从现有集群中创立新集群。

连接池：应用 pgBouncer 进行连接池。

节点亲和力：将 PostgreSQL 集群部署到您喜爱的 Kubernetes 节点。

备份策略定制：抉择备份的类型（全量，增量，差别备份）以及心愿其在每个 PostgreSQL 集群上产生周期及工夫点。

备份到 S3：将您的备份存储在任何反对 S3 协定的对象存储系统中。PostgreSQL Operator 能够从这些备份中还原和创立新的集群。

_多命名空间反对：_您能够通过几种不同的部署模型来管制 PostgreSQL Operator 如何利用 Kubernetes 命名空间：

将 PostgreSQL Operator 和所有 PostgreSQL 集群部署到同一名称空间；

将 PostgreSQL Operator 部署到一个名称空间，并将所有 PostgreSQL 集群部署到另一名称空间；

将 PostgreSQL Operator 部署到一个名称空间，并跨多个命名空间治理 PostgreSQL 集群；

应用 pgo create namespace 和 pgo delete namespace 命令动静增加和删除由 PostgreSQL Operator 治理的名称空间。

齐全可定制：

为主存储，WAL 存储，正本存储和备份存储抉择不同的存储类别；

为每个 PostgreSQL 集群部署抉择容器资源类；区别利用于主群集和正本群集的资源；

应用您公有的镜像存储库，包含反对 imagePullSecrets 存储库和公有存储库；

自定义 PostgreSQL 配置等。

PostgreSQL Operator 蕴含各种组件，这些组件已部署到您的 Kubernetes 集群中，如下图所示：

PostgreSQL Operator 在指定的 namespace 中以 Deployment 对象运行，并且最多由四个容器的 Pod 组成，其中包含：

Operator：这是 PostgreSQL Operator 的外围。它蕴含一系列 Kubernetes 控制器，这些控制器将监督事件关注在一系列本地 Kubernetes 资源（如 Job，Pods）以及 PostgreSQL Operator 自定义的 CRD 上，如：Pgcluster，Pgtask 等。

ApiServer： 提供了一套 Restful API 接口，不便用户通过 pgo 命令行或间接通过 HTTP 申请与其交互，ApiServer 还利用一系列 RBAC 规定来管制用户对资源的拜访权限。

Scheduler：运行 cron 并容许用户设置周期性工作（如备份）以 Kubernetes Job 的形式运行。

Event：可选组件，一个提供 nsq 音讯队列接口并输入无关 Operator 内产生的生命周期事件的信息的容器（例如，创立集群，进行备份，创立克隆失败等），能够由 pgo watch 命令承受音讯。

下列流程是了解 Operator 工作原理的要害：

应用 Kubernetes 的 CustomResourceDefinition（CRD）定义若干和 PostgreSQL 部署运维相干的资源对象。

pgclusters.crunchydata.com：存储管理 PostgreSQL 集群所需的信息。其中包含集群名称，要应用的存储和资源类，要运行的 PostgreSQL 版本，无关如何保护高可用性集群的信息等。

pgreplicas.crunchydata.com：存储管理 PostgreSQL 集群中的正本所需的信息。这包含诸如正本数，要应用的存储和资源类，非凡的相似性规定等。

pgtasks.crunchydata.com：通用 CRD，它承受针对集群运行（例如，创立集群，进行备份，执行克隆）所需的一种工作，并通过其工作流跟踪该工作的状态。

pgpolicies.crunchydata.com：存储对能够对 PostgreSQL 集群执行的 SQL 文件的援用。过来它用于治理 PostgreSQL 集群上的 RLS 策略。

在 Kubernetes 中部署一个 Operator 实例，该 Operator 会继续监听针对这些资源对象的 CRUD 操作，并察看对象状态。

当用户执行了某项操作，例如创立一个 PostgreSQL 集群时，一个新的 pgcluster 资源对象会被创立。当 Operator 监听到了 pgcluster 的创立事件后，会依据用户配置创立合乎需要的集群。这里创立了一个基于流复制协定的高可用 PostgreSQL 集群，应用了 Deployment、Service、ConfigMap、PVC 等原生 Kubernetes 资源对象。

当 Operator 察看到 PostgreSQL Cluster 的以后状态与冀望状态存在差异时，会执行相应的编排操作，保障状态的一致性。

通过 helm 部署 PostgreSQL Operator。

1[root@RDS pgo]# helm search repo 
2NAME                           CHART VERSION   APP VERSION     DESCRIPTION  
3jd_tpaas_repo/customconfig     1               4.3.2       Deploys a custom configuration for postgreSQL  
4jd_tpaas_repo/pgodeployer      1               4.3.2       Deploys a job for the installation of the postg...

< 左右滑动以查看残缺代码 >

装置 Operator。

5  [root@RDS pgo]#  helm --namespace pgo install pg-operator jd_tpaas_repo/pgo-deployer

< 左右滑动以查看残缺代码 >

部署实现当前查看 Operator 的状态。

6  [root@RDS ~]# kubectl -n pgo get all  
7  NAME                                      READY   STATUS    RESTARTS   AGE  
8  pod/crunchy-grafana-77b4b84b57-cgrnn      1/1     Running   0          4m12s  
9  pod/crunchy-prometheus-57788f56fb-lcqsp   1/1     Running   0          4m15s  
10  pod/postgres-operator-7f6d4646cc-zf2dg    4/4     Running   0          4m50s  
11    
12  NAME                         TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)                      AGE  
13  service/crunchy-grafana      ClusterIP   192.168.58.207    3000/TCP                     5m34s  
14  service/crunchy-prometheus   ClusterIP   192.168.62.99     9090/TCP                     5m37s  
15  service/postgres-operator    ClusterIP   192.168.60.155    8080/TCP,4171/TCP,4150/TCP   5m23s  
16    
17  NAME                                 READY   UP-TO-DATE   AVAILABLE   AGE  
18  deployment.apps/crunchy-grafana      1/1     1            1           5m34s  
19  deployment.apps/crunchy-prometheus   1/1     1            1           5m37s  
20  deployment.apps/postgres-operator    1/1     1            1           5m22s  
21    
22  NAME                                            DESIRED   CURRENT   READY   AGE  
23  replicaset.apps/crunchy-grafana-77b4b84b57      1         1         1       4m12s  
24  replicaset.apps/crunchy-prometheus-57788f56fb   1         1         1       4m15s  
25  replicaset.apps/postgres-operator-7f6d4646cc    1         1         1       4m50s

< 左右滑动以查看残缺代码 >

咱们看到有一个 PostgreSQL-Operator Deployment 外面蕴含了 4 个容器：ApiServer、Operator、Scheduler、Event，除了 Operator，还部署了 crunchy-prometheus 和 crunchy-grafana 两个 Deployment 能够帮忙用户进行集中式监控治理。

PostgreSQL Operator 的次要目标是 围绕 PostgreSQL 集群的构造创立和更新信息，并传递无关 PostgreSQL 集群的总体状态和运行状况的信息。指标也是为用户尽可能简化此过程。

例如，假如咱们要创立一个具备单个正本的高可用 PostgreSQL 集群，它反对在本地存储和 S3 中进行备份，并具备内置监控指标收集和集中的日志收集。咱们能够利用如下命令来实现：

pgo create cluster hacluster --replica-count=1 --metrics --pgbackrest-storage-type="local,s3"

< 左右滑动以查看残缺代码 >

通过 pgo 命令行创立集群示例：

首先为集群创立一个 namespace。

1[root@RDS pgo]# pgo create namespace pgouser2 
2created namespace pgouser2

< 左右滑动以查看残缺代码 >

创立集群，带一个正本并开启监控。

3  [root@RDS pgo]# pgo -n pgouser2 create cluster test-pgcluter-002 --replica-count 1 --metrics 
4  created cluster: test-pgcluter-002  
5  workflow id: cb75373a-518f-49e1-8b6a-55e274d2fc58  
6  database name: test-pgcluter-002  
7  users: 
8  username: testuser password: 7iFe|iS4aF(}:3*6FibWo?jZ

< 左右滑动以查看残缺代码 >

查看集群信息。

9  [root@RDS pgo]#  pgo -n pgouser2 show cluster  test-pgcluter-002 
10  cluster : test-pgcluter-002 (crunchy-postgres-ha:centos7-12.3-4.3.2-0)  
11     pod : test-pgcluter-002-b7d8b4bd4-qk5cp (Running) on k8s-node-vm7sjf-yn5hsstwuf (2/2) (primary)  
12     pvc : test-pgcluter-002  
13     pod : test-pgcluter-002-jcfm-6bfff77fcf-vxpn6 (Running) on k8s-node-vmr4ej-yn5hsstwuf (2/2) (replica)  
14     pvc : test-pgcluter-002-jcfm  
15     resources : Memory: 128Mi  
16     storage : Primary=20Gi Replica=20Gi  
17     deployment : test-pgcluter-002  
18     deployment : test-pgcluter-002-backrest-shared-repo  
19     deployment : test-pgcluter-002-jcfm  
20     service : test-pgcluter-002 - ClusterIP (192.168.120.61)  
21     service : test-pgcluter-002-replica - ClusterIP (192.168.123.182)  
22     pgreplica : test-pgcluter-002-jcfm  
23     ...

< 左右滑动以查看残缺代码 >

查看集群的服务状态。

 24  [root@RDS pgo]# pgo -n pgouser2 test  test-pgcluter-002  
 25  cluster : test-pgcluter-002  
 26     Services  
 27         primary (192.168.120.61:5432): UP  
 28         replica (192.168.123.182:5432): UP  
 29     Instances  
 30         primary (test-pgcluter-002-b7d8b4bd4-qk5cp): UP  
 31         replica (test-pgcluter-002-jcfm-6bfff77fcf-vxpn6): UP

< 左右滑动以查看残缺代码 >

不难看到集群中蕴含两个 Deployment，对应的两个 Pod 各绑定一个 PVC，暴露出两个 Service：

Service-Primary：test-pgcluter-002 – ClusterIP (192.168.120.61) 负责用户的读写申请；

Service-Replica： test-pgcluter-002-replica – ClusterIP (192.168.123.182)负责用户的只读申请。

集群创立胜利当前，Pod 和 Service 的状态都是 Up，处于失常运行状态。

PostgreSQL 的一大长处是它的可靠性：它十分稳固，通常能够“失常工作”。然而，在部署 PostgreSQL 的环境中可能会产生某些事件，从而影响其失常运行工夫，包含：

数据库存储磁盘产生故障或产生其余一些硬件故障；

数据库所在的网络无法访问；

主机操作系统变得不稳固并解体；

密钥数据库文件已损坏；

数据中心失落。

可能还会因为失常操作而导致停机事件，例如执行小版本升级，操作系统的平安修补，硬件降级或其余保护。

为此，在 Crunchy PostgreSQL Operator 创立的集群中每一个 PostgreSQL 容器外面都蕴含 Patroni 工具，由 Patroni 通过 raft 分布式共识的个性来解决 PostgreSQL 的高可用。

Patroni 是一个用 Python 编写的开源工具套件，用于治理 PostgreSQL 集群的高可用性。Patroni 没有构建本人的一致性协定，而是奇妙地利用了分布式配置存储（DCS）提供的一致性模型。它反对的 DCS 解决方案包含：Zookeeper，etcd，Consul 和 Kubernetes。Crunchy PostgreSQL Operator 中采纳的是 Kubernetes 的 ConfigMap 作为其 DCS。

Patroni 确保 PostgreSQL HA 集群的端到端设置，包含流复制。它反对各种形式创立备用节点，并且能够像模板一样工作，能够依据须要进行自定义。这个功能丰富的工具通过 RestFul API 和称为 patronictl 的命令行程序裸露其性能。它通过应用其运行状况查看 API 解决负载平衡来反对与 HAProxy 集成。在 Operator 中是通过解决 Kubernetes 的 Service 来实现，Patroni 还借助回调来反对事件告诉，这些回调是由某些操作触发的脚本。通过提供暂停 / 复原性能，它使用户可能执行任何保护操作。

最后，须要装置 PostgreSQL 和 Patroni 二进制文件。实现此操作后，您还须要设置 HA DCS 配置。须要在 yaml 配置文件中指定所有用于疏导集群的必要配置，并且 Patroni 将应用该文件进行初始化。在第一个节点上，Patroni 初始化数据库，从 DCS 获取领导者锁，并确保该节点作为主节点运行。

下一步是增加备用节点，Patroni 为此提供了多个选项。默认状况下，Patroni 应用 pg_basebackup 创立备用节点，并且还反对 WAL-E、pgBackRest、Barman 等自定义办法来创立备用节点。Patroni 使增加备用节点变得非常简单，并且能够解决所有疏导工作和流复制的设置。集群设置实现后，Patroni 将被动监督集群并确保其处于失常状态。主节点每 ttl 秒更新一次领导者锁（默认值：30 秒）。当主节点无奈更新领导者锁时，Patroni 会触发选举，并且取得领导者锁的节点将被选举为新的主节点。

在分布式系统中，共识在确定一致性方面起着重要作用，而 Patroni 应用 DCS 来达成共识。只有持有领导者锁的节点能力成为主节点，并且领导者锁是通过 DCS 取得的。如果主节点未持有领导者锁，那么 Patroni 将立刻将其降级以作为备用节点运行。这样，在任何工夫点，零碎中都只能运行一个主服务器。

咱们通过上面一系列的图片来演示 Patroni 在集群的 Failover 产生后从新选主的过程：

图 A 显示了一个集群临时的稳固状态，Pod A 是以后的主节点，每隔一段时间就要刷新一次本人的心跳信息，放弃本人领导者的位置，其对应的 PostgreSQL 在集群中是 Primary 的角色。Pod B 和 Pod C 始终在 watch leader，集群中有两个 Service，master service 其后挂载的 endpoint 指向带有 label=master 标签的 Pod，replica service 其后挂载的 endpoint 指向带有 label=replica 标签的 Pod；

图 B 示意某一时刻，Pod A 产生了故障，没有及时更新心跳，超过 ttl=30s 后，Kubernetes 会告诉 Pod B、Pod C 主节点 Pod A 心跳缺失超时信息。

图 C 示意 Pod B 和 Pod C 都会发动查看集群中其余节点的状态，均会发现主节点 Pod A Failed，从而从新发动选举主节点流程，Pod B 和 Pod C 谁的 wal_position 更大谁将是下一轮主节点，如果一样大就会产生竞争，先抢到领 导者锁的节点将成为下一轮的主节点。如图 D 所示意，Pod B 胜利抢到了领导者锁。

图 E 示意_抢到领导者锁的 Pod B 对应的 PostgreSQL 会被晋升为 Master，Pod C 中的 PostgreSQL 会向 Pod B 的 PostgreSQL 同步数据。_Pod B 会周期刷新本人的心跳，坚固本人领导者的位置，Pod C 会始终 Watch Leader。到此，集群又进入下一轮稳固状态。

图 F 示意因为 Operator 要保障集群的 replica 的个数，会拉起一个新的 Pod D，作为 replica 退出到集群中，从 Pod B 的 PostgreSQL 同步数据，并且带有 replica 的 label，其 endpoint 会挂载到 replica service 上面。

实际操作示意：

删除 Primary 的 Pod。

1  [root@RDS pgo]# kubectl -n pgouser2 delete pod test-pgcluter-002-b7d8b4bd4-qk5cp 
2  pod "test-pgcluter-002-b7d8b4bd4-qk5cp”deleted  
3  稍等片刻......

< 左右滑动以查看残缺代码 >

查看集群的状态

4  [root@RDS pgo]# pgo -n pgouser2 show cluster  test-pgcluter-002 
5  cluster : test-pgcluter-002 (crunchy-postgres-ha:centos7-12.3-4.3.2-0)  
6     pod : test-pgcluter-002-b7d8b4bd4-97qqp (Running) on k8s-node-vm7sjf-yn5hsstwuf (2/2) (replica)  
7     pvc : test-pgcluter-002  
8     pod : test-pgcluter-002-jcfm-6bfff77fcf-vxpn6 (Running) on k8s-node-vmr4ej-yn5hsstwuf (2/2) (primary)  
9     pvc : test-pgcluter-002-jcfm  
10    resources : Memory: 128Mi  
11    storage : Primary=20Gi Replica=20Gi  
12    deployment : test-pgcluter-002  
13    deployment : test-pgcluter-002-backrest-shared-repo  
14    deployment : test-pgcluter-002-jcfm  
15    service : test-pgcluter-002 - ClusterIP (192.168.120.61)
16    service : test-pgcluter-002-replica - ClusterIP (192.168.123.182)  
17    pgreplica : test-pgcluter-002-jcfm  
18    ...  
19
20    [root@RDS pgo]# pgo -n pgouser2 test  test-pgcluter-002 
21    cluster : test-pgcluter-002 
22    Services  
23        primary (192.168.120.61:5432): UP  
24        replica (192.168.123.182:5432): UP  
25    Instances  
26       replica (test-pgcluter-002-b7d8b4bd4-97qqp): UP  
27       primary (test-pgcluter-002-jcfm-6bfff77fcf-vxpn6): UP

< 左右滑动以查看残缺代码 >

能够看到原来的 Replica Pod：test-pgcluter-002-jcfm-6bfff77fcf-vxpn6 变成了 Primary，Operator 又新建了一个 Pod：test-pgcluter-002-b7d8b4bd4-97qqp 作为 replica 运行，其挂载的还是原来 Primary 的 PVC：test-pgcluter-002，Services 绝对于集群创立的时候没有发生变化，还是 primary（192.168.120.61:5432）和 replica（192.168.123.182:5432），连贯的用户除了有秒级别的闪断根本没有感知。

通过 pgo scale 来进行程度扩容，以下命令对集群 test-pgcluter-002 程度扩容减少一个 replica 节点。

1  [root@RDS pgo]# pgo -n pgouser2 scale test-pgcluter-002 --replica-count=1 
2  WARNING: Are you sure? (yes/no): yes  
3  created Pgreplica test-pgcluter-002-tbrl

< 左右滑动以查看残缺代码 >

查看扩容当前的集群状态：

4  [root@RDS pgo]#  pgo -n pgouser2 show cluster  test-pgcluter-002 
5  cluster : test-pgcluter-002 (crunchy-postgres-ha:centos7-12.3-4.3.2-0)  
6    pod : test-pgcluter-002-b7d8b4bd4-97qqp (Running) on k8s-node-vm7sjf-yn5hsstwuf (2/2) (replica)  
7    pvc : test-pgcluter-002  
8    pod : test-pgcluter-002-jcfm-6bfff77fcf-vxpn6 (Running) on k8s-node-vmr4ej-yn5hsstwuf (2/2) (primary)  
9    pvc : test-pgcluter-002-jcfm  
10    pod : test-pgcluter-002-tbrl-7d69bc5fb9-8xmx2 (Running) on k8s-node-vmwnpv-yn5hsstwuf (2/2) (replica)  
11    pvc : test-pgcluter-002-tbrl  
12    resources : Memory: 128Mi  
13    storage : Primary=20Gi Replica=20Gi  
14    deployment : test-pgcluter-002  
15    deployment : test-pgcluter-002-backrest-shared-repo  
16    deployment : test-pgcluter-002-jcfm  
17    deployment : test-pgcluter-002-tbrl  
18    service : test-pgcluter-002 - ClusterIP (192.168.120.61)  
19    service : test-pgcluter-002-replica - ClusterIP (192.168.123.182)

< 左右滑动以查看残缺代码 >

通过减少一个名为 test-pgcluter-002-tbr 的 Deployment，减少了一个 replica。新建的 pod 为 test-pgcluter-002-tbrl-7d69bc5fb9-8xmx2，绑定的 pvc：test-pgcluter-002-tbrl，裸露的服务还是原来的两个 Service：primary (192.168.120.61:5432)、replica (192.168.123.182:5432)。Service replica 前面对应着两个 replica 节点的 Pod 裸露的 endpoint，对用户数据面没有影响。

以下命令查看能够缩容的 replica 节点：

1  [root@RDS pgo]# pgo -n pgouser2 scaledown test-pgcluter-002 --query 
2  Cluster: test-pgcluter-002  
3  REPLICA                 STATUS        NODE          REPLICATION LAG         PENDING RESTART  
4  test-pgcluter-002        running       k8s-node-vm7sjf-yn5hsstwuf               0 MB                   false  
5  test-pgcluter-002-tbrl    running       k8s-node-vmwnpv-yn5hsstwuf               0 MB                   false

< 左右滑动以查看残缺代码 >

通过 pgo scaledown 命令进行缩容：

6  [root@RDS pgo]# pgo -n pgouser2 scaledown test-pgcluter-002 --target test-pgcluter-002 
7  WARNING: Are you sure? (yes/no): yes  
8  deleted replica test-pgcluter-002

< 左右滑动以查看残缺代码 >

查看集群的详情：

9  [root@RDS pgo]# pgo -n pgouser2 show cluster test-pgcluter-002 
10  cluster : test-pgcluter-002 (crunchy-postgres-ha:centos7-12.3-4.3.2-0)  
11    pod : test-pgcluter-002-jcfm-6bfff77fcf-vxpn6 (Running) on k8s-node-vmr4ej-yn5hsstwuf (2/2) (primary)  
12    pvc : test-pgcluter-002-jcfm  
13    pod : test-pgcluter-002-tbrl-7d69bc5fb9-8xmx2 (Running) on k8s-node-vmwnpv-yn5hsstwuf (2/2) (replica)  
14    pvc : test-pgcluter-002-tbrl  
15    resources : Memory: 128Mi  
16    storage : Primary=20Gi Replica=20Gi  
17    deployment : test-pgcluter-002-backrest-shared-repo  
18    deployment : test-pgcluter-002-jcfm  
19    deployment : test-pgcluter-002-tbrl  
20    service : test-pgcluter-002 - ClusterIP (192.168.120.61)  
21    service : test-pgcluter-002-replica - ClusterIP (192.168.123.182)  
22  …

< 左右滑动以查看残缺代码 >

咱们不难发现，Pod：test-pgcluter-002 和其关联的 PVC：test-pgcluter-002 曾经被回收，两个 Service 还是放弃在原来的状态 primary (192.168.120.61:5432)、replica (192.168.123.182:5432)，对用户数据面没有影响。

通过 pgo update cluster 命令来批改集群的 cpu 和 memory 资源。

1  [root@RDS pgo]# pgo -n pgouser2 update cluster test-pgcluter-002 --memory 256Mi --cpu 1 
2  Updating CPU resources can cause downtime.  
3  Updating memory resources can cause downtime.  
4  WARNING: Are you sure? (yes/no): yes  
5  updated pgcluster test-pgcluter-002  
6  
7  [root@RDS pgo]# pgo -n pgouser2 show cluster test-pgcluter-002 
8  
9  cluster : test-pgcluter-002 (crunchy-postgres-ha:centos7-12.3-4.3.2-0)  
10    pod : test-pgcluter-002-jcfm-54ff784874-jfwgk (Running) on k8s-node-vmr4ej-yn5hsstwuf (2/2) (replica)  
11    pvc : test-pgcluter-002-jcfm  
12    pod : test-pgcluter-002-tbrl-8695b6d956-j9pdv (Running) on k8s-node-vmwnpv-yn5hsstwuf (2/2) (primary)  
13    pvc : test-pgcluter-002-tbrl  
14    resources : CPU: 1 Memory: 256Mi

< 左右滑动以查看残缺代码 >

用户在用 pgo create cluster 创立集群的时候能够通过参数 –cpu，–memory 和 –pvc-size 来指定集群所用的 cpu，内存和存储的大小，集群创立实现当前，还能够通过 pgo update cluster 命令来批改 cpu 和 memory 资源配置，pvc 大小的变更须要 csi 反对，如京东的 chubaofs 等。

出于平安的思考，周期性的备份对于生产级别的数据库服务来说是十分重要的，Crunchy PostgreSQL Operator 提供了全量备份，差别备份，增量备份，周期性的备份和周期性的 WAL 文件归档。

备份策略定制：抉择备份的类型（全量，增量，差别备份）以及心愿其在每个 PostgreSQL 集群上执行的频率及工夫点。

备份到 S3：将您的备份存储在任何反对 S3 协定的对象存储系统中，Operator 能够从这些备份还原和创立新集群。

示例：

创立用 s3 备份的 cluster

1  pgo create cluster test-pgcluter-004 -n pgouser2 --pgbackrest-storage-type s3 --pgbackrest-s3-region cn-north-1 --pgbackrest-s3-endpoint s3.cn-north-1.jdcloud-oss.com --pgbackrest-s3-key 7FD8AC9D8XX --pgbackrest-s3-key-secret BE059515AXYX --pgbackrest-s3-bucket caas-test --replica-count 1 --metrics 
2  created cluster: test-pgcluter-004  
3  workflow id: 7c1ae19b-937d-441f-80ff-ff50ac8943b0  
4  database name: test-pgcluter-004  
5  users:  
6  username: testuser password: (Ev{k)VoEWStc8mWryL3r10

< 左右滑动以查看残缺代码 >

创立备份

7  [root@RDS pgo]# pgo -n pgouser2 backup test-pgcluter-004 --pgbackrest-storage-type s3 
8  created Pgtask backrest-backup-test-pgcluter-004

< 左右滑动以查看残缺代码 >

查看备份

9  [root@RDS pgo]# pgo -n pgouser2 show backup test-pgcluter-004 
10  cluster: test-pgcluter-004  
11  storage type: s3  
12  stanza: db  
13     status: ok  
14     cipher: none  
15     db (current)  
16         wal archive min/max (12-1)  
17         full backup: 20200710-022111F  
18             timestamp start/stop: 2020-07-10 10:21:11 +0800 CST / 2020-07-10 10:22:11 +0800 CST  
19             wal start/stop: 000000010000000000000002 / 000000010000000000000003  
20             database size: 31.1MiB, backup size: 31.1MiB  
21             repository size: 3.7MiB, repository backup size: 3.7MiB  
22             backup reference list:

< 左右滑动以查看残缺代码 >

周期备份设置

23  pgo create schedule --schedule="* * * * *" --schedule-type=pgbackrest --pgbackrest-backup-type=full test-pgcluter-004

< 左右滑动以查看残缺代码 >

应用简略的 pgo clone 命令从现有集群中创立新集群。

通过命令 pgo clone 从源集群 test-pgcluter-007 克隆创立新的集群 test-pgcluter-008，并关上监控。

1  [root@RDS pgo]# pgo -n pgouser2 clone test-pgcluter-007 test-pgcluter-008 --pgbackrest-storage-source s3 --enable-metrics 
2  Created clone task for:  test-pgcluter-008  
3  workflow id is  232b0c7b-fb13-451e-a65f-194ee3fe2413  
4

< 左右滑动以查看残缺代码 >

克隆过程中的工作程序

5  [root@RDS pgo]# pgo -n pgouser2 show workflow 232b0c7b-fb13-451e-a65f-194ee3fe2413  
6  parameter           value  
7  ---------           -----  
8  clone 1.1: create pvc2020-07-10T06:33:59Z  
9  clone 1.2: sync pgbackrest repo2020-07-10T06:33:59Z  
10  clone 2: restoring backup2020-07-10T06:34:23Z  
11  clone 3: cluster creating2020-07-10T06:35:16Z  
12  pg-cluster          test-pgcluter-008  
13  task submitted      2020-07-10T06:33:59Z  
14  workflowid          232b0c7b-fb13-451e-a65f-194ee3fe2413  
15

< 左右滑动以查看残缺代码 >

克隆实现当前查看新的集群 test-pgcluter-008 信息

16  [root@RDS pgo]# pgo -n pgouser2 show cluster test-pgcluter-008 
17  cluster : test-pgcluter-008 (crunchy-postgres-ha:centos7-12.3-4.3.2-0)  
18     pod : pgo-backrest-repo-sync-test-pgcluter-008-beje-b99pp (Succeeded) on k8s-node-vmj91e-yn5hsstwuf (0/1) (unknown)  
19     pvc : test-pgcluter-008-pgbr-repo  
20     pod : test-pgcluter-008-59cbf78584-cld7j (Running) on k8s-node-vm7sjf-yn5hsstwuf (2/2) (primary)  
21     pvc : test-pgcluter-008  
22     resources : Memory: 128Mi  
23     ...

< 左右滑动以查看残缺代码 >

不难从 show workflow 的输入中看到克隆大体流程：_先为新集群创立一个 pvc，而后通过 pgbackrest 将老集群的备份信息同步到新 PVC 中，再复原增量 WAL 文件，最初用方才的 PVC 创立集群。_

一个齐备的零碎少不了监控和告警，由 Crunchy PostgreSQL Operator 创立的 PostgreSQL 集群能够抉择通过 Prometheus Exporters 提供性能指标。指标收集器（metric exporter）蕴含在数据库集群的每个 Pod 外面，为数据库容器提供实时监控指标收集。为了存储和查看这些数据，还有须要应用 Grafana 和 Prometheus 两个组件，用户能够通过最新版本的 helm chart 部署 Operator 我的项目自带的 Grafana 和 Prometheus 组件。

Prometheus 收集到的监控指标显示如下：

示例图片是集群中 WAL 文件积压空间的相干监控信息，图片中阶梯降落的线展现了集群外面 wal 文件由 12GB 左右的积压数据，降到 0GB 的过程，期间 PostgreSQL 的 archive commoand 通过 pgbackrest 在周期性的做 WAL 文件归档操作，示例中 WAL 文件积压消化的有点慢，能够调整 pgbackrest 的并行度减速。更好看更多维度的监控信息能够通过 Grafana 展现，如下一大节所示。

Grafana 监控指标信息显示：

容器生成的日志对于零碎至关重要，因为它们提供了无关零碎运行状况的具体记录。PostgreSQL 日志十分具体，并且有些信息只能从日志中获取（但不仅限于）：

用户的连贯和断开。

检查点统计。

PostgreSQL 服务器谬误。

跨多个主机聚合容器日志可让管理员很不便的审核、调试问题并避免违规行为。

本文首先探讨了一下在 Kubernetes 上部署有状态的服务的几种可行计划，而后以开源社区的 Crunchy PostgreSQL Operator 为例部署了一个基本功能绝对齐备的 PostgreSQL 云服务。咱们能够看到 Operator 屏蔽了简单利用的编排细节，大大降低了它们在 Kubernetes 中的应用门槛，而且能做到对利用非常复杂而又精密的治理和管制，可能帮忙开发人员实现所有支流云厂商雷同云产品的等同性能。同时，借助于弱小的 Kubernetes，零碎更强壮、扩大更灵便不便，如果您有其它简单利用须要部署，也倡议采纳 Operator 形式来部署。

1.CrunchyData/postgres-operator:

https://github.com/CrunchyDat…

2.zalando/postgres-operator:

https://github.com/zalando/po…

3.Patroni 组件：

https://github.com/zalando/pa…

4.K8s 利用治理之道 – 有状态服务：

https://developer.aliyun.com/…

5.Managing High Availability in PostgreSQL — Part 3 Patroni：

https://scalegrid.io/blog/man…

6.https://thenewstack.io/differ…

7.Databases on Kubernetes:

https://www.reddit.com/r/devo…

8.https://www.slideshare.net/jk…

9.https://www.slideshare.net/Al…

10.https://github.com/operator-f…

11.https://www.kubernetes.org.cn…

参考资料