关于云原生-cloud-native:云原生时代-RocketMQ-运维管控的利器-RocketMQ-Operator

25次阅读

共计 11789 个字符,预计需要花费 30 分钟才能阅读完成。

简介: RocketMQ Operator 现已退出 OperatorHub,正式进入 Operator 社区。本文将从实际登程,联合案例来阐明,如何通过 RocketMQ Operator 在 Kubernetes 上疾速搭建一个 RocketMQ 集群,并提供一些 RocketMQ 集群治理性能包含 Broker 扩容等。

作者 | 刘睿、杜恒

导读 :RocketMQ Operator 现已退出 OperatorHub,正式进入 Operator 社区。本文将从实际登程,联合案例来阐明,如何通过 RocketMQ Operator 在 Kubernetes 上疾速搭建一个 RocketMQ 集群,并提供一些 RocketMQ 集群治理性能包含 Broker 扩容等。

本文次要分为三个局部:

  • 首先简略介绍一下 RocketMQ Operator 的相干常识;
  • 而后联合案例具体介绍 RocketMQ Operator 提供的自定义资源及应用办法;
  • 最初介绍 Operator 社区目前的状况并瞻望 RocketMQ Operator 下一步的倒退方向。

相干背景常识

1. RocketMQ

2012~2013 年期间,阿里巴巴中间件团队自主研发并对外开源了第三代分布式音讯引擎 RocketMQ,其高性能、低提早、抗沉积的个性稳固撑持了阿里巴巴 双 11 万亿级数据洪峰业务,其云产品 Aliware MQ 在微服务、流计算、IoT、异步解耦、数据同步等有数工况场景大放异彩。

2016 年,阿里巴巴向 Apache 软件基金会捐献了 RocketMQ。次年,RocketMQ 顺利从基金会毕业,成为 Apache 顶级开源我的项目,与 Apache Hadoop,Apache Spark 一起为寰球分布式、大数据畛域的开发者带来福音。然而,在云原生时代的明天,RocketMQ 作为有状态的分布式服务零碎,如何在大规模集群上做到极简运维,则是一个极具挑战和价值的问题。

RocketMQ 反对多种部署形式,以根本的双主双从架构为例,如下图所示。

RocketMQ 双主双从架构

这外面包含了一共 7 个 RocketMQ 服务实例:3 个 name server 实例,2 个 master broker 实例,以及 2 个 slave broker 实例。

传统的部署形式须要手动或编写脚本在每个节点上进行环境和文件配置。此外,随着用户业务的减少,存在对集群进行无缝扩容等需要。传统形式是运维人员拜访不同节点,依赖操作手册和脚本按步骤进行操作来实现,消耗人力,且存在误操作的可能。一些公司可能会应用一些平台和工具如 Ansible 来帮忙自动化运维,此外越来越多的公司开始集成和应用基于 Kubernetes 的云原生生态。

应用 Kubernetes 提供的 Deployment 和 StatefulSet 等原生资源能够很好地解决无状态利用的治理问题,但对于数据库和 RocketMQ 这类有状态利用,则存在很多局限性。例如对 RocketMQ 来说扩容不仅仅是拉起新的实例 Pod 就实现了,还须要同步复制 Broker 的状态信息包含 Topic 信息和订阅关系这些元数据,同时要正确配置新 Broker 的 config 参数,包含 brokerName 和 NameServer IP List 等,能力使得新扩容的 Broker 可用,而这些仅仅靠用户编写 StatefulSet,批改 size 或 replicas 而后 apply 是无奈做到的。

实际上 Kubernetes 开发人员也发现了这些问题,因而引入了自定义资源和控制器的概念,让开发人员能够间接用 Go 语言调用 Kubernetes API,编写自定义资源和对应的控制器逻辑来解决简单有状态利用的治理问题,提供特定利用相干的自定义资源的这类代码组件称之为 Operator。由具备 RocketMQ 畛域常识的专家编写 Operator,屏蔽了应用领域的专业知识,让用户只须要关怀和定义心愿达到的集群终态,这也是 Kubernetes 申明式 API 的设计哲学。

2. Kubernetes Operator

Operator 是在 Kubernetes 根底上通过扩大 Kubernetes API,用来创立、配置和治理简单的有状态利用,如分布式数据库等。Operator 基于 Kubernetes 1.7 版本以来引入的自定义控制器的概念,在自定义资源和控制器之上构建,同时又蕴含了应用程序特定的畛域常识。实现一个 Operator 的要害是 CRD(自定义资源)和 Controller(控制器)的设计。

Operator 站在 Kubernetes 外部视角,为利用的云原生化关上了新世界的大门。自定义资源能够让开发人员扩大增加新性能,更新现有的性能,并且能够主动执行一些治理工作,这些自定义的控制器就像 Kubernetes 原生的组件一样,Operator 能够间接应用 Kubernetes API 进行开发,也就是说他们能够依据这些控制器编写的自定义规定来创立和更改 Pods / Services、对正在运行的利用进行扩缩容。

疾速开始

本文应用 RocketMQ Operator 0.2.1 版本,展现如何应用 RocketMQ Operator 在 Kubernetes 上疾速创立部署一个 RocketMQ 服务集群。

  • 筹备好 K8s 环境,能够应用 docker desktop 自带的 K8s,或者 minikube;
  • 克隆 rocketmq-operator 仓库到你的 K8s 节点上;
$ git clone https://github.com/apache/rocketmq-operator.git
$ cd rocketmq-operator
  • 运行脚本装置 RocketMQ Operator;
     
$ ./install-operator.sh
  • 查看下 RocketMQ Operator 是否装置胜利
$ kubectl get pods
NAME                                      READY   STATUS    RESTARTS   AGE
rocketmq-operator-564b5d75d-jllzk         1/1     Running   0          108s

胜利装置时,rocketmq-operator pod 处于相似下面例子的 running 状态。

  • 利用 Broker 和 NameService 自定义资源,创立 RocketMQ 集群;

利用 rocketmq-operator / example 中的 rocketmq_v1alpha1_rocketmq_cluster.yaml 文件,疾速部署一个 RocketMQ 集群。rocketmq_v1alpha1_rocketmq_cluster.yaml 文件内容如下:

apiVersion: rocketmq.apache.org/v1alpha1
kind: Broker
metadata:
  # name of broker cluster
  name: broker
spec:
  # size is the number of the broker cluster, each broker cluster contains a master broker and [replicaPerGroup] replica brokers.
  size: 1
  # nameServers is the [ip:port] list of name service
  nameServers: ""
  # replicationMode is the broker replica sync mode, can be ASYNC or SYNC
  replicationMode: ASYNC
  # replicaPerGroup is the number of each broker cluster
  replicaPerGroup: 1
  # brokerImage is the customized docker image repo of the RocketMQ broker
  brokerImage: apacherocketmq/rocketmq-broker:4.5.0-alpine
  # imagePullPolicy is the image pull policy
  imagePullPolicy: Always
  # resources describes the compute resource requirements and limits
  resources:
    requests:
      memory: "2048Mi"
      cpu: "250m"
    limits:
      memory: "12288Mi"
      cpu: "500m"
  # allowRestart defines whether allow pod restart
  allowRestart: true
  # storageMode can be EmptyDir, HostPath, StorageClass
  storageMode: EmptyDir
  # hostPath is the local path to store data
  hostPath: /data/rocketmq/broker
  # scalePodName is broker-[broker group number]-master-0
  scalePodName: broker-0-master-0
  # volumeClaimTemplates defines the storageClass
  volumeClaimTemplates:
    - metadata:
        name: broker-storage
      spec:
        accessModes:
          - ReadWriteOnce
        storageClassName: rocketmq-storage
        resources:
          requests:
            storage: 8Gi
---
apiVersion: rocketmq.apache.org/v1alpha1
kind: NameService
metadata:
  name: name-service
spec:
  # size is the the name service instance number of the name service cluster
  size: 1
  # nameServiceImage is the customized docker image repo of the RocketMQ name service
  nameServiceImage: apacherocketmq/rocketmq-nameserver:4.5.0-alpine
  # imagePullPolicy is the image pull policy
  imagePullPolicy: Always
  # hostNetwork can be true or false
  hostNetwork: true
  #  Set DNS policy for the pod.
  #  Defaults to "ClusterFirst".
  #  Valid values are 'ClusterFirstWithHostNet', 'ClusterFirst', 'Default' or 'None'.
  #  DNS parameters given in DNSConfig will be merged with the policy selected with DNSPolicy.
  #  To have DNS options set along with hostNetwork, you have to specify DNS policy
  #  explicitly to 'ClusterFirstWithHostNet'.
  dnsPolicy: ClusterFirstWithHostNet
  # resources describes the compute resource requirements and limits
  resources:
    requests:
      memory: "512Mi"
      cpu: "250m"
    limits:
      memory: "1024Mi"
      cpu: "500m"
  # storageMode can be EmptyDir, HostPath, StorageClass
  storageMode: EmptyDir
  # hostPath is the local path to store data
  hostPath: /data/rocketmq/nameserver
  # volumeClaimTemplates defines the storageClass
  volumeClaimTemplates:
    - metadata:
        name: namesrv-storage
      spec:
        accessModes:
          - ReadWriteOnce
        storageClassName: rocketmq-storage
        resources:
          requests:
            storage: 1Gi

留神到这个例子中 storageMode: EmptyDir,示意存储应用的是 EmptyDir,数据会随着 Pod 的删除而抹去,因而该形式仅供开发测试时应用。个别应用 HostPath 或 StorageClass 来对数据进行长久化存储。应用 HostPath 时,须要配置 hostPath,申明宿主机上挂载的目录。应用 storageClass 时,须要配置 volumeClaimTemplates,申明 PVC 模版。具体可参考 RocketMQ Operator 文档。

利用下面的 yaml 文件,输出命令:

$ kubectl apply -f example/rocketmq_v1alpha1_rocketmq_cluster.yaml
broker.rocketmq.apache.org/broker created
nameservice.rocketmq.apache.org/name-service created

查看集群 Pod 状态:

$ kubectl get pods -owide
NAME                                 READY   STATUS    RESTARTS   AGE     IP             NODE             NOMINATED NODE   READINESS GATES
broker-0-master-0                    1/1     Running   0          27s     10.1.2.27      docker-desktop   <none>           <none>
broker-0-replica-1-0                 1/1     Running   0          27s     10.1.2.28      docker-desktop   <none>           <none>
name-service-0                       1/1     Running   0          27s     192.168.65.3   docker-desktop   <none>           <none>
rocketmq-operator-76b4b9f4db-x52mz   1/1     Running   0          3h25m   10.1.2.17      docker-desktop   <none>           <none>

应用默认的 rocketmq_v1alpha1_rocketmq_cluster.yaml 文件配置,咱们看到集群中拉起了 1 个 name server 服务(name-service-0)和 2 个 broker 服务(1 主 1 从)。

好啦!到这里你曾经胜利通过 Operator 提供的自定义资源部署了一个 RocketMQ 服务集群。

  • 拜访这个 RocketMQ 集群中的 Pod 来验证集群是否能失常工作;

应用 RocketMQ 的 tools.sh 脚本运行 Producer example:

$ kubectl exec -it broker-0-master-0 bash
bash-4.4# sh ./tools.sh org.apache.rocketmq.example.quickstart.Producer
OpenJDK 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0
OpenJDK 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0
06:56:29.145 [main] DEBUG i.n.u.i.l.InternalLoggerFactory - Using SLF4J as the default logging framework
SendResult [sendStatus=SEND_OK, msgId=0A0102CF007778308DB1206383920000, offsetMsgId=0A0102CF00002A9F0000000000000000, messageQueue=MessageQueue [topic=TopicTest, brokerName=broker-0, queueId=0], queueOffset=0]
...
06:56:51.120 [NettyClientSelector_1] INFO  RocketmqRemoting - closeChannel: close the connection to remote address[10.1.2.207:10909] result: true
bash-4.4#

在另一个节点上运行 Consumer example:

$ kubectl exec -it name-service-0 bash
bash-4.4# sh ./tools.sh org.apache.rocketmq.example.quickstart.Consumer
OpenJDK 64-Bit Server VM warning: ignoring option PermSize=128m; support was removed in 8.0
OpenJDK 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0
07:01:32.077 [main] DEBUG i.n.u.i.l.InternalLoggerFactory - Using SLF4J as the default logging framework
Consumer Started.
ConsumeMessageThread_1 Receive New Messages: [MessageExt [queueId=0, storeSize=273, queueOffset=19845, sysFlag=0, bornTimestamp=1596768410268, bornHost=/30.4.165.204:53450, storeTimestamp=1596768410282, storeHost=/100.81.180.84:10911, msgId=6451B45400002A9F000014F96A0D6C65, commitLogOffset=23061458676837, bodyCRC=532471758, reconsumeTimes=0, preparedTransactionOffset=0, toString()=Message{topic='TopicTest', flag=0, properties={MIN_OFFSET=19844, TRACE_ON=true, eagleTraceId=1e04a5cc15967684102641001d0db0, MAX_OFFSET=19848, MSG_REGION=DefaultRegion, CONSUME_START_TIME=1596783715858, UNIQ_KEY=1E04A5CC0DB0135FBAA421365A5F0000, WAIT=true, TAGS=TagA, eagleRpcId=9.1}, body=[72, 101, 108, 108, 111, 32, 77, 101, 116, 97, 81, 32, 48], transactionId='null'}]] 
ConsumeMessageThread_4 Receive New Messages: [MessageExt [queueId=1, storeSize=273, queueOffset=19637, sysFlag=0, bornTimestamp=1596768410296, bornHost=/30.4.165.204:53450, storeTimestamp=1596768410298, storeHost=/100.81.180.84:10911, msgId=6451B45400002A9F000014F96A0D7141, commitLogOffset=23061458678081, bodyCRC=1757146968, reconsumeTimes=0, preparedTransactionOffset=0, toString()=Message{topic='TopicTest', flag=0, properties={MIN_OFFSET=19636, TRACE_ON=true, eagleTraceId=1e04a5cc15967684102961002d0db0, MAX_OFFSET=19638, MSG_REGION=DefaultRegion, CONSUME_START_TIME=1596783715858, UNIQ_KEY=1E04A5CC0DB0135FBAA421365AB80001, WAIT=true, TAGS=TagA, eagleRpcId=9.1}, body=[72, 101, 108, 108, 111, 32, 77, 101, 116, 97, 81, 32, 49], transactionId='null'}]]
...
  • 删除集群,清理环境;

革除 RocketMQ 服务集群实例:

$ kubectl delete -f example/rocketmq_v1alpha1_rocketmq_cluster.yaml

革除 RocketMQ Operator:

$ ./purge-operator.sh

依照 OperatorHub 官网领导装置 RocketMQ Operator

  • 在 OperatorHub.io 网页搜寻 RocketMQ Operator;

抉择 Streaming & Messaging 类别,点击 RocketMQ Operator:

  • 进入 RocketMQ Operator 页面,点击 Install 按钮;

  • 依照阐明装置 OLM 和 RocketMQ Operator;

本地装置 OLM 来应用 RocketMQ Operator

  • 本地装置和动 OLM(Operator Lifecycle Manager) console;

参考:OLM 装置文档。

  • 本地启动 UI 界面控制台;
$ make run-console-local
  • 拜访 http://localhost:9000 查看控制台;

OperatorHub

  • 搜寻 RocketMQ 或点击 All Items 分类中的 Streaming & Messaging,找到 RocketMQ Operator 并进行装置;
  • 装置完 RocketMQ Operator 后能够在 Installed Operators 中找到 RocketMQ Operator;

已装置的 Operators 界面

RocketMQ Operator 介绍界面

通过 UI 界面创立 NameService 自定义资源

能够在 UI 中创立指定 Namespace 下的 NameService 和 Broker 实例,并对已创立的实例进行浏览和治理。咱们也能够通过命令查看以后 K8s 集群中的 Pod 状态,例如:

$ kubectl get pods -A
NAMESPACE     NAME                                            READY   STATUS    RESTARTS   AGE
docker        compose-78f95d4f8c-8fr5z                        1/1     Running   0          32h
docker        compose-api-6ffb89dc58-nv9rh                    1/1     Running   0          32h
kube-system   coredns-5644d7b6d9-hv6r5                        1/1     Running   0          32h
kube-system   coredns-5644d7b6d9-mkqb6                        1/1     Running   0          32h
kube-system   etcd-docker-desktop                             1/1     Running   0          32h
kube-system   kube-apiserver-docker-desktop                   1/1     Running   0          32h
kube-system   kube-controller-manager-docker-desktop          1/1     Running   1          32h
kube-system   kube-proxy-snmxh                                1/1     Running   0          32h
kube-system   kube-scheduler-docker-desktop                   1/1     Running   1          32h
kube-system   storage-provisioner                             1/1     Running   1          32h
kube-system   vpnkit-controller                               1/1     Running   0          32h
marketplace   broker-0-master-0                               1/1     Running   0          5h3m
marketplace   broker-0-replica-1-0                            1/1     Running   0          5h3m
marketplace   name-service-0                                  1/1     Running   0          5h3m
marketplace   marketplace-operator-69756457d8-42chk           1/1     Running   0          32h
marketplace   rocketmq-operator-0.2.1-c9fffb5f-cztcl          1/1     Running   0          32h
marketplace   rocketmq-operator-84c7bb4ddc-7rvqr              1/1     Running   0          32h
marketplace   upstream-community-operators-5b79db455f-7t47w   1/1     Running   1          32h
olm           catalog-operator-7b788c597d-gjz55               1/1     Running   0          32h
olm           olm-operator-946bd977f-dhszg                    1/1     Running   0          32h
olm           operatorhubio-catalog-fvxp9                     1/1     Running   0          32h
olm           packageserver-789c7b448b-7ss7m                  1/1     Running   0          32h
olm           packageserver-789c7b448b-lfxrw                  1/1     Running   0          32h

能够看到在 marketplace 这个 namespace 中也胜利创立了对应的 name server 和 broker 实例。

以上是基于 OperatorHub 和 OLM 装置应用 RocketMQ Operator 的案例,咱们将继续推送和保护新版本的 RocketMQ Operator 至该平台,不便用户获取最新更新或抉择适合的 Operator 版本。

社区

RocketMQ Operator 是 Apache 社区的开源我的项目,服务于阿里巴巴 SaaS 类交付专有云,产品公有云环境部署等场景,同时也收到来自爱奇艺等互联网公司开源贡献者的代码提交。欢送宽广用户来社区我的项目中进行反馈,点击下方链接留下您的信息,让咱们更好地欠缺 RocketMQ Operator。

链接:https://github.com/apache/rocketmq-operator/issues/20

目前,RocketMQ Operator v0.2.1 的 PR 已合并进入 community-operators 仓库,RocketMQ Operator 进入 OperatorHub.io 后,用户能够通过应用 OLM(Operator Lifecycle Manager) 来装置、订阅 RocketMQ Operator,取得继续的服务反对。

将来瞻望

RocketMQ Operator v0.2.1 反对的性能次要包含:Name Server 和 Broker 集群的主动创立,Name Server 集群的无缝扩容(主动告诉 Broker 集群更新 Name Server IP 列表),非程序音讯下的 Broker 集群无缝扩容(新 Broker 实例会从 Broker CRD 指定的源 Broker Pod 中同步元数据,包含 Topic 信息和订阅信息),以及 Topic 迁徙等。

下一步咱们心愿和社区一起进一步欠缺 RocketMQ Operator 我的项目,包含灰度公布,数据的全生命周期治理,容灾备份复原,流量等指标监控、主动弹性扩缩容等方面,最终实现通过 Operator 能够笼罩 RocketMQ 服务全生命周期的治理。

欢送大家应用 RocketMQ Operator,提出贵重倡议。

相干链接

  • RocketMQ Operator 我的项目:https://github.com/apache/rocketmq-operator
  • OperatorHub:https://operatorhub.io/
  • Operator Framework:https://github.com/operator-framework
  • RocketMQ 官网:https://rocketmq.apache.org/
  • Apache RocketMQ 仓库:https://github.com/apache/rocketmq

课程举荐 

去年,CNCF 与 阿里云联结公布了《云原生技术公开课》曾经成为了 Kubernetes 开发者的一门“必修课”。

明天,阿里云再次集结多位具备丰盛云原生实践经验的技术专家,正式推出《云原生实际公开课》。课程内容由浅入深,专一解说“落地实际”。还为学习者打造了实在、可操作的试验场景,不便验证学习成绩,也为之后的实际利用打下坚实基础。

点击即可收费观看课程:https://developer.aliyun.com/learning/roadmap/cloudnative2020

正文完
 0