关于zookeeper:Zookeeper2zk部署运维

摘要

咱们理解了zk原理后，接下来就是部署zk、进行zk的运维。在部署zk的时候:zk个别作为基础架构类别的零碎，也能够作为数据中间件零碎，如果在公司的部署机器比拟少，尽管部署的机器少，然而你别用太普通的配置。

思维导图

内容

1、单机模式如何启动zk？

个别比方zk，kafka，hbase，hdfs这种零碎个别要求机器性能是比拟高的。应用虚拟机的话，比方zk部署3台机器，最好用8核16g，16核32g，最好用ssd固态硬盘。

zk依照集群化3，5单节点部署，部署结束之后，会进行恢复模式进行过半算法选举一个leader进去，只有leader能够读写，follower只能读，客户端跟leader/follower通过tcp长连贯进行连贯，两头靠心跳会保护一个session。往follower去写的话，其实会转发给leader，往集群外面写数据的时候，会采取一个2pc+过半写机制数据写采纳:日志文件写磁盘+znode内存数据结构保障的是程序一致性（不能说是强一致性或者最终一致性）。如果肯定须要减少集群的QPS，咱们能够往集群外面增加observer类型的节点进去就能够了，不采取过半写跟leader选举，只是同步数据，客户端查问。Mode:standalone

三台机器的小集群抗每秒十几万的并发是没有问题的，zk集群，基本上公司都够用了。
参考：https://segmentfault.com/a/11...

2、zk集群部署

zk集群部署操作参考:https://segmentfault.com/a/11...

2.1 集群部署须要多少台机器？为什么？

zk如果你用4核8G的虚拟机其实是不太靠谱的。针对于zk的话:最起码也得是：8核16G，如果有16核32G这种高配置虚拟机最好了，而且最好是SSD固态硬盘。因为3种不同配置机器因为zk的并发限度了。

`4核8G的机器:一般来说，每秒并发搞到1000是能够的。
8核16G的机器:每秒并发搞到几千是能够的。
16核32G的机器:每秒并发搞到上万或者是几万都是有可能的。`

如果你用高配置的机器(16核32G内存的机器)，比方搞了3台机器，1个leader，2个follower，leader次要是写，每秒抗几万并发写入是能够的；leader+follower，读，每秒抗个5万~10万的读是没有问题的，综合能够每秒十多万的QPS都能够抗住了。

2.2 zk的读能力如何扩大；zk的写能力如何扩大？

如果用高配置的机器，zk的读并发是比拟高的，只不过写QPS无奈线性的扩大。减少读QPS还能够，咱们只须要强制增加Observer角色节点，不能是leader或者follower(因为Observer不参加过半写机制跟过半选举leader)

因为zk在启动进入恢复模式或者宕机从新进入恢复模式的时候，zk是采纳过半选举机制；如果有过半的机器批准某一个节点为leader节点，那么此节点就是leader节点。比方6台机器，过半就是3台，只有宕机不超过（6-3）台机器，就能够再次选举出leader，提供服务；如果是5台机器，过半是3台，只有宕机机器不超过2台，也能够选举提供服务，过半3跟过半大于2.5的时候，都是3台。

3、正当设置ZooKeeper的JVM参数？

1、zk能间接启动吗？
比方你当初手头搞好了几台机器，并且是那种大内存的机器，并且zk的配置都配置好了，当初筹备启动了，那么zk能间接启动吗？

不能，生产环境下，是有一些非凡的货色要改一改的。
比方最最起码的一点：zk自身是用java写的，是基于JVM虚拟机来运行的，启动的是一个JVM过程，JVM过程外面会执行zk的全副代码。

2、设置JVM参数：

必须得正当的设置一些JVM的参数。次要有三大块货色，必须要正当的调优和设置的。

1、内存设置：你首先，设置调配你的各块内存区域的大小：堆内存，栈内存，Metaspace区域的内存；依据你机器上内存的状况去设置。

举例：比方你的机器如果有16G的内存，堆内存能够调配个10G，栈内存能够调配每个线程的栈是1MB，Metaspace区域能够调配个512MB都能够。

2、垃圾回收器设置：
小内存(32G以下)：咱们设置垃圾回收器，回收新生代+老年代，咱们能够应用ParNew+CMS垃圾回收器进行垃圾回收。

如果是大内存机器，不倡议这个组合了，能够思考应用G1回收所有的垃圾对象，还得设置一些G1的参数，比方：region的大小，最要害的是预期的每次GC的进展工夫是多少毫秒，比方设置为100ms；而后决定G1每隔多长时间进行垃圾回收。

3、gc日志记录设置：
线上JVM运行的时候，频繁gc问题，oom问题，退出一些参数，gc日志要写入哪个目录中，如果产生oom的话，此时要主动dump内存快照进去放哪个目录去。

3、怎么简略监控？
当你的zk启动之后，在你的公司开始应用他了，在各种状况下，比方一些运行高峰期，你应该应用jstat察看一下他的状况，去整个察看下jvm运行的状况，包含他的新生代的对象增长速率，young gc的频率，老年代增长速率，full gc的频率。如果gc有问题，须要得进行gc调优，正当优化jvm参数。另外，如果有监控零碎，须要对zk运行时的jvm的状况进行监控，比如说gc频繁，内存使用率。

4、zk的JVM参数设置在哪里设置？
zk的启动参数设置是在：zkServer.sh 的start模块去设置。

4、zk外围参数阐明

后面曾经做了zk机器的配置，以及zk在机器上如何部署和配置，还有zk的jvm参数如何配置，如何给zk调配他须要的内存资源、垃圾回收器、gc日志参数。而后解说完了下面的其实还不够，还须要在正式的启动zk之前，还须要理解下其余的一些货色；就是对zk的一些参数进行配置。zk有很多参数，所以咱们须要思考下zk的个别参数如何配置。

tickTime:zk里的最小工夫单位,是zk的根本工夫单元。默认是2000毫秒，也就是2s，zk其余的一些参数就会以这个tickTime为基准来进行设置，比方有的参数就是tickTime * 2。
dataDir:次要是放zk里的内存数据快照，因为zk里会存储很多的数据，然而这些数据在内存里有一份快照，而后在磁盘里其实也会有一份数据的快照，这样的话，比方：zk停机了，而后zk重启能力复原之前的数据。所以dataDir次要是寄存zk外面的数据快照的。
dataLogDir: 在zk原理时候，咱们解说了zk的写数据操作，它是基于2PC机制，
第一个阶段：将申请包装成写proposal，这个时候每台机器都会写入一个本地磁盘的事务日志，次要是放一些日志数据。

一般来说倡议dataDir跟dataLogDir挂载到不同的磁盘，并且最好挂载SSD固态硬盘；因为这样的话，能够保障读写速度十分快，因为dataLogDir这种事务日志磁盘写，是对zk的写性能和写并发的影响是很大的。

5、影响Leader与Follower组成集群运行的两个外围参数

这外面给大家解说下两个比拟外围的参数：initLimit跟syncLimit。

initLimit（初始化同步容许超时工夫）：zk集群启动的时候，默认值10就是：10 * tickTime=20s，leader在启动之后会期待follower跟本人建设连贯以及同步数据，最长等待时间是20s，在20s内，follower个别必须要跟leader建设连贯。过了这个工夫之后，leader就不等follower，间接进入音讯播送模式，对外提供服务了。

个别下面默认的参数是不必动的，然而如果：你的zk里存储的数据量比拟大了，导致follower同步数据须要的工夫比拟长，此时能够调大这个参数。

syncLimit（心跳超时距离）：默认值5，也就是5 * tickTime，10s，这个就是指代：leader跟follower之间会进行心跳，如果超过10s没有心跳，leader就把这个follower给踢出去了，认为他曾经死掉了。

6、ZK数据快照

zk里的数据分成两份：一份是在磁盘上的事务日志，一份是在内存里的数据结构，实践上两份数据是统一的，即便是有follower宕机，也是内存里的数据失落了，然而磁盘上的事务日志都是存在的。即便有的follower没收到事务日志就宕机了，也能够在启动之后找leader去同步数据

1、什么是数据快照

数据快照是某一时刻全量内存数据的镜像，存储在磁盘文件。

2、为什么引入数据快照？

zk宕机时候,重建内存数据:比方zk宕机了，此时zk比如说在磁盘里有一份事务日志了，此时他启动之后要重建内存里的数据，如何重建呢？难道说把事务日志进行回放？一条一条从新执行每条事务日志到内存里去吗？这样必定是不靠谱的，而是会导致zk启动很慢的。所以zk是有一个数据快照的机制。

3、zk是什么时候进行数据快照的？

事务日志的次数超过设定值后，会触发ZK dump全量内存数据到磁盘文件，生成数据快照，如下图所示.

4、数据快照创立流程以及相干的参数是什么？

数据快照创立流程流程：

1.  首先，查看事务日志数量是否达到设定次数；2.  其次，如果超过指定次数，则切换事务日志文件（为了和数据快照放弃同步）；3.  其次创立异步线程，专门用于dump内存数据到磁盘文件；4.  用ZXID作为文件名，而后将会话信息和DatatTree分贝序列化写入文件；

快照创立参数：

每次执行肯定的事务之后，就会把内存里的数据快照存储到dataDir这个目录中去，作为zk以后的一个数据快照。当初在磁盘事务日志里有1000个事务，而后把1000个事务对应的内存数据写入到dataDir里作为一个数据快照，接下来持续写事务日志，比方此时事务日志里有1032个事务，此时zk重启，他能够间接把蕴含1000个事务的快照间接加载到内存里来。而后1000之后的32个事务，1001~1032的事务，在内存里回放一遍，就能够在内存里复原进去重启之前的数据了。到底是写多少个事务日志存储一个快照呢？实际上它有一个参数叫做snapCount；snapCount：100000，默认是10万个事务存储一次快照。即便没到10万事务，就重启了，此时是没有快照文件的，然而此时是没有关系的，他认为10万个事务以内，不须要快照，因为10万个事务日志以内，能够间接读取事务日志，回放到内存就重建内存数据了。

7、一台机器上最多能启动多少个ZooKeeper客户端？

连接数：

在zk客户端上可能会运行一个Java开发的零碎去应用zk，比如说Kafka（尽管是Scala写的，也是JVM类的语言），HBase，Canal，HDFS，比如说Canal比方部署在一台机器上，此时他会去应用zk，他就是一个zk的客户端。当他们应用zk的Java API，去建设一个zk客户端，zk客户端负责跟zk servers进行连贯和通信。

然而一台机器上，咱们能够创立多少个zk客户端？也就是说能够跟zk servers建设多少个连贯呢？

这个是有限度的，默认来说60；
3.4.0以前是10个

1、参数：maxClientCnxns
咱们通过参数：maxClientCnxns能够设置某一个客户端机器最大连贯zk server的连贯个数。所以如果咱们本人开发一个零碎去应用zk的话，一台机器上，你个别是就用一个zk客户端去跟zk servers进行交互就能够了，不要无限度的搞很多的zk客户端，会连贯不下来的，他zk servers最多只能容许你的一台机器跟他建设60个连贯。

8、一个znode最大存储数据量大小

一个znode中最多能够存储多大数据量，这个其实也是一个关键点。你必定会不停地往zk外面写数据；往zk外面写数据其实就是一个一个的znode，一个znode最多能够存储多少数据呢？

默认是：1mb，1048575bytes(字节)。

一般来说倡议，不要在znode中存储的数据量过大，一般来说几百个字节，几百kb，就能够了。

9、Leader与Follower是通过哪两个端口进行通信？

之前咱们配置zk集群时候,每台机器上都须要配置如下：
server.1=zk01:2888:3888

第二个端口：3888，一般来说每台机器的3888端口，是用来在集群恢复模式的时候进行leader选举投票的，也就是说所有的机器之间进行选举投票的时候就是基于3888端口来的。

第一个端口：2888，2888的端口，是用来进行leader和follower之间进行数据同步和运行时通信的。

10、事务日志和数据快照是如何进行定时清理?

你不停的让zk运行，那么事务日志会越来越多，然而不可能是有限多的，所以他会切割进去多个事务日志文件，也就是事务日志文件它是有多个的。另外的话每次你执行一次数据快照，每次都有一个独立的数据快照文件，最初的话你zk磁盘文件上会有多个事务日志文件，多个数据快照文件。

默认来说没有开启定时清理数据文件的性能。

11、2PC阶段中写入磁盘的事务日志有没有失落的危险？

1、为什么有危险?(写日志原理)

是这样的？如果你的写申请proposal过来到follower了，leader会告诉过半的follower去写事务日志。而后返回ack之后，才会让leader去发送commit的申请，那么实际上来说的话，在 事务进行commit提交的时候，有没有日志失落的危险？其实是有的，默认状况下，在2PC阶段的第一个阶段里，各个机器把事务日志写入磁盘，此时个别是只能进入os cache的，没有间接进入物理磁盘下来。所以的话在commit提交的时候个别默认会强制把写的事务从os cache通过fsync到磁盘下来。它有一个参数叫做:forceSync：yes   //默认值是yes,也就是说他默认状况下就会强制把事务同步到磁盘下来。你也能够将其改为no,这样能够进步机器的性能。倡议设置为yes,升高事务日志失落危险。

2、写事务日志到磁盘的效率如何?

1、写日志是程序写磁盘，程序写磁盘跟随机写内存的性能是差不多的，性能是很高的。之前给大家解说Kafka的时候就也是说过，程序写磁盘性能很高，2、而且，刚开始的话，它是写到操作系统的缓存外面去的：os cache，所以也保障了他的性能就更高了，只是在commit的时候，须要fsync到磁盘下来，然而fsync之前机器坏了，有可能会失落局部os cache里没刷入磁盘的数据，如果是follower宕机还好，因为follower会从leader同步数据，然而如果是leader宕机的话，这个就有可能导致数据失落。

总结：
大家要分明一点，就是默认会将数据通过参数forceSync：yes设置将数据刷到磁盘外面去的

12、跟leader本人相干的两个参数的阐明

leaderServers：默认值是yes,就是说leader是否承受客户端的连贯，默认是能够的，默认客户端是能够跟leader建设连贯的。然而你也能够设置成no,然而此时客户端只能跟follower进行连贯，因而客户端跟follower进行了连贯，所有写申请由follower转发给leader，而后leader次要承受follower的转发写申请进行解决。其实也能够，一般来说不这么设置。

cnxTimeout：默认5000，在进行leader选举的时候，各个follower机器会基于3888那个端口建设TCP连贯，在这个过程中建设TCP连贯的超时工夫。

在启动zk集群之前，有哪些参数是必须要设置的，必须要设置的参数，即便有，也全都在zoo_sample.cfg，
次要是以下3个参数须要设置：
1、次要是把zk集群的信息配置进去：server.1，server.2。
2、每台机器配置dataDir，dataLogDir。
3、开启主动清理数据文件的参数。

配置实现之后，就能够写数据了。而后就能够基于zkServer.sh命令，
别离启动leader和follower等多个节点。

13、zookeeper提供给运维人员命令阐明

假如你硬件配置、JVM配置（zkServer.sh）、日志参数配置(zoo.cfg)都弄好了之后，整个zk集群启动，你作为zk运维;你须要去关注zk集群的运行状态。这个时候zk提供了一些命令供咱们应用。其实怎么用了？如下：

1、命令模版

conf（查看配置）、cons（查看连贯）、crst（重置客户端统计）、dump（输入会话）、envi（查看环境）、ruok（查看是否在运行）、stat（查看运行时状态）、srst（重置服务器统计）、wchs（查看watcher信息）、wchc（输入watche详细信息）、wchp（输入watcher，以znode为单位分组）、mntr（输入比stat更具体的）

 echo xxx | nc ip 客户端连贯端口

2、xxx具体阐明

查看zk配置：conf

查看环境： envi

查看连贯数量：cons

查看详细信息:mntr

14、zk监控

1、jstat监控

你手上有一个zk集群的话，你得常常去看看他的JVM运行状况。他的内存应用状况，以及gc状况；
Jstat -gc pid 最多显示多好行每多少毫秒显示一次
jstat -gc 82826 1000 1000

2、jconsole监控

JDK自带了一个可视化的JVM过程内存剖析的工具，JConsole
个别在你本人的笔记本电脑上就能够关上应用，百度一下，看看就晓得了
此时须要设置ZOOMAIN参数：对于zk而言，咱们在他的启动脚本下，能够批改其脚本参数。咱们查找ZOOMAIN参数：

参数如下：

-Dcom.sun.management.jmxremote.port=21811-Dcom.sun.management.jmxremote.ssl=false-Dcom.sun.management.jmxremote.authenticate=false

15、退出Observer节点晋升读QPS

之前给大家讲过，如果你当初有一个zk集群，想要线性减少其读的QPS；你该如何做呢？

1、你能够配置一台机器上的zk，你讲上面参数设置如下：
peerType=observer

2、另外所有机器的配置文件，都要退出一个server.4=zk04:2888:3888:observer；//除了本身晓得本人是一个observer,还得让所有机器晓得observer.

这样的话leader仅仅会同步数据给他，然而他不参加leader选举，也不参加过半写机制。只是缓缓去同步数据。

其余就没什么了？其余zk的运维就是：看看磁盘空间是否足够，zk集群建设的连贯是否过多，或者就是最多降级一下版本，3.4.5够用了。

总结：
到此，zk集群的部署、参数的设置、监控运维治理根本就这样了。