关于java:zookeeper原理

1、Zookeeper 的角色

领导者（leader），负责进行投票的发动和决定，更新零碎状态。
学习者（learner），包含跟随者（follower）和观察者（bserver），follower 用于承受客户端申请并想客户端返回后果，在选主过程中参加投票
Observer 能够承受客户端连贯，将写申请转发给 leader，但 observer 不加入投票过程，只同步 leader 的状态，observer 的目标是为了扩大零碎，进步读取速度
客户端（client），申请发起方

Zookeeper 的外围是原子播送，这个机制保障了各个 Server 之间的同步。实现这个机制的协定叫做 Zab 协定。Zab 协定有两种模式，它们别离是恢复模式（选主）和播送模式（同步）。当服务启动或者在领导者解体后，Zab 就进入了恢复模式，当领导者被选举进去，且大多数 Server 实现了和 leader 的状态同步当前，恢复模式就完结了。状态同步保障了 leader 和 Server 具备雷同的零碎状态。

为了保障事务的程序一致性，zookeeper 采纳了递增的事务 id 号(zxid）来标识事务。所有的提议（proposal）都在被提出的时候加上了 zxid。实现中 zxid 是一个 64 位的数字，它高 32 位是 epoch 用来标识 leader 关系是否扭转，每次一个 leader 被选出来，它都会有一个新的 epoch，标识以后属于那个 leader 的统治期间。低 32 位用于递增计数。

• 每个 Server 在工作过程中有三种状态：
LOOKING：以后 Server 不晓得 leader 是谁，正在搜查
LEADING：以后 Server 即为选举进去的 leader
FOLLOWING：leader 曾经选举进去，以后 Server 与之同步

其余可考查：[https://www.cnblogs.com/lpshou/archive/2013/06/14/3136738.html](https://www.cnblogs.com/lpshou/archive/2013/06/14/3136738.html)

2、Zookeeper 的读写机制

*Zookeeper 是一个由多个 server 组成的集群
* 一个 leader，多个 follower
* 每个 server 保留一份数据正本
* 全局数据统一
* 分布式读写
* 更新申请转发，由 leader 施行

3、Zookeeper 的保障

* 更新申请程序进行，来自同一个 client 的更新申请按其发送程序顺次执行。* 数据更新原子性，一次数据更新要么胜利，要么失败。* 全局惟一数据视图，client 无论连贯到哪个 server，数据视图都是统一的。* 实时性，在肯定事件范畴内，client 能读到最新数据。

4、Zookeeper 节点数据操作流程

注：1. 在 Client 向 Follwer 收回一个写的申请

2.Follwer 把申请发送给 Leader

3.Leader 接管到当前开始发动投票并告诉 Follwer 进行投票

4.Follwer 把投票后果发送给 Leader

5.Leader 将后果汇总后如果须要写入，则开始写入同时把写入操作告诉给 Leader，而后 commit;

6.Follwer 把申请后果返回给 Client

• Follower 次要有四个性能：
• 1. 向 Leader 发送申请（PING 音讯、REQUEST 音讯、ACK 音讯、REVALIDATE 音讯）；
• 2 . 接管 Leader 音讯并进行解决；
• 3 . 接管 Client 的申请，如果为写申请，发送给 Leader 进行投票；
• 4 . 返回 Client 后果。
• Follower 的音讯循环解决如下几种来自 Leader 的音讯：
• 1 .PING 音讯：心跳音讯；
• 2 .PROPOSAL 音讯：Leader 发动的提案，要求 Follower 投票；
• 3 .COMMIT 音讯：服务器端最新一次提案的信息；
• 4 .UPTODATE 音讯：表明同步实现；
• 5 .REVALIDATE 音讯：依据 Leader 的 REVALIDATE 后果，敞开待 revalidate 的 session 还是容许其承受音讯；
• 6 .SYNC 音讯：返回 SYNC 后果到客户端，这个音讯最后由客户端发动，用来强制失去最新的更新。

5、Zookeeper leader 选举

• 半数通过
– 3 台机器挂一台 2>3/2
– 4 台机器挂 2 台 2！>4/2

• A 提案说，我要选本人，B 你批准吗？C 你批准吗？B 说，我批准选 A；C 说，我批准选 A。(留神，这里超过半数了，其实在事实世界选举曾经胜利了。

然而计算机世界是很严格，另外要了解算法，要持续模仿上来。)
• 接着 B 提案说，我要选本人，A 你批准吗；A 说，我曾经超半数批准入选，你的提案有效；C 说，A 曾经超半数批准入选，B 提案有效。
• 接着 C 提案说，我要选本人，A 你批准吗；A 说，我曾经超半数批准入选，你的提案有效；B 说，A 曾经超半数批准入选，C 的提案有效。
• 选举曾经产生了 Leader，前面的都是 follower，只能遵从 Leader 的命令。而且这里还有个小细节，就是其实谁先启动谁当头。

6、zxid
• znode 节点的状态信息中蕴含 czxid, 那么什么是 zxid 呢?
• ZooKeeper 状态的每一次扭转, 都对应着一个递增的 Transaction id, 该 id 称为 zxid. 因为 zxid 的递增性质, 如果 zxid1 小于 zxid2, 那么 zxid1 必定先于 zxid2 产生.

创立任意节点, 或者更新任意节点的数据, 或者删除任意节点, 都会导致 Zookeeper 状态产生扭转, 从而导致 zxid 的值减少.

7、Zookeeper 工作原理
» Zookeeper 的外围是原子播送，这个机制保障了各个 server 之间的同步。实现这个机制的协定叫做 Zab 协定。Zab 协定有两种模式，它们别离是恢复模式和播送模式。
当服务启动或者在领导者解体后，Zab 就进入了恢复模式，当领导者被选举进去，且大多数 server 的实现了和 leader 的状态同步当前，恢复模式就完结了。
状态同步保障了 leader 和 server 具备雷同的零碎状态
» 一旦 leader 曾经和少数的 follower 进行了状态同步后，他就能够开始播送音讯了，即进入播送状态。这时候当一个 server 退出 zookeeper 服务中，它会在恢复模式下启动，
发现 leader，并和 leader 进行状态同步。待到同步完结，它也参加音讯播送。Zookeeper 服务始终维持在 Broadcast 状态，直到 leader 解体了或者 leader 失去了大部分的 followers 反对。

» 播送模式须要保障 proposal 被按程序解决，因而 zk 采纳了递增的事务 id 号 (zxid) 来保障。所有的提议 (proposal) 都在被提出的时候加上了 zxid。
实现中 zxid 是一个 64 为的数字，它高 32 位是 epoch 用来标识 leader 关系是否扭转，每次一个 leader 被选出来，它都会有一个新的 epoch。低 32 位是个递增计数。
» 当 leader 解体或者 leader 失去大多数的 follower，这时候 zk 进入恢复模式，恢复模式须要从新选举出一个新的 leader，让所有的 server 都复原到一个正确的状态。
» 每个 Server 启动当前都询问其它的 Server 它要投票给谁。
» 对于其余 server 的询问，server 每次依据本人的状态都回复本人举荐的 leader 的 id 和上一次处理事务的 zxid（系统启动时每个 server 都会举荐本人）
» 收到所有 Server 回复当前，就计算出 zxid 最大的哪个 Server，并将这个 Server 相干信息设置成下一次要投票的 Server。
» 计算这过程中取得票数最多的的 sever 为获胜者，如果获胜者的票数超过半数，则改 server 被选为 leader。否则，持续这个过程，直到 leader 被选举进去

» leader 就会开始期待 server 连贯
» Follower 连贯 leader，将最大的 zxid 发送给 leader
» Leader 依据 follower 的 zxid 确定同步点
» 实现同步后告诉 follower 曾经成为 uptodate 状态
» Follower 收到 uptodate 音讯后，又能够从新承受 client 的申请进行服务了

8、数据一致性与 paxos 算法

• 据说 Paxos 算法的难了解与算法的知名度一样令人敬佩，所以咱们先看如何保持数据的一致性，这里有个准则就是：
• 在一个分布式数据库系统中，如果各节点的初始状态统一，每个节点都执行雷同的操作序列，那么他们最初能失去一个统一的状态。
• Paxos 算法解决的什么问题呢，解决的就是保障每个节点执行雷同的操作序列。好吧，这还不简略，master 保护一个
全局写队列，所有写操作都必须放入这个队列编号，那么无论咱们写多少个节点，只有写操作是按编号来的，就能保障一
致性。没错，就是这样，可是如果 master 挂了呢。
• Paxos 算法通过投票来对写操作进行全局编号，同一时刻，只有一个写操作被批准，同时并发的写操作要去争取选票，
只有取得过半数选票的写操作才会被批准（所以永远只会有一个写操作失去批准），其余的写操作竞争失败只好再发动一
轮投票，就这样，在日复一日年复一年的投票中，所有写操作都被严格编号排序。编号严格递增，当一个节点承受了一个
编号为 100 的写操作，之后又承受到编号为 99 的写操作（因为网络提早等很多不可预感起因），它马上能意识到本人数据
不统一了，主动进行对外服务并重启同步过程。任何一个节点挂掉都不会影响整个集群的数据一致性（总 2n+ 1 台，除非挂掉大于 n 台）。

 举荐书籍：《从 Paxos 到 Zookeeper 分布式一致性原理与实际》

9、Observer
• Zookeeper 需保障高可用和强一致性；
• 为了反对更多的客户端，须要减少更多 Server；
• Server 增多，投票阶段提早增大，影响性能；
• 衡量伸缩性和高吞吐率，引入 Observer
• Observer 不参加投票；
• Observers 承受客户端的连贯，并将写申请转发给 leader 节点；
• 退出更多 Observer 节点，进步伸缩性，同时不影响吞吐率

10、为什么 zookeeper 集群的数目，个别为奇数个？
•Leader 选举算法采纳了 Paxos 协定；
•Paxos 核心思想：当少数 Server 写胜利，则工作数据写胜利如果有 3 个 Server，则两个写胜利即可；如果有 4 或 5 个 Server，则三个写胜利即可。
•Server 数目个别为奇数（3、5、7）如果有 3 个 Server，则最多容许 1 个 Server 挂掉；如果有 4 个 Server，则同样最多容许 1 个 Server 挂掉由此，

咱们看出 3 台服务器和 4 台服务器的的容灾能力是一样的，所以为了节俭服务器资源，个别咱们采纳奇数个数，作为服务器部署个数。

11、Zookeeper 的数据模型
» 层次化的目录构造，命名合乎惯例文件系统标准
» 每个节点在 zookeeper 中叫做 znode, 并且其有一个惟一的门路标识
» 节点 Znode 能够蕴含数据和子节点，然而 EPHEMERAL 类型的节点不能有子节点
» Znode 中的数据能够有多个版本，比方某一个门路下存有多个数据版本，那么查问这个门路下的数据就须要带上版本
» 客户端利用能够在节点上设置监视器
» 节点不反对局部读写，而是一次性残缺读写

12、Zookeeper 的节点
» Znode 有两种类型，短暂的（ephemeral）和长久的（persistent）
» Znode 的类型在创立时确定并且之后不能再批改
» 短暂 znode 的客户端会话完结时，zookeeper 会将该短暂 znode 删除，短暂 znode 不能够有子节点
» 长久 znode 不依赖于客户端会话，只有当客户端明确要删除该长久 znode 时才会被删除
» Znode 有四种模式的目录节点
» PERSISTENT（长久的）
» EPHEMERAL(临时的)
» PERSISTENT_SEQUENTIAL（长久化程序编号目录节点）
» EPHEMERAL_SEQUENTIAL（临时化程序编号目录节点）