共计 629 个字符,预计需要花费 2 分钟才能阅读完成。
背景
线上 flink 用户应用 ZooKeeper 做元数据中心以及集群选主,一些版本的 flink 在 ZooKeeper 选主时,会重启 Job,导致一些非预期的业务损失。而 ZooKeeper 在 zxid 溢出时,会被动触发一次选主,就会导致 flink Job 的非预期重启,造成业务损失。本篇从原理和最佳实际上剖析和解决因为 ZooKeeper zxid 溢出导致的集群选主问题。查看 ZooKeeper Server 日志呈现。
zxid lower 32 bits have rolled over, forcing re-election, and therefore new epoch start
解决办法
ZooKeeper 自身提供以后解决的最大的 Zxid,通过 stat 接口可查看到以后解决的最大的 zxid 的值,通过此值能够计算以后 zxid 间隔溢出值还有多少差距。MSE 提供风险管理以及集群选主相干告警,提前预防和及时感知选主危险,防止业务损失。
残缺内容请点击下方链接查看:
https://developer.aliyun.com/article/1155595?utm_content=g_10…
版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。
正文完