关于clickhouse:字节跳动基于ClickHouse优化实践之高可用

更多技术交换、求职机会，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群

置信大家都对赫赫有名的ClickHouse有肯定的理解了，它弱小的数据分析性能让人印象粗浅。但在字节大量生产应用中，发现了ClickHouse仍然存在了肯定的限度。本篇将具体介绍咱们是如何为ClickHouse加强高可用能力的。

字节遇到的ClickHouse可用性问题

随着字节业务的疾速倒退，产品疾速扩张，承载业务的ClickHouse集群节点数也疾速减少。另一方面，依照天进行的数据分区也疾速减少，一个集群治理的库表特地多，开始呈现元数据不统一的状况。两方面联合，导致集群的可用性极速降落，以至于到了业务难以承受的水平。直观的问题有三类：

1、故障变多
典型的例子如硬件故障，简直每天都会呈现。另外，当集群达到肯定的规模，Zookeeper会成为瓶颈，减少故障产生频率。

2、故障复原工夫长
因为数据分区变多，导致一旦产生故障，复原工夫常常会须要1个小时以上，这是业务方齐全不能承受的。

3、运维复杂度晋升
以往只须要一个人负责运维的集群，因为节点减少和分区变多，运维复杂度和难度成倍的减少，目前运维人数减少了几人也仍然拙荆见肘，仍然难保障集群的稳固运行。

可用性问题曾经成为制约业务倒退的重要问题，因而咱们决定将影响高可用的问题一一拆解，并一一解决。

晋升高可用能力的计划

一、升高Zookeeper压力

问题所在：

原生ClickHouse 应用 ReplicatedMergeTree 引擎来实现数据同步。原理上，ReplicatedMergeTree 基于 ZooKeeper 实现多正本的选主、数据同步、故障复原等性能。因为 ReplicatedMergeTree 对 ZooKeeper 的应用比拟重，除了每组正本一些表级别的元信息，还存储了逻辑日志、part 信息等潜在数量级较大的信息。Zookeeper并不是一个能做到良好线性扩大的零碎，当ZooKeeper 在绝对较高的负载状况下运行时，往往性能体现并不佳，甚至会呈现正本无奈写入，数据也无奈同步的状况。在字节外部理论应用和运维 ClickHouse 的过程中，ZooKeeper 也是非常容易成为一个瓶颈的组件。

革新思路：

ReplicatedMergeTree 反对 insert_quorum，insert_quorum 是指如果正本数为3，insert_quorum=2，要胜利写入至多两个正本才会返回写入胜利。

新分区在正本之间复制的流程如下：

能够看到，重复在 zookeeper 中进行散发日志、数据交换等步骤，这正是引起瓶颈的起因之一。

为了升高对 ZooKeeper 的负载，在ByteHouse中从新实现了一套 HaMergeTree 引擎。通过HaMergeTree升高对 ZooKeeper 的申请次数，缩小在 ZooKeeper 上存储的数据量，新的 HaMergeTree 同步引擎：

1）保留ZooKeeper上表级别的元信息；
2）简化逻辑日志的调配；
3）将 part 信息从 ZooKeeper 日志移除。

HaMergeTree 缩小了操作日志等信息在zookeeper外面的寄存，来缩小zookeeper的负载，zookeeper外面只是寄存log LSN, 具体日志在正本之间通过gossip协定同步回放。

在放弃和ReplicatedMergeTree齐全兼容的前提下，新的 HaMergeTree 极大加重了对 ZooKeeper 的负载，实现了 ZooKeeper 集群的压力与数据量不相干。上线后，因Zookeeper导致的异样大量缩小。无论是单集群几百甚至上千节点，还是单节点上万张表，都能保障良好的稳定性。

二、晋升故障恢复能力

问题所在：

尽管所有数据从业者都在做各种致力，想要保障线上生产环境不出故障，然而事实中还是难以避免会遇到各式各样的问题。次要是由上面这几种因素引起的：

软件缺陷：软件设计自身的Bug引起的零碎非正常终止，或依赖的组件兼容引发的问题。

硬件故障：常见的有磁盘损坏、内容故障、CPU故障等，当集群规模扩充后产生的频率也线性减少。

内存溢出导致过程被进行：在OLAP数据库中常常产生。

意外因素：如断电、误操作等引发的问题。

因为原生ClickHouse心愿达到极致性能的初衷，所以在ClickHouse零碎中元数据常驻于内存中，这导致了ClickHouse server重启工夫十分长。因此当故障产生后，复原的工夫也很长，动辄一到两个小时，相当于业务也要中断一到两个小时。当故障频繁呈现，造成的业务损失是无法估量的。

革新思路：

为了解决上述问题，在ByteHouse中采纳了元数据长久化的计划，将元数据长久化到RocksDB， Server启动时间接从RocksDB加载元数据，内存中也仅仅寄存必要的Part信息。因而能够缩小元数据对内存的占用，以及减速集群的启动以及故障复原工夫。

如下图所示，元数据长久化整体上采纳了RocksDB+Meta in Memory的形式，每个Table都会对应一个RocksDB数据库寄存该表所有Part的元信息。Table首次启动时，从文件系统中加载的Part元数据将被长久化到RocksDB中；之后重启时就能够间接从RocksDB中加载Part。每个表从RocksDB或者文件系统加载的Part将只在内存中寄存必要的Part信息。在理论应用Part时，将通过内存中寄存的Part元信息去RocksDB中读取并加载对应Part。

实现元数据长久化后，在性能根本无损失的状况下，单机反对的part不再受内存容量的限度，能够达到100万以上。最重要的是，故障复原的工夫显著缩短，只须要此前的几十分之一的工夫就能够实现。例如在原生ClickHouse中须要一到两个小时的复原工夫，在ByteHouse中只须要3分钟，大大提高的零碎的高可用能力，为业务提供了松软保障。

三、其余方面

除了以上两点，在ByteHouse中在其余很多方面都为高可用能力做了加强，如通过HaKafka引擎晋升了数据写入的高可用性，晋升实时数据写入的容错率，可主动切换主备写入；减少了监控运维平台，实现对要害指标的监控、告警；减少多种问题诊断工具，能实现故障的疾速定位。

对于数据分析平台来说，稳定性是重中之重。咱们对ByteHouse的高可用能力的晋升是不会进行的，在极致性能的背地，力求为用户提供最强有力的稳定性保障。

立刻跳转火山引擎ByteHouse官网理解详情

关于clickhouse:字节跳动基于ClickHouse优化实践之高可用

字节遇到的ClickHouse可用性问题

晋升高可用能力的计划

一、升高Zookeeper压力

二、晋升故障恢复能力

三、其余方面

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于clickhouse:字节跳动基于ClickHouse优化实践之高可用

字节遇到的ClickHouse可用性问题

晋升高可用能力的计划

一、升高Zookeeper压力

二、晋升故障恢复能力

三、其余方面

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复