前言:
本文依据华为云NoSQL数据库架构师余汶龙,在往年的中国零碎架构师大会SACC上的演讲整顿而成,内容如下。
本次分享的纲要分成如下四个局部:
- 什么是GaussDB(for Redis)?
- 为什么抉择存算拆散
- 设计与实现
- 竞争力总结
什么是GaussDB(for Redis)
1.1 开源Redis有哪些毛病?
要答复什么是GaussDB(for Redis)(下文简称高斯Redis)的问题,首先要从背景讲起。开源Redis是个十分好的KV缓存,但随着各种业务的蓬勃发展,数据规模、吞吐规模、业务复杂度的一直回升,开源Redis暴露出诸多问题:
1.AOF收缩问题
开源Redis的定位是缓存,但为了满足业务的宕机数据疾速复原,减少了AOF日志来实现肯定的长久化性能。惋惜在Redis的设计里,并没有一个转储文件机制来耗费AOF,而是通过AOF重写,来一直的去重合并旧日志。而该重写机制须要一次fork调用,该调用会带来内存翻倍、性能阻塞等问题。
2.快照备份问题
随着业务对Redis的依赖越来越重,数据备份也变得十分重要。家喻户晓,Redis架构并非MVCC构造,因而想要备份数据,不免须要乐观锁定之后,拷贝内存数据。不过Redis作者设计了一个copy on write的计划,即调用fork,创立出子过程进行数据拷贝,防止了用户态加锁。然而,这个过程其实会在内核侧加锁,仍然会给业务性能带来显著抖动。
3.主从脱节问题
开源Redis采纳主从高可用架构,数据采纳异步模式传输。因而主宕机之后,很容易造成数据失落或不统一。此外,当主节点写入压力较大时,单线程的主从复制很可能无奈追平增量数据,就会导致buffer沉积,进一步还可能呈现写失败甚至OOM的劫难。尽管Redis可能通过长期生成快照并同步大文件,来尝试追平主从微小差别,但如前文所述,此时又会引发fork系列问题。
4.fork问题
fork其实是个十分重的零碎调用,尽管是写时拷贝,然而通常也会给他预留一倍的内存。fork工作时还须要加锁拷贝过程页表等信息,对业务的影响十分之大。上述3个问题的背地都有fork的因素,通常须要DBA采纳敞开主节点AOF、敞开主节点备份等简单运维伎俩来防止。但在主从频繁切换、节点数很多的场景下,运维是十分艰难的。甚至在主从脱节场景,实践上毫无办法躲避。
5.容量问题
开源Redis不适宜大规模应用,有两个重要因素限度了其扩展性。首先是fork限度了Redis的垂直扩大能力(Scale Up),数据量越大,fork越慢,对业务的影响就越大,因而单个Redis过程可承载的数据量十分无限。其次,低效率的gossip集群治理限度了其程度扩大能力(Scale Out):因为节点数越多,其故障发现的工夫越长,并且外部通信的网络风暴成几何级数减少,导致大集群简直不可用。
1.2 业界有哪些解决办法?
以上就是各大企业在开源Redis的生产实践中,实在碰到的经典问题。这些问题限度了开源Redis的大规模利用。因而,近年来业界提出了十分多的解决方案,见下图。
实质上,Redis是一种KV存储,依照场景其实能够进一步划分为两大阵营:缓存与长久化。
缓存场景:个别用来寄存秒杀、热点事件的数据。比方微博热搜,这类数据是有有效期的,而且可丢。
长久化场景:在用Redis做缓存的时候,因为其接口简略、功能丰富,大家必然心愿将更多重要数据也长久化寄存到Redis,比方历史订单、特色工程、地位坐标、机器学习等。这类数据的数据量往往很大、有效期也很长、个别不可丢。
缓存场景比较简单就是开源Redis,长久化场景业界已有十分多自研产品,比方360的ssdb/pika,阿里的tair,腾讯的tendis,当然华为云的高斯Redis也属于自研的长久化Redis。
这里也补充另一个做长久化的理由,从老本思考,256G内存条价格比256G的SSD磁盘高了将近30倍,在可用容量上也有微小差别。
1.3 华为云数据库的解法是啥?
华为云数据库团队汲取开源Redis的教训,抉择了自研长久化Redis,即明天分享的配角——高斯Redis。它的一句话定位是:反对Redis协定的NoSQL数据库,而不是缓存。它有两个跟业界齐全不一样的个性:
- 存算拆散。高斯Redis基于华为外部自研分布式存储DFV,提供弱小的数据存储能力,包含强统一、弹性扩缩容等高级个性。DFV为何物?它是华为全栈数据服务的基石,比方文件EVS、对象OBS、块存储,还有数据库族、大数据族,都依赖于此,能够设想它的弱小及稳定性。
- 多模架构。实际上高斯Redis是多模数据库Gauss NoSQL的一员,Gauss NoSQL提供了全栈的分布式KV引擎、用户态文件系统、存储池等技术,只须要在接口上封装Redis协定,即可轻松实现一个全新的NoSQL产品。相似的,咱们还提供了MongoDB、Cassandra、InfluxDB等NoSQL引擎。
2. 为什么抉择存算拆散?
在云原生概念铺天盖地的明天,数据库也逐渐走向云原生,而它的云原生有一个重要特点就是存算拆散。存算拆散也代表了数据库上云的最新趋势。
第一代数据库服务:通过下图能够看到,传统IDC建设时,数据库架设在裸金属之上,因为数据库服务的敏感特殊性,DBA或者研发须要关怀机型的抉择、磁盘Raid阵列、组网,甚至洽购等诸多事项。
第二代数据库服务:随着虚拟化技术的遍及,应用型业务大量上云,数据库也开始上云搬迁,最简略的方法是在虚拟机或容器中运行一个数据库服务即可。这样做的长处很显著,但毛病有两个:一个是通用云盘都是3正本,加上数据库下层的多正本,资源节约重大;另一个是备机资源节约,平时无奈提供服务。除此以外还有云盘IO性能等问题存在。
第三代数据库服务:基于存算拆散架构,将数据库服务分成CPU密集的计算层和IO密集的存储层。数据的正本治理齐全交给存储层,计算层实现无状态转发,既能施展云的弹性劣势,又能全负荷分担。不过毛病也很显著,即基于旧架构革新难度大。
采纳存算拆散架构之后,数据库服务就是个分而治之的思维:计算层负责服务化、产品化的各种解决,全程无状态;而存储层,就专一于数据自身的保护,包含正本、容灾、硬件感知、扩缩容等等。
3. 设计与实现
接下来讲整体设计与实现,首先是软件架构。高斯Redis计算层的模块如下,次要有cfgsvr、proxy、datanode。连贯计算与存储资源的有RocksDB和GeminiFS(自研用户态文件系统),别离负责将kv数据转成sst文件和负责将sst文件下推到DFV的对象存储池中。
接下来是组网设计。一个租户申请的数据库资源,被咱们以反亲和的形式,散布在不同的物理机容器上,都属于同一个租户的雷同VPC下。不同用户的数据库资源尽管也有可能共享同一台物理机,然而因为VPC隔离,保障了数据隔离。另外,计算层的数据库资源是独占容器的,而存储层资源是共享物理硬件的。
接下来解读容灾架构。既然高斯Redis定位是数据库而不是缓存,那它看待数据的态度是庄重的:既实现了region内的3AZ容灾,也提供了跨Region的容灾。
Region内的容灾,实现了一个容忍AZ级故障的高可用计划。在此故障下,数据仍然放弃强统一状态,这对企业级利用提供了十分弱小的数据安全保障。这套架构的可靠性指标能够满足RPO为0,RTO小于10s的规范。
具体的实现原理是,依赖DFV的3正本强统一复制能力,计算层也做3AZ的反亲和部署。当用户的一条数据通过proxy写到datanode1上,datanode1通过GeminiFS的用户态文件系统,调用DFV的SDK找到一个local az的DFV存储节点,和一个间隔最近remote az的DFV存储节点,组成多数派,写胜利后即返回给用户。这样的架构下,不论是计算还是存储的AZ级故障,都对数据的安全性没有任何影响。
接下来持续讲跨Region级别的容灾。高斯Redis除了提供上述3AZ的强统一计划以外,还提供跨Region级别的容灾,也就是两个实例间的异步容灾。这套计划里,咱们减少了一个Rsync-Server的模块,用来订阅主实例上新增的日志,再把日志反解编码成相应的格局,转发给对端的备实例,由备实例回放即可。这套计划,能够实现双向同步、断点续传、抵触解决等等。其中抵触解决,针对不同的Redis数据结构,采纳不同的解决算法,保障最终一致性。
4. 竞争力总结
最初一节是对高斯Redis的劣势总结,次要包含:强统一、高可用、冷热拆散、弹性伸缩、高性能。
首先是强统一个性。
这一点次要受害于DFV的3正本机制,因而写入高斯Redis的数据,在客户端收到回复时,数据就已是3正本强统一的。强统一能力对业务实现十分敌对,不须要忍耐数据的不统一、不须要校验数据。而开源Redis数据采纳异步复制,因而主从之间总是有个差别buffer,如果掉电,这部分数据就会失落,且在大压力写的时候,还会产生buffer沉积,重大的时候,会导致OOM。因而,高斯Redis的强统一是个十分重要的特点,能为业务提供前后一致的状态,不必放心开源Redis主从切换后的数据一致性问题和失落问题。
第二个个性是高可用。
高可用是数据库的根本能力,这里之所以要再次强调,是因为高斯Redis的可用性跟其余数据库不同,它做到了可承受N-1个节点故障。实现原理受害于共享存储DFV:当某一个计算节点产生故障挂掉,其保护的slot路由信息,会被剩下的节点主动接管。因为不波及底层数据的迁徙,这个接管过程十分快。以此类推,能够承受N-1个节点故障,且不影响全副数据的读写。当然,计算节点缩小会对性能造成肯定影响。
第三个个性是冷热拆散。
开源Redis的一个经典应用场景是配合MySQL做冷热拆散,但这须要业务实现代码负责实现冷热数据交换,并保护其一致性,这个交付逻辑比较复杂。而高斯Redis实现了它本人的冷热拆散,即用户刚写入的和常常拜访的数据,都被当做热数据加载到内存中,而非频繁拜访的数据则会被淘汰到长久化存储中。因而应用了高斯Redis的业务,不再须要从业务层写代码保护冷热替换逻辑,并且能够失去更好的一致性。
第四个个性是弹性伸缩。
采纳存算拆散之后的高斯Redis,能够做到按需扩容,即计算不够扩计算,存储不够扩存储。计算资源的扩容也很简略,后面曾经提到,这个过程其实不波及数据的拷贝搬迁,只波及到元数据的批改,即把相应的slot路由信息(不超过1MB)迁徙到新增的节点上即可实现,因而速度是十分快的,秒级实现。而存储资源的扩容更简略,因为底层采纳共享存储,大多数状况进行逻辑扩容,这只须要用户在管制台上批改配额即可实现,不波及到任何数据的搬迁和拷贝。当然也有碰到物理扩容的情景,这种情景个别是咱们运维提前发现警戒水位,在这之前做平滑的迁徙扩容,该过程对用户通明无感知。
第五个个性是高性能。
存算拆散的架构看似比拟重,链路比较复杂,实则在硬件采纳、软件优化上,能够做的更大胆更激进,比方RDMA网络、用户态协定、长久化内存等等。因而受害于这些专属的存储设备,加上咱们的计算层全负荷分担架构(不引入从节点,因而性能轻松翻倍),在比照友商的数据量大于内存的存储场景下,咱们的性能体现很好。另外,比照开源Redis,在数据小于内存的点查场景下,咱们的性能也有很大劣势,当然范畴查问还待优化中。
5. 结束语
以上就是本次分享的对于高斯Redis的全部内容,更多内容请参考高斯Redis官网博客:官网博客 和高斯Redis官网首页:官网首页 。
点击关注,第一工夫理解华为云陈腐技术~