关于javascript:Tair持久存储系列技术解读

简介： 阿里云数据库重磅公布自研Tair长久存储系列的产品突破了传统Redis中的数据只能在易失性存储上进行读写的刻板印象，针对客户不同业务阶段的数据存储要求与服务老本考量，全新实现了持久性更强、老本更低的KV数据库。

Redis做为当今支流的内存数据库反对许多丰盛的数据结构，比方哈希表、汇合，还有lua脚本、事务、音讯订阅等等高级个性，同时应用内存做为次要的存储介质，反对高速拜访。

然而因为其数据全副存储在内存，老本较高，而且对于海量数据存储的反对也存在一些痛点，比方在AOFREWRITE和生成RDB快照时会有较高的latency spike，大数据量下全量同步耗时较长、失败率较高。并且数据可靠性稍弱，RDB和AOF不能保证数据不失落。

为了解决上述问题，拓宽Redis的利用场景，咱们联合新技术新硬件推出了Tair长久存储系列产品：容量存储型和长久内存型，反对大容量存储和更高的数据可靠性。

>>发布会传送门

点击理解产品详情

容量存储型

应用磁盘存储就是其中的解决方案之一，利用磁盘能够降低成本并且提供海量存储。然而在磁盘上实现redis也会有一些挑战：

1.首先redis的数据结构都是基于内存实现，内存能够间接寻址，而磁盘是个块设施，须要在磁盘上构建存储引擎来反对redis数据结构拜访。

2.另外磁盘和内存有较大的性能差距，原生redis单线程的架构无奈满足吞吐需要，须要从架构设计上晋升拜访性能。

应答这些挑战，咱们基于rocksdb进行了革新，提供了高性能的存储引擎TairDB，并实现了redis数据结构向简略kv的编码映射，使redis数据可能存储在磁盘上；采纳多线程的架构来晋升拜访磁盘的性能；同时应用阿里云ESSD高效云盘为存储底座，利用云盘快照进行备份和全量同步，防止fork带来的问题并进步全量同步效率。

redis有五种根本数据类型，其中string能够间接映射到rocksdb的kv，然而其余一些简单的数据结构hash、list、set、zset须要通过肯定格局的编码把redis的数据结构映射到rocksd的kv上。

咱们把redis数据结构拆分为meta和data两类，进行不同的编码，通过meta能够去找到其对应的data，也即二级索引。

以hash为例，执行hset myhash myfield myvalue之后，hash表的名字myhash就会在meta中生成一份kv，其中key就是myhash，value会标记它的属性为hash表；myfield和myvalue会记录在data中，再以key+类型+filed就能够索引到hash表的所有内容。

为了实现多线程架构，首先须要解决key抵触的问题，这里咱们实现了key级别的锁，这样能够大大降低锁抵触，进步并发度。命令执行过程中多个线程首先获取key锁，而后按命令的逻辑执行，通过事后设计好的编码规定存取数据。最初再把后果以事务的形式提交给底层存储引擎。每个命令的执行都是要在事务提交之后才会返回后果，这样每一条命令都是长久化的，大大晋升了数据可靠性。

对于主备复制，全量复制应用云盘快照提高效率。增量复制采纳相似MySQL binlog的形式，事务提交之后同时也会写入binlog，而后会有sender把binlog传输给备库，binlog传输到备库上时会首先保留为relaylog作为中继，而后通过relaylog再回放利用，这样有两点益处：

1.反对semisync，只有relaylog落盘就能够认为事务在备库也提交实现，不必期待relaylog利用，这样既能够晋升增量同步的效率，同时提供了更强的主备一致性保障。

2.反对并发回放，在relaylog中记录并发度的元信息，不同的key就能够进行并发回放提高效率，同时雷同的key依然按序回放，保障主备一致性，不会造成数据错乱。

上图为不同类型场景和实例规格下的性能测试后果，测试命令为工夫复杂度O(1)的GET/SET，综合性能中位数在开源版70%。

在数据小于内存的状况下大部分数据都会缓存在操作系统的page cache中，整体性能会优于数据大于内存的状况。规格越高的实例线程越多并发度也就越高，性能也绝对越好。另外不同于内存中的GET/SET，磁盘上写入数据须要有read modify write的过程，也即须要先读取元数据能力进行批改，所以对于GET/SET写性能要弱于读性能。

长久内存型

傲腾长久内存是Intel推出的一款非易失性内存产品，在提供靠近内存延时能力的同时放弃长久化的能力，现实状况下对于Redis场景来说是十分好的，因为数据写入到长久内存中曾经长久化，那么就不须要额定的日志和Checkpoint用来保障长久化的个性，同时傲腾长久内存在提早上也比拟靠近内存优于传统SSD，老本上比照内存也更加的便宜。

Redis基于傲腾长久内存能达到高性能的同时领有较高的长久化能力，然而理论在工程实现会碰到十分大的挑战，包含：

1.须要应用长久化内存的分配器来代替原有的内存分配器，分配器的元数据信息须要长久化，否则在复原的时候会造成内存的泄露或者不统一。
2.本来String，Set，Hash这些数据结构和索引在异样的时候全副生效在复原的时候重建，而当初这些数据都是长久化的，如何反对设计长久化的数据结构是目前工业界和理论界次要的钻研方向之一
3.索引和数据的一致性，数据的完整性，这些都会在下一张NVM的挑战中做更具体的阐释
4.长久内存在延时还是比内存更高，如何做好冷热拆散，让零碎领有更高的性能。
5.如何领有高性能的同时兼备弱小的长久化能力。

长久内存的应用分为两大类Memory Mode和 AppDirecrt Mode, memory mode无需用户革新然而没有长久化内里，应用App Direct mode之后比照传统SSD从block寻址转为字节寻址，同时接口也从文件write/read转为内存的load和store。

数据写入内存的过程可能会停留在CPU L1，L2cache，须要调用相似CLWB和CLFLUSHOPT这样的指令来刷到内存零碎中，因为CPU只能保障8个字节的原子写入，那么对于一个16字节的写很有可能在写完第一个8字节的时候crash，后半局部没有写入胜利这个就是所谓的partial writes，下层利用在应用长久内存的时候须要额定的实现来保障数据长久问题。

上面的例子是一个双向链表，传统内存crash之后所有的数据失落，而长久内存则保留了crash的状态，因而会呈现B的Next指针指向了C而C的Prev指针缺没有指向B，这个时候的双向链表是出于异样的状态。从链表衍生开来内存分配器中的治理构造也存在这个问题，会呈现内存泄露等状况。

因为长久化的挑战，目前支流应用长久内存的形式都是当做Memory或者应用AppDirect然而不反对长久化，阿里云Tair长久内存版的是基于傲腾长久内存的自研引擎，解决了长久化编程中遇到的各种挑战，撘配阿里云官网提供的Linux操作系统镜像Aliyun Linux，Aliyun弹性计算服务首次（寰球首家）在神龙裸金属服务器上引入傲腾长久内存，深度优化欠缺反对，为客户提供平安、稳固、高性能的体验。

阿里云长久内存版Tair的每一条记录都确保写入AEP并且长久化才返回，极大的晋升数据的可靠性，同时在读取门路上应用Dram缓存如索引等热点数据结构和元数信息，来减速数据拜访的存取。

在神龙裸金属机器上，咱们应用雷同配置进行了Tair长久内存版和Redis6.0的性能比照，整体上吞吐为社区内存版本的90%，延时上因为没有AofRewrite的烦扰，P95的延时更加的稳固。

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于javascript:Tair持久存储系列技术解读

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于javascript:Tair持久存储系列技术解读

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复