关于数据库:数据库存储与索引技术二-分布式数据库基石LSM树

上文讲到，传统单机数据库受制于底层存储技术及扩大瓶颈，无奈满足互联网席卷而来的海量存储和并发读写事务需要。由此衍生出各类数据库扩大技术，其中以NewSQL为代表的分布式数据库多采纳LSM树用于构建底层的存储系统，对存储和读写申请的扩大都有十分好的反对。那么，LSM树到底有何独特之处？本文从利用及操作层面进行介绍。1. 概念介绍LSM-Tree 全称是 Log Structured Merge Tree，是一种分层、有序、面向磁盘的数据结构，其核心思想是充分利用磁盘的程序写性能要远高于随机写性能这一个性，将批量的随机写转化为一次性的程序写。其最早是在1996年的论文《The Log-Structured Merge-Tree (LSM-Tree)》中提出。LSM树由两个或以上的存储构造组成，比方在论文中为了不便阐明应用了最简略的两个存储构造。一个存储构造常驻内存中，称为C0 tree，具体能够是任何不便健值查找的数据结构，比方红黑树、map之类，甚至能够是跳表。另外一个存储构造常驻在硬盘中，称为C1 tree，具体构造相似B树。

在LSM树中，最低一级即最小的C0树位于内存,而更高级的C1、C2…树都位于磁盘里。数据会先写入内存中的C0树，当它的大小达到肯定阈值之后，C0树中的全副或局部数据就会刷入磁盘中的C1树，如下图所示。在理论利用中，为避免内存因断电等起因失落数据，写入内存的数据同时会程序在磁盘上写日志，相似于预写日志(WAL)，这就是LSM这个词中Log一词的来历。

1.1. BigTableLSM树在前互联网时代并未失去很好的器重，传统的关系型数据库的存储和索引构造仍然以基于页面(Page)的B+树和HashTable为主。随着互联网规模的扩充和遍及，在面对十亿级的用户接入，以及PB规模数据的写入，传统的关系型数据库曾经难以撑持。Google 2006年发表的论文《Bigtable: A Distributed Storage System for Structured Data》提出了利用LSM树在GFS上构建可线性扩大的KV零碎的计划，即赫赫有名的BigTable零碎。1.1.1. 数据模型BigTable的数据模型，每一个键值对的 Key 都为 Row key + Column key + Timestamp 的构造，Value 则是任意二进制字符串：(row:string, column:string,time:int64) -> string举一个具体的例子：比方，一个存储了大量网页及其相干信息的表 Webtable，Webtable 应用 URL 作为行名，应用网页的某些属性作为列名，网页的内容存入 contents 列中，并应用获取该网页的工夫戳标识同一个网页的不同版本。在 Bigtable 中，Webtable 的存储范例如下图所示：

BigTable引入了RowKey, ColumnFamily, ColumnKey, TimeStamp等概念来不便用户形象和治理本人的数据。其各自作用如下：Row KeyBigTable的RowKey概念与关系数据库的PrimaryKey相似，是一行数据的惟一标识。RowKey能够是任意二进制字符串，最大容量为 64KB。然而在大多数场景下，字节数只有 10～100 Bytes 左右。Bigtable 的表依照 RowKey的字典序组织数据。即BigTable表中的数据是全局有序的。Column Key 与 ColumnFamilyColumnKey相似关系数据库中的列，个别示意一种数据类型，也能够是一个简单Object序列化后的一串二进制字符串。若干个有业务含意的ColumnKey聚合在一起被称为ColumnFamily(列族)。ColumnFamily 是 access control（访问控制）、disk and memory accounting（磁盘和内存计算）的根本单元。TimeStampBigtable 中的表项能够蕴含同一数据的不同版本，采纳工夫戳进行索引。工夫戳是 64 位整型，既能够由零碎赋值也可由用户指定。工夫戳通常以 us（微秒）为单位。工夫戳既能够由 Bigtable 进行调配，也能够由客户端进行调配，如果应用程序心愿防止抵触，该当生产惟一的工夫戳。表项的不同版本依照工夫戳倒序排列（大的在前，工夫戳越大表明数据退出的工夫越晚），即最新的数据排在最后面，因此每次查问会先读到最新版本。为了简化多版本数据的治理，每个列族都有两个设置参数用于版本的主动回收，用户能够指定保留最近 N 个版本，或保留足够新的版本(如最近 7 天的内容)。1.1.2. BigTable中LSM树实现BigTable的数据模型，在概念上形象出了残缺的Table, Row, Column等概念，不便利用进行业务形象。然而在实现上，BigTable是如何何LSM树进行联合的呢？咱们后面提到，LSM是一个K-V构造的数据结构，在BigTable中，每个Table即对应一棵LSM树。BigTable通过分隔符(这里假设为”:”)，将Rwo, ColumnFamily, ColumnKey, TimeStamp组合成一个Key，由此来索引对应的Value值，即RowKey:ColumnFamily:ColumnKey:TimeStamp->ValueBigTable中即以这种格局的K-V数据对LSM树进行读写：

如上图的BigTable的LSM树实现中，提出了MemoryTable和SSTable的概念。在原始的BigTable论文中，只提到了这两种数据结构的作用，并未具体介绍其实现。2011年Google开源了基于LSM树的单机K-V引擎LevelDB，其中蕴含了MemoryTable和SSTable的具体实现：MemoryTable，即对应LSM树论文中的C0 Tree，在LevelDB中被分为了能够随时批改(插入/删除)的MemTable，以及不可变的Immutable MemTable。当MemTable数据写满之后(通常是看占用内存超过肯定Quota之后)，将MemTable固化成SSTable格局并常驻内存中。SSTable，即对应LSM论文中的C1, C2, …, Ck Tree。LevelDB中每个SSTable大小根本固定(2M)，SSTable中的数据依照Key进行排序，每一层的SSTable都是依照Key全局有序的。当内存中的Immutable MemTable太多零碎须要开释内存时，此时会将Immutable MemTable的数据写入到第一层的SSTable磁盘并与第一层的已有SSTable进行合并，从而保障C1层的所有SSTable是全局有序的。磁盘上的每一层的SSTable达到肯定Size之后都会与下一层的SSTable进行合并。1.2. LSM树在分布式数据库中的利用之所以称LSM树是各类分布式数据库的基石，是因为自从2011年Google开源LevelDB之后，各类分布式NewSQL数据库，根本都是基于LSM树来构建其存储系统的，有些甚至间接基于LevelDB的改良开源版版RocksDB来构建的。

以开源的TiDB为例(TiDB开源且文档齐全，所以以它为例)，其是在开源的RocksDB根底上，加上本人开发实现的Multi-Raft协定，将TiDB的存储层对立封装成了独立的KV存储服务TiKV。TiDB的SQL/事务层(TiDB Server)是无状态的，能够和TiKV分别独立扩容。

比照蚂蚁的OceanBase，则是将LSM树结构和数据库其余外围性能实现在了一个繁多的利用OBServer中。这样的益处是存储层和下层性能能够更好的进行整合和优化，对本地数据的拜访能够缩小一次RPC申请。与TiDB相比，则就义了一部分灵活性(TiDB能够独自就计算或者存储扩容，OB只能整体扩容)。

LSM树各类操作LSM树将任何的对数据操作都转化为对内存中的Memtable的一次插入。Memtable能够应用任意内存数据结构，如HashTable，B+Tree，SkipList等。对于有事务管制须要的存储系统，须要在将数据写入Memtable之前，先将数据写入长久化存储的WAL(Write Ahead Log)日志。因为WAL日志是程序Append到长久化存储的，因而无论对磁盘还是SSD都是十分敌对的。
2.1. 数据变更LSM树反对常见的变更操作，插入，删除，更新。常见的实现里，为了对立变更的数据结构标识，往MemTable里写入的除了<Key, TimeStamp, Value>三元组外，还会带上操作的类型。所有的变更操作并不间接批改磁盘上的数据，而只是将变更写入MemTable。因而数据变更除了WAL日志一次程序IO之外，没有额定的任何随机IO，插入效率十分高。通常MemTable的大小无限，当MemTable占用的内存超过肯定大小或者内存比例之后，LSM须要将以后的MemTable先解冻为Immutable MemTable，而后通过后盾线程将其长久化为SSTable到内部存储。长久化的过程中，会创立一个新的MemTable用于接管新的数据变更，Immutable Memtable则变成只读的。长久化过程在不同实现中不一样，有的实现会简略的将其写入磁盘，有的则会与磁盘上已有的SSTable进行合并。当长久化实现之后，Immutable MemTable的内存将会被开释。2.2. 数据读取2.2.1. 点查数据读取分为点查或者范畴查问。点查即针对单行数据进行查问，如常见的SQL语句：select id, name, grade, score from student where id = ‘3042111009’;咱们假设这里id字段即是要查问的LSM树的Key，那么点查问将会是如下过程：

在不思考SSTable缓存的状况下，一次点读查问的代价是若干次内存查问 + n次磁盘IO，其中n是磁盘上的SSTable层数。能够看到，LSM树一次数据变更只须要一次内存插入即可，而一次点查问却须要若干次磁盘IO。2.2.2. 范畴查问范畴查问则是针对某一个范畴的数据进行查问，如针对某个用户的10月份历史生产账单的数据查问：select * from user_bill where id = ‘3042111009’ and date >= ‘2021-10-01’ and date <= ‘2021-10-31’;范畴查问依据表的查问Key的范畴区间[StartKey, EndKey]，通常会先对StartKey在LSM树上逐层做LowerBound查问，即每一层上找到大于或等于StartKey的数据的起始地位。因为LSM树每一层都是有序的(内存中的MemTable如果是无序的Hash表则须要全副遍历)，只须要从这个起始地位开始读取数据，直到读取到EndKey为止。2.3. 数据合并(Compaction)随着LSM树中写入数据的增多，一直的有MemTable被写入到磁盘上的作为SSTable存储。随着数据写入一直增多，转储的SSTable也会越来越多。然而太多SSTable会导致数据查问IO次数增多，因而后盾尝试着一直对这些SSTable进行合并，这个合并过程称为Compaction。Compaction是LSM树实现中最简单的局部，因为其继续对IO以及CPU资源的应用，会对系统的负载造成很大影响，影响下层业务的稳定性。业内也有很多不同的Compaction策略尝试缓解这一问题，这将在下篇文章《LSM树实现案例》中具体介绍。目前支流的LSM树实现，其Compaction分为两类：Minor Compaction和Major Compaction。

2.3.1. Minor CompactionMinor Compaction顾名思义，即代价较小的Compaction，很多实现里，这步操作次要就是将内存中的Immutable MemTable作为SSTable写入到磁盘。理论并不做磁盘上的SSTable之间的合并。因而在这种实现下，磁盘上的第一层SSTable，即C1层的SSTable之间，相互是可能会有数据重叠的。读取查问的时候须要将C1层的所有SSTable都读取能力进行正确查问。2.3.2. Major CompactionMajor Compaction的触发策略可能有多种，如某一层的数据达到肯定的阈值，也可能是用户手动触发等。因为Major Compaction代价比拟大，不同的实现里都有不同的触发策略。其次要的作用即是在和层之间进行Merge Sort，将两层的数据归并到，去除删除或者旧版本的数据，保障同一层的数据之间是齐全有序的。3.小结本文讲述了LSM树的历史、基本概念和各种重要操作，以及Google在此基础上的一系列开创性的奉献，如LevelDB、BigTable、Spanner等。下一篇文章咱们将以OceanBase v3.x为例，重点介绍LSM树OceanBase中的实现和利用。参考文献1. LSM树及BigTableLSM论文1996：https://www.cs.umb.edu/~poneil/lsmtree.pdfLSM树综述：https://zhuanlan.zhihu.com/p/351241814深入浅出LevelDB：https://mrcroxx.github.io/categories/%E6%B7%B1%E5%85%A5%E6%B5…格局参考：https://cloud.tencent.com/developer/article/1328762BigTable论文2006:https://static.googleusercontent.com/media/research.google.co…树综述：https://zhuanlan.zhihu.com/p/351241814深入浅出LevelDB：https://mrcroxx.github.io/categories/%E6%B7%B1%E5%85%A5%E6%B5… 分布式数据库Spanner论文(2012): https://static.googleusercontent.com/media/research.google.co…论文(2017):https://static.googleusercontent.com/media/research.google.co… Spanner论文解读:https://cloud.tencent.com/developer/article/1131036TiDB整体架构：https://docs.pingcap.com/zh/tidb/stable/tidb-architectureTiDB存储架构：https://docs.pingcap.com/zh/tidb/stable/tidb-storageTiDB博客全系列：https://pingcap.com/zh/blog/OB数据库存储架构：https://www.oceanbase.com/docs/oceanbase-database/oceanbase-d…数据存储管理：https://www.oceanbase.com/docs/oceanbase-database/oceanbase-d…数据库压缩个性：https://zhuanlan.zhihu.com/p/49161275OB存储引擎详解：https://www.modb.pro/db/137286OB博客文章全系列：https://open.oceanbase.com/articles

关于数据库:数据库存储与索引技术二-分布式数据库基石LSM树

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:数据库存储与索引技术二-分布式数据库基石LSM树

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复