关于influxdb:InfluxDB-存储引擎的演化

InfluxDB的存储引擎，通过3次的演变，最终应用基于LSM-Tree的TSM Tree计划:

LSM Tree(LevelDB)-->mmap B+Tree(BoltDB)-->TSM Tree(tsm)

LSM-Tree：Log Structured Merge Tree
常见的业务场景分两类：

LSM-Tree的核心思想是充分利用磁盘的程序写性能远高于随机写这一个性，将批量的随机写转化为一次性的程序写。LevelDB是LSM-Tree的一种实现。

因为写多读少并且是按工夫程序写的个性，使得InfluxDB非常适合LSM-Tree；然而InfluxDB在集成LevelDB中遇到了一些问题：

不反对热备份：须要停机备份；
过期数据的批量删除反对不好：因为LSM-Tree的删除操作代价较高
- 为了解决这个问题，InfluxDB依据工夫将数据分为多个shard，每个shard作为一个LevelDB存储，过期时可间接删除Shard;
- 随机数据量的减少，InfluxDB创立了越来越多的LevelDB数据库，产生大量的SSTable file，占用了大量的文件句柄，常常报错；

BoltDB是mmap B+Tree的一种实现，它将每个数据库存储为1个文件，解决了LevelDB文件句柄有余的问题。

应用mmap B+Tree取得了较好的读性能，然而写性能经常出现高IOPS：

TSM-Tree: Time Structured Merge Tree
InfluxDB最终回归LSM-Tree，对其进行优化，转化为本人的数据引擎TSM-Tree：

TSM-Tree实质还是LSM-Tree，InfluxDB对数据查问、数据合并压缩、数据革除做了优化；
对数据查问：减少了数据索引和布隆过滤器以放慢查问速度；
- 数据索引：包含元数据索引、TSM File索引；
- 布隆过滤器：疾速判断TSM File中是否蕴含特定的seriesKey；
对数据压缩：依据不同的数据类型，采纳不同压缩算法；
对数据革除：由shard存储一段时间内的数据，过期间接删除shard;

参考：
1.https://wingsxdu.com/post/dat…
2.https://docs.influxdata.com/i…

评论