关于hbase:HBase原理RegionServer核心组件之MemStore

HBase零碎中一张表会被程度切分成多个Region，每个Region负责本人区域的数据读写申请。程度切分意味着每个Region会蕴含所有的列簇数据，HBase将不同列簇的数据存储在不同的Store中，每个Store由一个MemStore和一系列HFile组成，如图所示。

Region构造组成

HBase基于LSM树模型实现，所有的数据写入操作首先会程序写入日志HLog，再写入MemStore，当MemStore中数据大小超过阈值之后再将这些数据批量写入磁盘，生成一个新的HFile文件。LSM树架构有如下几个非常明显的劣势：

•这种写入形式将一次随机IO写入转换成一个程序IO写入（HLog程序写入）加上一次内存写入（MemStore写入），使得写入性能失去极大晋升。大数据畛域中对写入性能有较高要求的数据库系统简直都会采纳这种写入模型，比方分布式列式存储系统Kudu、工夫序列存储系统Druid等。

•HFile中KeyValue数据须要依照Key排序，排序之后能够在文件级别依据有序的Key建设索引树，极大晋升数据读取效率。然而HDFS自身只容许程序读写，不能更新，因而须要数据在落盘生成HFile之前就实现排序工作，MemStore就是KeyValue数据排序的理论执行者。

•MemStore作为一个缓存级的存储组件，总是缓存着最近写入的数据。对于很多业务来说，最新写入的数据被读取的概率会更大，最典型的比方时序数据，80%的申请都会落到最近一天的数据上。实际上对于某些场景，新写入的数据存储在MemStore对读取性能的晋升至关重要。

•在数据写入HFile之前，能够在内存中对KeyValue数据进行很多更高级的优化。比方，如果业务数据保留版本仅设置为1，在业务更新比拟频繁的场景下，MemStore中可能会存储某些数据的多个版本。这样，MemStore在将数据写入HFile之前实际上能够抛弃老版本数据，仅保留最新版本数据。

MemStore内部结构

下面讲到写入（包含更新删除操作）HBase中的数据都会首先写入MemStore，除此之外，MemStore还要承当业务多线程并发拜访的职责。那么一个很事实的问题就是，MemStore应该采纳什么样的数据结构，既可能保障高效的写入效率，又可能保障高效的多线程读取效率？

理论实现中，HBase采纳了跳跃表这种数据结构，当然，HBase并没有间接应用原始跳跃表，而是应用了JDK自带的数据结构ConcurrentSkipListMap。ConcurrentSkipListMap底层应用跳跃表来保证数据的有序性，并保证数据的写入、查找、删除操作都能够在O(logN)的工夫复杂度实现。除此之外，ConcurrentSkipListMap有个十分重要的特点是线程平安，它在底层采纳了CAS原子性操作，防止了多线程拜访条件下低廉的锁开销，极大地晋升了多线程拜访场景下的读写性能。

MemStore由两个ConcurrentSkipListMap（称为A和B）实现，写入操作（包含更新删除操作）会将数据写入ConcurrentSkipListMap A，当ConcurrentSkipListMap A中数据量超过肯定阈值之后会创立一个新的ConcurrentSkipListMap B来接管用户新的申请，之前曾经写满的ConcurrentSkipListMap A会执行异步f lush操作落盘造成HFile。

MemStore的GC问题

MemStore从实质上来看就是一块缓存，能够称为写缓存。家喻户晓在Java零碎中，大内存零碎总会面临GC问题，MemStore自身会占用大量内存，因而GC的问题不可避免。不仅如此，HBase中MemStore工作模式的特殊性更会引起重大的内存碎片，存在大量内存碎片会导致系统看起来仿佛还有很多空间，但实际上这些空间都是一些十分小的碎片，曾经调配不出一块残缺的可用内存，这时会触发长时间的Full GC。

为什么MemStore的工作模式会引起重大的内存碎片？这是因为一个RegionServer由多个Region形成，每个Region依据列簇的不同又蕴含多个MemStore，这些MemStore都是共享内存的。这样，不同Region的数据写入对应的MemStore，因为共享内存，在JVM看来所有MemStore的数据都是混合在一起写入Heap的。此时如果Region1上对应的所有MemStore执行落盘操作，就会呈现图所示场景。

MemStore f lush产生内存条带

上图中不同Region由不同色彩示意，左边图为JVM中MemStore所占用的内存图，可见不同Region的数据在JVM Heap中是混合存储的，一旦深灰色条带示意的Region1的所有MemStore数据执行f lush操作，这些深灰色条带所占内存就会被开释，变成红色条带。这些红色条带会持续为写入MemStore的数据调配空间，进而会宰割成更小的条带。从JVM全局的视角来看，随着MemStore中数据的一直写入并且f lush，整个JVM将会产生大量越来越小的内存条带，这些条带实际上就是内存碎片。随着内存碎片越来越小，最初甚至调配不进去足够大的内存给写入的对象，此时就会触发JVM执行Full GC合并这些内存碎片。

MSLAB内存治理形式

为了优化这种内存碎片可能导致的Full GC，HBase借鉴了线程本地调配缓存（Thread-Local Allocation Buffer，TLAB）的内存治理形式，通过程序化分配内存、内存数据分块等个性使得内存碎片更加粗粒度，无效改善Full GC状况。具体实现步骤如下：

1）每个MemStore会实例化失去一个MemStoreLAB对象。

2）MemStoreLAB会申请一个2M大小的Chunk数组，同时保护一个Chunk偏移量，该偏移量初始值为0。

3）当一个KeyValue值插入MemStore后，MemStoreLAB会首先通过KeyValue.getBuffer()获得data数组，并将data数组复制到Chunk数组中，之后再将Chunk偏移量往前挪动data. length。

4）以后Chunk满了之后，再调用new byte[2 1024 1024]申请一个新的Chunk。

这种内存治理形式称为MemStore本地调配缓存（MemStore-Local AllocationBuffer，MSLAB）。下图是针对MSLAB的一个简略示意图，右侧为JVM中MemStore所占用的内存图，和优化前不同的是，不同色彩的细条带会汇集在一起造成了2M大小的粗条带。这是因为MemStore会在将数据写入内存时首先申请2M的Chunk，再将理论数据写入申请的Chunk中。这种内存治理形式，使得f lush之后残留的内存碎片更加粗粒度，极大升高Full GC的触发频率。

MemStore Chunk Pool

通过MSLAB优化之后，零碎因为MemStore内存碎片触发的Full GC次数会明显降低。然而这样的内存管理模式并不完满，还存在一些“小问题”。比方一旦一个Chunk写满之后，零碎会从新申请一个新的Chunk，新建Chunk对象会在JVM新生代申请新内存，如果申请比拟频繁会导致JVM新生代Eden区满掉，触发YGC。试想如果这些Chunk可能被循环利用，零碎就不须要申请新的Chunk，这样就会使得YGC频率升高，降职到老年代的Chunk就会缩小，CMS GC产生的频率也会升高。这就是MemStore Chunk Pool的核心思想，具体实现步骤如下：

1）零碎创立一个Chunk Pool来治理所有未被援用的Chunk，这些Chunk就不会再被JVM当作垃圾回收。
2）如果一个Chunk没有再被援用，将其放入Chunk Pool。
3）如果以后Chunk Pool曾经达到了容量最大值，就不会再接收新的Chunk。
4）如果须要申请新的Chunk来存储KeyValue，首先从Chunk Pool中获取，如果可能获取失去就反复利用，否则就从新申请一个新的Chunk。

MSLAB相干配置

HBase中MSLAB性能默认是开启的，默认的ChunkSize是2M，也能够通过参数"hbase.hregion.memstore.mslab.chunksize"进行设置，倡议放弃默认值。Chunk Pool性能默认是敞开的，须要配置参数"hbase.hregion.memstore.chunkpool.maxsize"为大于0的值能力开启，该值默认是0。"hbase.hregion.memstore.chunkpool.maxsize"取值为[0, 1]，示意整个MemStore调配给Chunk Pool的总大小为hbase.hregion.memstore.chunkpool. maxsize * Memstore Size。另一个相干参数"hbase.hregion.memstore.chunkpool.initialsize"取值为[0, 1]，示意初始化时申请多少个Chunk放到Pool外面，默认是0，示意初始化时不申请内存。

文章基于《HBase原理与实际》一书