关于hbase:HBase原理HBase读取流程

和写流程相比，HBase读数据的流程更加简单。次要基于两个方面的起因：一是因为HBase一次范畴查问可能会波及多个Region、多块缓存甚至多个数据存储文件；二是因为HBase中更新操作以及删除操作的实现都很简略，更新操作并没有更新原有数据，而是应用工夫戳属性实现了多版本；删除操作也并没有真正删除原有数据，只是插入了一条标记为"deleted"标签的数据，而真正的数据删除产生在零碎异步执行Major Compact的时候。很显然，这种实现思路大大简化了数据更新、删除流程，然而对于数据读取来说却意味着套上了层层桎梏：读取过程须要依据版本进行过滤，对曾经标记删除的数据也要进行过滤。

本节系统地将HBase读取流程的各个环节串起来进行解读。读流程从头到尾能够分为如下4个步骤：Client-Server读取交互逻辑，Server端Scan框架体系，过滤淘汰不合乎查问条件的HFile，从HFile中读取待查找Key。其中Client-Server交互逻辑次要介绍HBase客户端在整个scan申请的过程中是如何与服务器端进行交互的，了解这点对于应用HBase Scan API进行数据读取十分重要。理解Server端Scan框架体系，从宏观上介绍HBase RegionServer如何逐渐解决一次scan申请。接下来的大节会对scan流程中的外围步骤进行更加深刻的剖析。

Client-Server读取交互逻辑

Client-Server通用交互逻辑在之前介绍写入流程的时候曾经做过解读：Client首先会从ZooKeeper中获取元数据hbase:meta表所在的RegionServer，而后依据待读写rowkey发送申请到元数据所在RegionServer，获取数据所在的指标RegionServer和Region（并将这部分元数据信息缓存到本地），最初将申请进行封装发送到指标RegionServer进行解决。

在通用交互逻辑的根底上，数据读取过程中Client与Server的交互有很多须要关注的点。从API的角度看，HBase数据读取能够分为get和scan两类，get申请通常依据给定rowkey查找一行记录，scan申请通常依据给定的startkey和stopkey查找多行满足条件的记录。但从技术实现的角度来看，get申请也是一种scan申请（最简略的scan申请，scan的条数为1）。从这个角度讲，所有读取操作都能够认为是一次scan操作。

HBase Client端与Server端的scan操作并没有设计为一次RPC申请，这是因为一次大规模的scan操作很有可能就是一次全表扫描，扫描后果十分之大，通过一次RPC将大量扫描后果返回客户端会带来至多两个十分重大的结果：

•大量数据传输会导致集群网络带宽等系统资源短时间被大量占用，重大影响集群中其余业务。

•客户端很可能因为内存无奈缓存这些数据而导致客户端OOM。

实际上HBase会依据设置条件将一次大的scan操作拆分为多个RPC申请，每个RPC申请称为一次next申请，每次只返回规定数量的后果。上面是一段scan的客户端示例代码：

public static void scan(){    HTable table=... ;    Scan scan=new Scan();    scan.withStartRow(startRow)        //设置检索起始row        .withStopRow(stopRow)        //设置检索完结row        .setFamilyMap (Map<byte[]，Set<byte[]>familyMap>)        //设置检索的列簇和对应列簇下的列汇合        .setTimeRange(minStamp，maxStamp)        //设置检索TimeRange        .setMaxVersions(maxVersions)        //设置检索的最大版本号        .setFilter(filter)        //设置检索过滤器    scan.setMaxResultSize(10000);    scan.setCacheing(500);    scan.setBatch(100);    ResultScanner rs=table.getScanner(scan);    for (Result r : rs){        for (KeyValue kv : r.raw()){        ......        }    }}

其中，for (Result r : rs)语句理论等价于Result r=rs.next()。每执行一次next()操作，客户端先会从本地缓存中查看是否有数据，如果有就间接返回给用户，如果没有就发动一次RPC申请到服务器端获取，获取胜利之后缓存到本地。

单次RPC申请的数据条数由参数caching设定，默认为Integer.MAX_VALUE。每次RPC申请获取的数据都会缓存到客户端，该值如果设置过大，可能会因为一次获取到的数据量太大导致服务器端/客户端内存OOM；而如果设置太小会导致一次大scan进行太屡次RPC，网络老本高。

对于很多非凡业务有可能一张表中设置了大量（几万甚至几十万）的列，这样一行数据的数据量就会十分大，为了避免返回一行数据但数据量很大的状况，客户端能够通过setBatch办法设置一次RPC申请的数据列数量。

另外，客户端还能够通过setMaxResultSize办法设置每次RPC申请返回的数据量大小（不是数据条数），默认是2G。

Server端Scan框架体系

从宏观视角来看，一次scan可能会同时扫描一张表的多个Region，对于这种扫描，客户端会依据hbase:meta元数据将扫描的起始区间[startKey, stopKey)进行切分，切分成多个相互独立的查问子区间，每个子区间对应一个Region。比方以后表有3个Region，Region的起始区间别离为：["a", "c")，["c", "e")，["e","g")，客户端设置scan的扫描区间为["b", "f")。因为扫描区间显著逾越了多个Region，须要进行切分，依照Region区间切分后的子区间为["b", "c")，["c","e")，["e", "f ")。

HBase中每个Region都是一个独立的存储引擎，因而客户端能够将每个子区间申请别离发送给对应的Region进行解决。下文会聚焦于单个Region解决scan申请的外围流程。

RegionServer接管到客户端的get/scan申请之后做了两件事件：首先构建scanneriterator体系；而后执行next函数获取KeyValue，并对其进行条件过滤。

1. 构建Scanner Iterator体系

Scanner的外围体系包含三层Scanner：RegionScanner，StoreScanner，MemStoreScanner和StoreFileScanner。三者是层级的关系：

•一个RegionScanner由多个StoreScanner形成。一张表由多少个列簇组成，就有多少个StoreScanner，每个StoreScanner负责对应Store的数据查找。

•一个StoreScanner由MemStoreScanner和StoreFileScanner形成。每个Store的数据由内存中的MemStore和磁盘上的StoreFile文件组成。绝对应的，StoreScanner会为以后该Store中每个HFile结构一个StoreFileScanner，用于理论执行对应文件的检索。同时，会为对应MemStore结构一个MemStoreScanner，用于执行该Store中MemStore的数据检索。

须要留神的是，RegionScanner以及StoreScanner并不负责理论查找操作，它们更多地承当组织调度工作，负责KeyValue最终查找操作的是StoreFileScanner和MemStoreScanner。三层Scanner体系能够用图示意。

Scanner的三层体系

结构好三层Scanner体系之后筹备工作并没有实现，接下来还须要几个十分外围的关键步骤，如图所示。

Scanner工作流程

1）过滤淘汰局部不满足查问条件的Scanner。StoreScanner为每一个HFile结构一个对应的StoreFileScanner，须要留神的事实是，并不是每一个HFile都蕴含用户想要查找的KeyValue，相同，能够通过一些查问条件过滤掉很多必定不存在待查找KeyValue的HFile。次要过滤策略有：Time Range过滤、Rowkey Range过滤以及布隆过滤器，下图中StoreFile3查看未通过而被过滤淘汰。

2）每个Scanner seek到startKey。这个步骤在每个HFile文件中（或MemStore）中seek扫描起始点startKey。如果HFile中没有找到starkKey，则seek下一个KeyValue地址。HFile中具体的seek过程比较复杂。

3）KeyValueScanner合并构建最小堆。将该Store中的所有StoreFileScanner和MemStoreScanner合并造成一个heap（最小堆），所谓heap实际上是一个优先级队列。在队列中，依照Scanner排序规定将Scanner seek失去的KeyValue由小到大进行排序。最小堆治理Scanner能够保障取出来的KeyValue都是最小的，这样顺次一直地pop就能够由小到大获取指标KeyValue汇合，保障有序性。

2. 执行next函数获取KeyValue并对其进行条件过滤
通过Scanner体系的构建，KeyValue此时曾经能够由小到大顺次通过KeyValueScanner取得，但这些KeyValue是否满足用户设定的TimeRange条件、版本号条件以及Filter条件还须要进一步的查看。查看规定如下：

1）查看该KeyValue的KeyType是否是Deleted/DeletedColumn/DeleteFamily等，如果是，则间接疏忽该列所有其余版本，跳到下列（列簇）。

2）查看该KeyValue的Timestamp是否在用户设定的Timestamp Range范畴，如果不在该范畴，疏忽。

3）查看该KeyValue是否满足用户设置的各种filter过滤器，如果不满足，疏忽。

4）查看该KeyValue是否满足用户查问中设定的版本数，比方用户只查问最新版本，则疏忽该列的其余版本；反之，如果用户查问所有版本，则还须要查问该cell的其余版本。

过滤淘汰不合乎查问条件的HFile

过滤StoreFile产生在图中第3步，过滤伎俩次要有三种：依据KeyRange过滤，依据TimeRange过滤，依据布隆过滤器进行过滤。

1）依据KeyRange过滤：因为StoreFile中所有KeyValue数据都是有序排列的，所以如果待检索row范畴[ startrow，stoprow ]与文件起始key范畴[ f irstkey，lastkey ]没有交加，比方stoprow < f irstkey或者startrow > lastkey，就能够过滤掉该StoreFile。

2）依据TimeRange过滤：StoreFile中元数据有一个对于该File的TimeRange属性[ miniTimestamp, maxTimestamp ]，如果待检索的TimeRange与该文件工夫范畴没有交加，就能够过滤掉该StoreFile；另外，如果该文件所有数据曾经过期，也能够过滤淘汰。

3）依据布隆过滤器进行过滤：零碎依据待检索的rowkey获取对应的Bloom Block并加载到内存（通常状况下，热点Bloom Block会常驻内存的），再用hash函数看待检索rowkey进行hash，依据hash后的后果在布隆过滤器数据中进行寻址，即可确定待检索rowkey是否肯定不存在于该HFile。

从HFile中读取待查找Key

在一个HFile文件中seek待查找的Key，该过程能够合成为4步操作，如图所示。

HFile读取待查Key流程

依据HFile索引树定位指标Block

HRegionServer关上HFile时会将所有HFile的Trailer局部和Load-on-open局部加载到内存，Load-on-open局部有个十分重要的Block——Root Index Block，即索引树的根节点。

一个Index Entry，由BlockKey、Block Offset、BlockDataSize三个字段组成。

BlockKey是整个Block的第一个rowkey，如Root Index Block中"a", "m", "o","u"都为BlockKey。Block Offset示意该索引节点指向的Block在HFile的偏移量。

HFile索引树索引在数据量不大的时候只有最下面一层，随着数据量增大开始决裂为多层，最多三层。

一次查问的索引过程，根本流程能够示意为：

1）用户输出rowkey为'fb'，在Root Index Block中通过二分查找定位到'fb'在'a'和'm'之间，因而须要拜访索引'a'指向的两头节点。因为Root IndexBlock常驻内存，所以这个过程很快。

2）将索引'a'指向的两头节点索引块加载到内存，而后通过二分查找定位到fb在index 'd'和'h'之间，接下来拜访索引'd'指向的叶子节点。

3）同理，将索引'd'指向的两头节点索引块加载到内存，通过二分查找定位找到fb在index 'f'和'g'之间，最初须要拜访索引'f'指向的Data Block节点。

4）将索引'f'指向的Data Block加载到内存，通过遍历的形式找到对应KeyValue。

上述流程中，Intermediate Index Block、Leaf Index Block以及Data Block都须要加载到内存，所以一次查问的IO失常为3次。然而实际上HBase为Block提供了缓存机制，能够将频繁应用的Block缓存在内存中，以便进一步放慢理论读取过程。

2. BlockCache中检索指标Block

从BlockCache中定位待查Block都非常简单。Block缓存到BlockCache之后会构建一个Map，Map的Key是BlockKey，Value是Block在内存中的地址。其中BlockKey由两局部形成——HFile名称以及Block在HFile中的偏移量。BlockKey很显然是全局惟一的。依据BlockKey能够获取该Block在BlockCache中内存地位，而后间接加载出该Block对象。如果在BlockCache中没有找到待查Block，就须要在HDFS文件中查找。

3. HDFS文件中检索指标Block

上文说到依据文件索引提供的Block Offset以及Block DataSize这两个元素能够在HDFS上读取到对应的Data Block内容。这个阶段HBase会下发命令给HDFS，HDFS执行真正的Data Block查找工作，如图所示。

HDFS文件检索Block

整个流程波及4个组件：HBase、NameNode、DataNode以及磁盘。其中HBase模块做的事件上文曾经做过了阐明，须要特地阐明的是FSDataInputStream这个输出流，HBase会在加载HFile的时候为每个HFile新建一个从HDFS读取数据的输出流——FSDataInputStream，之后所有对该HFile的读取操作都会应用这个文件级别的InputStream进行操作。

应用FSDataInputStream读取HFile中的数据块，命令下发到HDFS，首先会分割NameNode组件。NameNode组件会做两件事件：

•找到属于这个HFile的所有HDFSBlock列表，确认待查找数据在哪个HDFSBlock上。家喻户晓，HDFS会将一个给定文件切分为多个大小等于128M的Data Block，NameNode上会存储数据文件与这些HDFSBlock的对应关系。

•确认定位到的HDFSBlock在哪些DataNode上，抉择一个最优DataNode返回给客户端。HDFS将文件切分成多个HDFSBlock之后，采取肯定的策略依照三正本准则将其散布在集群的不同节点，实现数据的高牢靠存储。HDFSBlock与DataNode的对应关系存储在NameNode。

NameNode告知HBase能够去特定DataNode上拜访特定HDFSBlock，之后，HBase会再分割对应DataNode。DataNode首先找到指定HDFSBlock，seek到指定偏移量，并从磁盘读出指定大小的数据返回。

DataNode读取数据实际上是向磁盘发送读取指令，磁盘接管到读取指令之后会挪动磁头到给定地位，读取出残缺的64K数据返回。

4. 从Block中读取待查找KeyValue
HFile Block由KeyValue（由小到大顺次存储）形成，但这些KeyValue并不是固定长度的，只能遍历扫描查找。

文章基于《HBase原理与实际》一书