HBase架构

`Region-Store-ColumnFmily`的关系

逻辑分层：HRegion由一个或者多个Store组成

Table                    (HBase table)
    Region               (Regions for the table)
        Store            (Store per ColumnFamily for each Region for the table)
            MemStore     (MemStore for each Store for each Region for the table)
            StoreFile    (StoreFiles for each Store for each Region for the table)
                Block    (Blocks within a StoreFile within a Store for each Region for the table)

物理分层： 每个store保留一个columns family

一、写操作

1、Client 写入 -> 存入 MemStore ，始终到MemStore满 -> Flush 成一个 StoreFile

2、StoreFile 文件数量增长到肯定阈值 -> 触发 Compact 合并操作 -> 多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除

3、当 StoreFiles Compact 后，逐步形成越来越大的StoreFile -> 单个 StoreFile大小超过肯定阈值后，触发 Split 操作，把以后Region Split 成2个 Region，原来的 Region 会下线，新 Split 出的2个子Region会被 HMaster 调配到相应的 HRegionServer 上（负载平衡），使得原先1个Region的压力得以分流到2个 Region 上

由此过程可知，HBase 只是减少数据，有所得更新和删除操作，都是在Compact阶段做的，所以，用户写操作只须要进入到内存即可立刻返回，从而保障I/O高性能。

二、读操作

client->zookeeper->.ROOT->.META-> 用户数据表 zookeeper记录了.ROOT的门路信息（root只有一个region），.ROOT里记录了.META的region信息，（.META可能有多个region），.META外面记录了region的信息。

在 HBase中，所有的存储文件都被划分成了若干个小存储块（block），这些小存储块在 get 或 scan 操作时会加载到内存中，他们相似于 RDBMS 中的存储单元页。这个参数的默认大小是64K。通过以下形式设置：void setBlocksize(int s);（留神:HBase中Hfile的默认大小就是64K跟 HDFS的块是64M没关系）

HBase 程序地读取一个数据块到内存缓存中，其读取相邻的数据时就能够在内存中读取而不须要从磁盘中再次读取，无效地缩小了磁盘I/O的次数。

void setBlockCacheEnabled(boolean blockCacheEnable); 这个参数默认为TRUE，这意味着每次读取的块都会缓存到内存中。

然而，如果用户程序读取某个特定的列族，最好将这个属性设置为 FALSE，从而禁止应用缓存快。

下面这样形容的起因：如果咱们拜访特定的列族，然而咱们还是启用了这个性能，这个时候咱们的机制会把咱们其它不须要的列族的数据也加载到了内存中，减少了咱们的累赘，咱们应用的条件是，咱们获取相邻数据。

三、优化

1、禁止主动刷写
咱们有少量数据要插入时，如果咱们没有禁止，Put实例会被一一的传送到region服务器，如果用户禁止了主动刷写的性能，put操作会在写缓冲区被填满时才会被送出。

2、应用扫描缓存
如果HBase被用作一个mapreduce作业的输出源，请最好将作为mapreduce作业输出扫描器实例的缓存用setCaching()办法设置为比默认值1更大的数。应用默认值意味着map工作会在解决每条记录时都申请region服务器。不过，这个值要是500的话，则一次可传送500条数据到客户端进行解决，当然了这数据也是依据你的状况定的。这个是行级的。

3、限定扫描范畴
这个是很好了解的，比方咱们要解决大量行（特地是作为mapreduce的输出源），其中用到scan的时候咱们有Scan.addFamily()的办法，这个时候咱们如果只是须要到这个列族中的几个列，那么咱们肯定要准确。因为过多的列会导致效率的损失。

4、敞开resultScanner
当然了这个不能进步咱们的效率，然而如果没关就会对效率有影响。

5、块缓存的用法
首先咱们的块缓存是通过Scan.setCacheBolcks()的启动的，那些被频繁拜访的行咱们应该应用缓存块，然而mapreduce作业应用扫描大量的行，咱们就不该应用这个了。

6、优化获取 rowkey的形式
当然用这个的前提是，咱们只须要表中的rowkey时，能力用。

7、敞开Put上的WAL
书上是这么说，然而我集体感觉这个性能还是不必的好，因为咱们敞开了这个性能，服务器就不会把put写入到WAL，而是间接写到memstore里，这样一旦服务器呈现故障，咱们的数据就失落了。
8、压缩
hbase反对大量的算法，并且反对列族级别以上的压缩算法，除非有非凡起因，不然咱们应该尽量应用压缩，压缩通常会带来较好的性能。通过一些测试，咱们举荐应用SNAPPY这种算法来进行咱们hbase的压缩

四、`HLog`的性能

在分布式系统环境中，无奈防止零碎出错或者宕机，一旦HRegionServer意外退出，MemStore中的内存数据就会失落，引入HLog就是避免这种状况。

工作机制：每个 HRegionServer 中都会有一个 HLog 对象，HLog 是一个实现 Write Ahead Log 的类，每次用户操作写入Memstore的同时，也会写一份数据到 HLog 文件，HLog文件定期会滚动出新，并删除旧的文件(已长久化到 StoreFile中的数据)。当HRegionServer意外终止后，HMaster会通过 Zookeeper感知，HMaster 首先解决遗留的 HLog 文件，将不同region的log数据拆分，别离放到相应region目录下，而后再将生效的region（带有刚刚拆分的log）重新分配，支付到这些region的 HRegionServer在Load Region的过程中，会发现有历史HLog须要解决，因而会Replay HLog中的数据到MemStore中，而后flush到StoreFiles，实现数据恢复。

五、`Hbase` 存储架构及`Rowkey`设计的思考

Region 就是 StoreFiles，StoreFiles里由HFile形成，HFile里由hbase的data块形成，一个data块外面又有很多keyvalue对，每个keyvalue里存了咱们须要的值。

从上图能够发现一张表有两个列族（红颜色的一个，黄色彩的一个）一个列族有两个列

从图中能够看出，这就是列式数据库的最大特点： 同一个列族的数据在在一起的，咱们还发现如果是有多个版本。最初咱们还发现外面存了这样的值 r1: rowkey，cf1:column Family，c1:qualiter(列),t1： versionId（版本号)，value值 （最初一幅图阐明的是value值能够寄存的地位）。通过这样的认识，咱们发现如果咱们设计表的时候把这几个货色：r1: rowkey，cf1:column Family，c1:qualiter(列) 的 名字取短 一点是不是会节俭存储空间！

倒数第二张图，字段筛选的效率从左到右显著降落，所以在keyvalue的设计时用户能够思考把一些重要的筛选信息左移到适合的地位，从而在不扭转数据量的状况下，进步查问性能。那么简略的说就是用户该当尽量把查问维度或信息存储在行健中，因为它筛选数据的效率最高。

失去下面的意识后，咱们应该还要会有这样的觉醒：

HBase的数据会被程序的存储到一个特定的范畴(Region依据Rowkey切分)，因而会始终存到同一Region上，因为一个Region只能由一个RegionServer治理，这样咱们老是增加到同一个Region上，会造成读写热点，从而使集群性能降落。
解决办法：也是就是Rowkey的设计

Rowkey散列：比方咱们有9台服务器，那么咱们就回去以后工夫，而后模9或者取反，加到Rowkey前缀，这样就会被均匀的分到不同的region服务器上了，这样带来的益处是，因为相连的数据都散布到不同的服务器上了，用户能够多线程并行的读取数据，这样查问的吞吐量会进步。

六、写缓存

小数据量的操作：每一个put的操作实际上是RPC的操作，它将客户端的数据传送到服务器而后返回;

大数据量的操作：如果有个应用程序须要每秒存储上千行数据到 HBase 表中，PUT解决就不太适合了。HBase API装备了一个客户端的 写缓冲区。

缓冲区负责收集put操作，而后调用RPC操作一次性将put list送往服务器。默认状况下，客户端缓冲区是禁止的。能够通过主动刷写设置为FALSE来激活缓冲区。

//能够通过主动刷写设置为FALSE来激活缓冲区，禁止主动刷写
table.setAutoFlush(false);      
//这个办法是强制将数据写到服务器                                    
void flushCommits () throws IOException
//用户还能够依据上面的办法来配置客户端写缓冲区的大小，默认大小是 2MB
void setWritaeBufferSize(long writeBufferSize) throws IOException;

写缓冲区的大小，默认大小是 2MB，这个也是适中的，个别用户插入的数据不大，不过如果你插入的数据大的话，可能要思考增大这个值。从而容许客户端更高效地肯定数量的数据组成一组通过一次RPC申请来执行。
给每个用户的HTable设置一个写缓冲区也是一件麻烦的事，为了防止麻烦，用户能够在Hbase-site.xml中给用户设置一个较大的预设值。

<property>

    <name>hbase.client.write.buffer</name>

    <value>20971520</value>

</property>

关于hbase:Hbase写数据存数据读数据的详细过程

HBase架构

`Region-Store-ColumnFmily`的关系

逻辑分层：<font color=red>HRegion由一个或者多个Store组成</font>

物理分层： <font color=red>每个store保留一个columns family</font>

一、写操作

二、读操作

三、优化

四、`HLog`的性能

五、`Hbase` 存储架构及`Rowkey`设计的思考

六、写缓存

关注我的公众号【宝哥大数据】，更多干货

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于hbase:Hbase写数据存数据读数据的详细过程

HBase架构

Region-Store-ColumnFmily的关系

逻辑分层：<font color=red>HRegion由一个或者多个Store组成</font>

物理分层： <font color=red>每个store保留一个columns family</font>

一、写操作

二、读操作

三、优化

四、HLog的性能

五、Hbase 存储架构及Rowkey设计的思考

六、写缓存

关注我的公众号【宝哥大数据】，更多干货

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

`Region-Store-ColumnFmily`的关系

四、`HLog`的性能

五、`Hbase` 存储架构及`Rowkey`设计的思考

发表回复取消回复