关于hbase:Hbase架构入门

Hbase结构图

Hbase自身蕴含三局部,Zookeeper,HMaster,HRegionServer

Zookeeper:

1.保障任何时候只有一个沉闷的Master
2.存储所有的Region的地址,晓得哪个Region存储在哪台机器上
3.时刻监控RegionServer的状态,将RegionServer的高低线信息,RegionServer不间接向HMaster汇报，加重HMaster的压力，通过Zookeeoer发送信息
4.存储Hbase的元数据结构(Schema),晓得集群中有哪些Table,每个Table有哪些Column Family

HMaster:

1.为所有的RegionServer调配Region
2.负责RegionServer的负载平衡
3.发现生效的RegionServer,重新分配下面的Region
4.HDFS的垃圾文件
5.解决Schema申请(表的创立,删除,批改,列族的减少等)

HRegionServer:负责数据的读写操作,客户端间接和RegionServer交互

RegionServer介绍

一个RegionServer会有多个Region,
每个Region有多个Store
每个Store有多个StoreFile(HFile)
每个Store有一个Memstore

客户端通过发申请到RegionServer端，写入的时候会先写入WAL日志中，其次会将数据写入memstore内存，当数据达到肯定大小后会flush成一个个的StoreFile(HFile)文件，当文件达到肯定数量后，通过compaction的操作合并成更大文件，这样数据读取会更快。

1）HRegion：

（1）、简介：Table在行的方向上分隔为多个Region，Region是HBase中分布式存储和负载平衡的最小单元，即不同的Region能够分在不同的RegionServer下面，但同一个Region是不会拆分到多个Server下面的。随着数据的增多，某个列族的达到一个阈值就会分成两个新的Region。构造：<表名，startRowkey，创立工夫>，由目录表（-ROOT-，.META.）记录该Region的endRowkey
（2）、Store：

（1）简介：每一个Region由一个或则多个Store组成，至多是一个Store，HBase会把拜访的数据寄存在Store中，即每一个列族建一个Store，如果有多个ColumnFamily，就多多个Store，一个Store由一个MemStore和0或则多个StoreFile组成。HBase通过Store的大小判断是否须要切分Region。

（2）MemStore：它是放在内存中的，保留批改的数据，即key/values。当MemStore的大小达到肯定的阈值的时候（默认128M），MemStore会被Flush到文件，即生成一个快照StoreFile，Flush过程由一个线程实现。

（3）StoreFile：StoreFile底层是HFile，HFile是Hadoop的二进制格式文件，

（2）HLog：WAL文件，用来劫难复原应用，HLog记录数据的所有变更，一旦RegionServer宕机，就从HLog中进行复原，HLog文件就是一个一般的Hadoop Sequence File，Sequence File记录了写入数据的归属信息，除了Table和Region名字外，还同时包含了Sequence Number和TimeStamp，Sequence File的value是HBase的key/value对象，即对应的HFile中的key/value。

Hbase 中的 Compaction

其实Compaction操作属于资源密集型操作特地是IO密集型，这点前面也会提及到，Compaction实质上其实就是就义了局部IO，以换取绝对稳固的读取性能。
compaction的核心作用是：通过合并大量小文件为一个大文件来缩小hfile的总数量，进而保障读提早的稳固。

HBase Compaction分为两种：Minor Compaction 与 Major Compaction，通常咱们简称为小合并、大合并