关于架构:架构师必备HBase行键设计与应用

首先要答复一个问题，为何要应用HBase？
随着业务一直倒退、数据量一直增大，MySQL数据库存在这些问题：

要应用HBase，最重要的一点是rowkey行键设计，如果设计不妥，后续要改的代价十分大。

HBase行键设计准则

上面列几个HBase rowkey设计的准则：

组合键：组合键是指拼接多个业务字段，如需查问，则业务字段必须作为rowKey的一部分
字段程序：一对多，则一应该放在后面，以便可能scan失去后果，如用户id:订单id，如果反过来则无奈失去用户下的所有订单
业务字段对齐长度：因为rowKey是按字典序排列的，所以须要对齐长度，比方id取12位，9位id前补齐3个0，否则就会呈现123456789比654321比排在后面的问题。对齐长度后，000000654321排在000123456789之前，合乎预期
打散以防止热点：id与工夫无关，随工夫递增，如果不做解决可能导致局部节点有读写热点，加上前缀能够打散，如取业务id的后几位 % region个数作为rowKey的前缀

region：所有行按rowkey字典序排列，region是其中一部分，相当于分片，每个region只能在一个region server上
region server：能够蕴含一到多个region，调用HDFS的客户端接口对region所有数据进行读写操作
WAL：预写日志，WAL是Write-Ahead Log的缩写。事后写入，WAL是一个保险机制，数据在写到Memstore之前，先被写到WAL了。这样当故障复原的时候能够从WAL中复原数据
store：一个列族对应一个store，因而为了进步性能，不倡议应用超过2个列族。一个store蕴含一个memstore和多个HFile
memstore：数据写入WAL之后就会被放入memstore，次要用于在内存中对行做排序，排序实现后再写入HFile
HFile：数据的存储实体，memstore写满后就会写入HFile
region主动分片（split）、合并（merge）：region大小达到阈值后，会主动分区，反之会做合并region的操作
HFile合并（compaction）：删除数据后会导致HFile变小，须要合并以缩小HFile的数量，即缩小碎片文件数量，进步寻址效率