关于架构:架构师必备HBase行键设计与应用

首先要答复一个问题，为何要应用 HBase？
随着业务一直倒退、数据量一直增大，MySQL 数据库存在这些问题：

要应用 HBase，最重要的一点是 rowkey 行键设计，如果设计不妥，后续要改的代价十分大。

上面列几个 HBase rowkey 设计的准则：

组合键 ：组合键是指拼接多个业务字段，如需查问，则业务字段必须作为 rowKey 的一部分
字段程序 ：一对多，则一应该放在后面，以便可能 scan 失去后果，如用户 id: 订单 id，如果反过来则无奈失去用户下的所有订单
业务字段对齐长度 ：因为 rowKey 是按字典序排列的，所以须要对齐长度，比方 id 取 12 位，9 位 id 前补齐 3 个 0，否则就会呈现 123456789 比 654321 比排在后面的问题。对齐长度后，000000654321 排在 000123456789 之前，合乎预期
打散以防止热点 ：id 与工夫无关，随工夫递增，如果不做解决可能导致局部节点有读写热点，加上前缀能够打散，如取业务 id 的后几位 % region 个数作为 rowKey 的前缀

region：所有行按 rowkey 字典序排列，region 是其中一部分，相当于分片，每个 region 只能在一个 region server 上
region server：能够蕴含一到多个 region，调用 HDFS 的客户端接口对 region 所有数据进行读写操作
WAL：预写日志，WAL 是 Write-Ahead Log 的缩写。事后写入，WAL 是一个保险机制，数据在写到 Memstore 之前，先被写到 WAL 了。这样当故障复原的时候能够从 WAL 中复原数据
store：一个列族对应一个 store，因而为了进步性能，不倡议应用超过 2 个列族。一个 store 蕴含一个 memstore 和多个 HFile
memstore：数据写入 WAL 之后就会被放入 memstore，次要用于在内存中对行做排序，排序实现后再写入 HFile
HFile：数据的存储实体，memstore 写满后就会写入 HFile
region 主动分片（split）、合并（merge）：region 大小达到阈值后，会主动分区，反之会做合并 region 的操作
HFile 合并（compaction）：删除数据后会导致 HFile 变小，须要合并以缩小 HFile 的数量，即缩小碎片文件数量，进步寻址效率

HBase 行键设计准则