关于java:特好用8种分布式ID生成方法

前言

业务量小于500W或数据容量小于2G的时候独自一个mysql即可提供服务，再大点的时候就进行读写拆散也能够应酬过去。但当主从同步也扛不住的时候就须要分表分库了，但分库分表后须要有一个惟一ID来标识一条数据，且这个惟一ID还必须有规定，能辅助咱们解决分库分表的一些问题。

数据库的自增ID显然不能满足需要；特地一点的如订单、优惠券也都须要有惟一ID做标识。此时一个可能生成全局惟一ID的零碎是十分必要的，那么这个全局惟一ID就叫分布式ID。

分布式ID需满足那些条件

全局惟一：根本要求就是必须保障ID是全局性惟一的。
高性能：高可用低延时，ID生成响应要快。
高可用：有限靠近于100%的可用性
好接入：遵循拿来主义准则，在零碎设计和实现上要尽可能的简略
趋势递增：最好趋势递增，这个要求就得看具体业务场景了，个别不严格要求

UUID

UUID 是指Universally Unique Identifier，翻译为中文是通用惟一识别码，UUID 的目标是让分布式系统中的所有元素都能有惟一的辨认信息。模式为 8-4-4-4-12，总共有 36个字符。用起来非常简单

public static void main(String[] args) {
  String uuid = UUID.randomUUID().toString().replaceAll("-","");
  System.out.println(uuid);
}

输入后果 99a7d0925b294a53b2f4db9d5a3fb798，但UUID却并不适用于理论的业务需要。订单号用UUID这样的字符串没有丝毫的意义，看不出和订单相干的有用信息；而对于数据库来说用作业务主键ID，它不仅是太长还是字符串，存储性能差查问也很耗时，所以不举荐用作分布式ID。

长处： 生成足够简略，本地生成无网络耗费，具备唯一性

毛病： 无序的字符串，不具备趋势自增个性，没有具体的业务含意。如此长的字符串当MySQL主键并非理智抉择。

数据库自增ID

基于数据库的auto_increment自增ID齐全能够充当分布式ID，具体实现：须要一个独自的MySQL实例用来生成ID，建表构造如下：

CREATE TABLE SoWhat_ID (
    `id` bigint(20) unsigned NOT NULL auto_increment, 
    `value` char(10) NOT NULL default '',
    `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
    PRIMARY KEY (id),
) ENGINE=MyISAM;

当咱们须要一个ID的时候，向表中插入一条记录返回主键ID，但这种形式有一个比拟致命的毛病，访问量激增时MySQL自身就是零碎的瓶颈，用它来实现分布式服务危险比拟大，不举荐！

长处： 实现简略，ID枯燥自增，数值类型查问速度快

毛病： DB单点存在宕机危险，无奈扛住高并发场景

数据库集群模式

后面说了单点数据库形式不可取，那对上边的形式做一些高可用优化，换成主从模式集群。胆怯一个主节点挂掉没法用，那就做双主模式集群，也就是两个Mysql实例都能独自的生产自增ID。那这样还会有个问题，两个MySQL实例的自增ID都从1开始，会生成反复的ID怎么办？解决方案：设置起始值和自增步长

MySQL_1 配置：

set @@auto_increment_offset = 1;     -- 起始值
set @@auto_increment_increment = 2;  -- 步长

MySQL_2 配置：

set @@auto_increment_offset = 2;     -- 起始值
set @@auto_increment_increment = 2;  -- 步长

这样两个MySQL实例的自增ID别离就是：

1、3、5、7、9 
2、4、6、8、10

然而如果两个还是无奈满足咋办，须要进行扩容呢？

减少第三台MySQL实例须要人工批改一、二两台MySQL实例的起始值和步长，把第三台机器的ID起始生成地位设定在比现有最大自增ID的地位远一些，但必须在一、二两台MySQL实例ID还没有增长到第三台MySQL实例的起始ID值的时候，否则自增ID就要呈现反复了，必要时可能还须要停机批改。

长处： 解决DB单点问题

毛病： 不利于后续扩容，而且实际上单个数据库本身压力还是大，仍旧无奈满足高并发场景。

Redis模式

Redis 也同样能够实现，原理就是Redis 是单线程的，因而咱们能够利用redis的incr命令实现ID的原子性自增。

127.0.0.1:6379> set seq_id 1     // 初始化自增ID为1
OK
127.0.0.1:6379> incr seq_id      // 减少1，并返回递增后的数值
(integer) 2

实现思路，大抵和下面讲数据库的原理相似。用redis实现须要留神一点，要思考到redis长久化的问题。redis有两种长久化形式RDB和AOF。

号段模式

号段模式是当下分布式ID生成器的支流实现形式之一，号段模式能够了解为从数据库（当然这边存储层也可用其余的，比方redis、Mongdb等）批量的获取自增ID，每次从数据库取出一个号段范畴，例如 (1,1000] 代表1000个ID，具体的业务服务将本号段，生成1~1000的自增ID并加载到内存。表构造如下：

CREATE TABLE id_generator (
  `id` int(10) NOT NULL,
  `max_id` bigint(20) NOT NULL COMMENT '以后最大id',
  `step` int(20) NOT NULL COMMENT '号段的步长',
  `biz_type`    int(20) NOT NULL COMMENT '业务类型',
  `version` int(20) NOT NULL COMMENT '版本号',
  PRIMARY KEY (`id`)
)

max_id ：以后最大的可用id
step ：代表号段的长度
biz_type ：代表不同业务类型
version ：是一个乐观锁，每次都更新version，保障并发时数据的正确性

等这批号段ID用完，再次向数据库申请新号段，对max_id字段做一次update操作

update max_id= max_id + step

update胜利则阐明新号段获取胜利，新的号段范畴是(max_id ,max_id +step]。

因为多业务端可能同时操作，所以采纳版本号 version 乐观锁形式更新。

长处： 这种分布式ID生成形式不强依赖于数据库，不会频繁的拜访数据库，对数据库的压力小很多

毛病： 如果遇到了双十一或者秒杀相似的流动还是会对数据库有比拟高的拜访，且如果再申请新号段的时候，遇到数据库不可用时，ID生成也会呈现问题。

雪花算法模式

SnowFlake 算法，是 Twitter 开源的分布式 id 生成算法。其核心思想就是：应用一个 64 bit 的 long 型的数字作为全局惟一 id。在分布式系统中的利用非常宽泛，且ID 引入了工夫戳，为什么叫雪花算法呢？家喻户晓世界上没有一对雷同的雪花。雪花算法基本上放弃自增的。

这 64 个 bit 中，其中1个bit是不必的，而后用其中的 41 bit 作为毫秒数，用 10 bit 作为工作机器 id，12 bit 作为序列号。举例如上图：

第一个局部是1个bit：0，这个是无意义的。因为二进制里第一个 bit 位如果是 1，那么都是正数，然而咱们生成的 id 都是负数，所以第一个 bit 对立都是 0。
第二个局部是41个bit：示意的是工夫戳。单位是毫秒。41 bit 能够示意的数字多达 2^41 – 1，也就是能够标识 2 ^ 41 – 1 个毫秒值，换算成年就是示意 69 年的工夫。
第三个局部是10个bit： 5个bit代表机房，意思就是最多代表2^5个机房（32个机房）。另5个bit代表机器id，意思就是每个机房里能够代表2^5个机器（32台机器）
第四个局部是12个bit：示意自增序号，就是某个机房某台机器上这一毫秒内同时生成的 id 的序号。12bit能够代表的最大正整数是2^12-1=4096，也就是说能够用这个12bit代表的数字来辨别同一个毫秒内的4096个不同的id。

总结的来说，就是用一个 64 bit位来设置不同的标记位，辨别每一个 id。

SnowFlake 算法的实现代码 https://github.com/souyunku/S…

长处

高性能，本地通过位运算生成，效率快
高可用，本地生成无节点宕机状况产生
容量大，每秒中能生成数百万的自增ID
ID自增：存入数据库中，索引效率高

毛病

依赖与零碎工夫的一致性，如果零碎工夫被回调，或者扭转可能会造成id抵触或者反复。

理论中咱们的机房并没有那么多，咱们能够改良改算法，将10bit的机器id优化成业务ID或者业务零碎实例数

前面讲讲业内一些公司基于以上几种最根本的ID生成形式，进行的局部优化。

百度uid-generator

uid-generator是由百度技术部开发，基于Snowflake算法实现，与原始snowflake算法不同在于，uid-generator反对自定义工夫戳、workId和序列号等各局部的位数。提供了两种形式，看上面剖析

DefaultUidGenerator

DefaultUidGenerator 采纳用户自定义workId的生成策略。大抵原理如下：
须要新增一个WORKER_NODE表，当利用启动时会向数据库表中插入一条数据，插入胜利后返回的自增ID就是workId。
对于时钟回拨的问题，DefaultUidGenerator采纳了比较简单粗犷的形式，间接抛出谬误

由上图可知，UidGenerator的工夫局部只有28位，这就意味着UidGenerator默认只能接受8.5年（2^28-1/86400/365）。当然，依据你业务的需要，UidGenerator能够适当调整delta seconds、worker node id和sequence占用位数。

CachedUidGenerator

CachedUidGenerator是UidGenerator的重要改良实现，workerId的获取形式也和DefaultUidGenerator是一样。外围优化的两个点是：

利用RingBuffer数据结构事后生成若干个分布式ID并保留。
通过工夫值递增失去工夫值（lastSecond.incrementAndGet()），而不是System.currentTimeMillis()这种形式，保障了工夫回拨的问题。

留神的是，CachedUidGenerator分布式ID中的工夫信息可能并不是这个ID真正产生的工夫点。

github地址：https://github.com/baidu/uid-…

美团（Leaf）

Leaf反对号段模式和雪花算法模式，能够切换应用。

号段模式

思维和咱们下面讲的统一，它存储采纳数据库。

雪花算法模式

Leaf的snowflake模式依赖于ZooKeeper，不同于原始snowflake算法是在workId的生成上。Leaf中workId是基于ZooKeeper的程序Id来生成的，每个利用在应用Leaf-snowflake时，启动时都会都在Zookeeper中生成一个程序Id，相当于一台机器对应一个程序节点，也就是一个workId。对于工夫回拨的问题，美团采取的策略是期待5ms后从新获取，如果发现工夫还未追上，那么进行告警。

github地址：https://github.com/Meituan-Di…

参考文献：https://mp.weixin.qq.com/s/Sr…
http://www.360doc.com/content…
公众号:sowhat1412

关于java:特好用8种分布式ID生成方法

前言

UUID

数据库自增ID

数据库集群模式

Redis模式

号段模式

雪花算法模式

百度uid-generator

DefaultUidGenerator

CachedUidGenerator

美团（Leaf）

号段模式

雪花算法模式

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于java:特好用8种分布式ID生成方法

前言

UUID

数据库自增ID

数据库集群模式

Redis模式

号段模式

雪花算法模式

百度uid-generator

DefaultUidGenerator

CachedUidGenerator

美团（Leaf）

号段模式

雪花算法模式

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复