关于uuid:存储拆分后如何解决唯一主键问题

在单库单表时，业务 ID 能够依赖数据库的自增主键实现，当初咱们把存储拆分到了多处，如果还是用数据库的自增主键，就会呈现主键反复的状况。

所以咱们不得不面对的一个抉择，就是ID生成器，应用一个惟一的字符串，来标识一条残缺的记录。

这时候，不能应用md5或者sha1来对整个记录做摘要，因为咱们后续还要改变这个记录。也不能应用单机的计数器，因为计数器容易重启清零，也会存在多台机器上的数值反复，这违反了无状态服务的建设指标。

UUID

尽管UUID在大多数语言中都有相干的类库，但除非迫不得以，咱们个别不会应用它。UUID尽管不会反复，但它十分的长，长的让人望而却步。

规范的UUID有5个局部组成：8-4-4-4-12，一共32个十六进制字符。因而，一共是128位。当把UUID作为数据库的索引时，会因为它没有程序性造成索引的随机散布和因为数据量微小造成查问性能升高。

且无序会造成每一次UUID数据的插入都会对主键的b+树进行很大的批改， 会产生离散 IO，从而产生性能瓶颈。

同时，UUID也是不可读的，如果你把它打印在纸质的订单上，并不是一个好的主见。UUID同时还有信息安全的隐患，它的数据计算里有MAC地址的参加，比拟出名的是，曾被用于寻找梅丽莎病毒的制作者地位。

MySQL8当前

MySQL 8.0 推出了函数 UUID_TO_BIN，它能够把 UUID 字符串：

通过参数将工夫高位放在最前，解决了 UUID 插入时乱序问题；
去掉了无用的字符串”-“，精简存储空间；
将字符串其转换为二进制值存储，空间最终从之前的 36 个字节缩短为了 16 字节。

同时还提供了 BIN_TO_UUID，反对将二进制值反转为 UUID 字符串，不必放心 UUID 的性能和存储占用的空间问题，相干的插入性能测试，后果如下表所示：

因为UUID_TO_BIN转换为的后果是16 字节，仅比自增 ID 减少 8 个字节，最初存储占用的空间也仅比自增大了 3G。

而且因为 UUID 能保障全局惟一，因而应用 UUID 的收益远远大于自增ID。在海量并发的互联网业务场景下，更举荐 UUID 这样的全局惟一值做主键。

但请牢记：分布式数据库架构，仅用 UUID 做主键仍然是不够的。

数据库自增ID

当数据量宏大时，在数据库分库分表后，数据库自增id不能满足惟一id来标识数据；因为每个表都按本人节奏自增，会造成id抵触，无奈满足需要

革新工夫戳

如果你是单机利用，那么应用工夫戳没什么问题，即便不必纳秒，应用毫秒也是足够的。但在分布式环境上面，工夫戳同样不是一个好的抉择。

即便你在机器装置了 ntpd 工夫同步，但因为网络和机器的差别，计算机的时钟总是存在差别，你的工夫戳总会呈现反复。为了解决这个问题，你须要减少一些其余的标识，比方机器的ID，或者更多细分的信息缩小工夫的碰撞。

这种自定义的ID生成器，只适宜特定的业务，做着做着你就会发现，它实质上是雪花算法的变种。

全局ID生成器服务

能够设计一个全局 ID 生成器服务，每次找服务索要主键，这样尽管能够在业务间实现全局惟一，然而齐全依赖全局 ID 生成服务，依赖性大，服务一旦宕机，会影响所有相干依赖服务。

例如应用Redis的计数器，原子性自增，益处在于应用内存，并发性能好，但存在数据失落；自增数据量泄露的问题

雪花算法

Twitter 雪花算法生成后是一个 64bit 的 long 型的数值，默认字符串长度是19位，它分为4个局部，根本放弃了自增

蕴含四个组成部分

不应用：1bit，最高位是符号位，0 示意正，1 示意负，固定为 0

工夫戳：41bit，毫秒级的工夫戳（41 位的长度能够应用 69 年）

标识位：5bit 数据中心 ID，5bit 工作机器 ID，两个标识位组合起来最多能够反对部署 1024 个节点（2^10 = 1024 个节点）

如果是分布式应用部署应保障每个工作过程的标识位id是不同的

序列号：12bit 递增序列号，示意节点毫秒内生成反复，通过序列号示意惟一，12bit 每毫秒可产生 4096 个 ID

通过序列号 1 毫秒能够产生 4096 个不反复 ID，则 1 秒能够生成 4096 * 1000 = 409w ID

默认的雪花算法是 64 bit，具体的长度能够自行配置。如果心愿运行更久，减少工夫戳的位数；如果须要反对更多节点部署，减少标识位长度；如果并发很高，减少序列号位数

总结：雪花算法并不是变化无穷的，能够依据零碎内具体场景进行定制

SnowFlake 算法的长处：

高性能高可用：生成时不依赖于数据库，齐全在内存中生成
高吞吐：每秒钟能生成数百万的自增 ID
ID 自增：存入数据库中，索引效率高

SnowFlake 算法的毛病： 依赖与零碎工夫的一致性，如果零碎工夫被回调，或者扭转，可能会造成 ID 抵触或者反复

实用场景

因为雪花算法有序自增，保障了 MySQL 中 B+ Tree 索引构造插入高性能

所以，日常业务应用中，雪花算法更多是被利用在数据库的主键 ID 和业务关联主键

存在的问题

机器标识位统一

标识位反复的状况下，雪花 ID 也可能会反复，比方：

服务通过集群的形式部署，其中局部机器标识位统一

时钟回拨的问题

为什么会有时钟回拨问题

有人篡改了宿主机的零碎工夫
集群中可能会进行整体的时钟同步，从而批改机器的本地工夫

时钟回拨对雪花算法的影响

如果篡改了本地工夫，那就有危险产生反复的ID，而且无奈满足趋势递增了。

解决思路

计划一：想方法探测到时钟回拨，而后做出对应的策略
计划二：摸索一种ID生成的形式，不齐全依附工夫戳来保障雪花算法，或者间接应用别的策略代替工夫戳

JS的坑

值得注意的是，雪花算法在JavaScript中有一个坑。后端在返回ID的时候，须要应用String类型代替Long类型，否则会产生料想不到的谬误。

这是因为。在JavaScript中，存在两种数字。Number和BigInt。最罕用的，就是number。

最大的Number，叫做Number.MAX_SAFE_INTEGER，它的值为：

2^53-1 或者
+/- 9,007,199,254,740,991

家喻户晓，Java中的Long，是64位的。Js中的这个平安Integer，齐全达不到Java中定义的长度。

这就是万恶的IEEE_754标准，它在Long长度大于17位时会呈现精度失落的问题。

常见实现计划

百度（uid-generator）

uid-generator是由百度技术部开发，我的项目地址：uid-generator

uid-generator是基于Snowflake算法实现的，与原始的snowflake算法不同在于，uid-generator反对自定义工夫戳、工作机器ID和序列号等各局部的位数，而且uid-generator中采纳用户自定义workId的生成策略。

uid-generator须要与数据库配合应用，须要新增一个WORKER_NODE表。当利用启动时会向数据库表中去插入一条数据，插入胜利后返回的自增ID就是该机器的workId数据由host，port组成。

美团（Leaf）

github地址：Leaf

美团的Leaf也是一个分布式ID生成框架。它十分全面，即反对号段模式，也反对snowflake模式。

号段模式：依赖于数据库，然而区别于数据库主键自增的模式。假如100为一个号段100，200，300，每取一次能够取得100个ID，性能显著进步。

关于uuid:存储拆分后如何解决唯一主键问题

UUID

MySQL8当前

数据库自增ID

革新工夫戳

全局ID生成器服务

雪花算法

实用场景

存在的问题

机器标识位统一

时钟回拨的问题

为什么会有时钟回拨问题

时钟回拨对雪花算法的影响

解决思路

JS的坑

常见实现计划

百度（uid-generator）

美团（Leaf）

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于uuid:存储拆分后如何解决唯一主键问题

UUID

MySQL8当前

数据库自增ID

革新工夫戳

全局ID生成器服务

雪花算法

实用场景

存在的问题

机器标识位统一

时钟回拨的问题

为什么会有时钟回拨问题

时钟回拨对雪花算法的影响

解决思路

JS的坑

常见实现计划

百度（uid-generator）

美团（Leaf）

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复