关于分库分表:分而治之浅谈分库分表及实践之路-京东云技术团队

前言

之前总在聊微服务，微服务自身也是分布式系统，其实微服务的核心思想是分而治之，把一个简单的单体零碎，依照业务的交付，分成不同的自服务，以升高资深复杂度，同时能够晋升零碎的扩展性。

明天想聊一下分库分表，因为对于快速增长的业务来说，这个是无奈回避的一环。之前我在做商城相干的SAAS零碎，商品池是一个存储瓶颈，商品池数量会基于租户增长和经营变得指数级增长，短短几个月就能涨到几千万的数据，而经营半年后就可能过亿。而对于订单这种数据，也会跟着业务的成长，也会变得愈发微小。

存储层来说，晋升大数据量下的存储和查问性能，就波及到了另一个层面的问题，但思维还是一样的，分而治之。

咱们面临什么样的问题

关系型数据库在大于肯定数据量的状况下检索性能会急剧下降。在面对海量数据状况时，所有数据都存于一张表，显然会轻易超过数据库表可接受的。

此外单纯的分表尽管能够解决数据量过大导致检索变慢的问题，但无奈解决过多并发申请拜访同一个库，导致数据库响应变慢的问题。所以须要分库来解决单数据库实例性能瓶颈问题。

数据库架构计划

在讲具体解决方案之前，咱们须要先理解一下数据库的三种架构波及计划。

1. Shared Everything

个别指的是单个主机的环境，齐全通明共享的CPU/内存/硬盘，并行处理能力是最差的，个别不思考大规模的并发需要，架构比较简单，个别的利用需要根本都能满足。

2. Shared Disk

各处理单元应用本人的公有CPU和Memory，共享磁盘零碎。典型的代表是Oracle RAC、DB2 PureScale。例如Oracle RAC，他用的是共享存储，做到了数据共享，可通过减少节点来进步并行处理的能力，扩大能力较好，应用Storage Area Network (SAN)，光纤通道连贯到多个服务器的磁盘阵列，升高网络耗费，进步数据读取的效率，罕用于并发量较高的OLTP利用。其相似于SMP(对称多解决)模式，然而当存储器接口达到饱和的时候，减少节点并不能取得更高的性能，同时更多的节点，则减少了运维的老本。

3. Shared Nothing

各处理单元都有本人公有的CPU/内存/硬盘等，Nothing，顾名思义，不存在共享资源，相似于MPP(大规模并行处理)模式，各处理单元之间通过协定通信，并行处理和扩大能力更好。典型代表DB2 DPF、带分库分表的MySQL Cluster，各节点互相独立，各自解决本人的数据，解决后的后果可能向下层汇总或在节点间流转。

咱们常说的Sharding其实就是Shared Nothing，他是将某个表从物理存储上被程度宰割，并调配给多台服务器(或多个实例)，每台服务器能够独立工作，具备独特的schema，例如MySQL Proxy和Google的各种架构，只需减少服务器数就能够减少解决能力和容量。

至于MPP，指的是大规模并行剖析数据库(Analytical Massively Parallel Processing (MPP) Databases)，他是针对剖析工作负载进行了优化的数据库，个别须要聚合和解决大型数据集。MPP数据库往往是列式的，因而MPP数据库通常将每一列存储为一个对象，而不是将表中的每一行存储为一个对象。这种体系结构使简单的剖析查问能够更快，更无效地解决。例如TeraData、Greenplum，GaussDB100、TBase。

基于以上的这几种架构计划，咱们能够给出大数据量存储的解决方案：

[]()

以上几种解决方案各有利弊，分区模式最大的问题是准share everything架构，无奈程度扩大cpu和内存，所以根本能够排除；nosql自身其实是个十分好的备选计划，然而nosql（包含大部分开源newsql）硬件耗费十分大，运维老本较高。而罕用的一种计划就是基于Mysql的分库分表计划。

分库分表架构计划

对于分库分表，首先看一下市面上有哪些产品。

业界组件	原厂	性能个性	备注
DBLE	爱可生开源社区	专一于mysql的高可扩展性的分布式中间件	基于MyCAT开发进去的增强版。
Meituan Atlas	美团	读写拆散、单库分表	目前曾经在原厂逐渐下架。
Cobar	阿里（B2B）	Cobar 中间件以 Proxy 的模式位于前台利用和理论数据库之间，对前台的凋谢的接口是 MySQL 通信协议	开源版本中数据库只反对 MySQL，并且不反对读写拆散。
MyCAT	阿里	是一个实现了 MySQL 协定的服务器，前端用户能够把它看作是一个数据库代理，用 MySQL 客户端工具和命令行拜访，而其后端能够用MySQL 原生协定与多个 MySQL 服务器通信	MyCAT 基于阿里开源的 Cobar 产品而研发
Atlas	360	读写拆散、动态分表	2015年后曾经不在保护
Kingshard	开源我的项目	由 Go 开发高性能 MySQL Proxy 我的项目，在满足根本的读写拆散的性能上，Kingshard 的性能是直连 MySQL 性能的80%以上。
TDDL	阿里淘宝	动静数据源、读写拆散、分库分表	TDDL 分为两个版本, 一个是带中间件的版本, 一个是间接Java版本
Zebra	美团点评	实现动静数据源、读写拆散、分库分表、CAT监控	功能齐全且有监控，接入简单、限度多。
MTDDL	美团点评	动静数据源、读写拆散、分布式惟一主键生成器、分库分表、连接池及SQL监控
Vitess	谷歌、Youtube	集群基于ZooKeeper治理，通过RPC形式进行数据处理，总体分为，server，command line，gui监控 3局部	Youtube 大量利用
DRDS	阿里	DRDS（Distributed Relational Database Service）专一于解决单机关系型数据库扩展性问题，具备轻量(无状态)、灵便、稳固、高效等个性，是阿里巴巴团体自主研
Sharding-proxy	apache开源我的项目	提供MySQL版本，它能够应用任何兼容MySQL协定的拜访客户端(如：MySQL Command Client, MySQL Workbench等)操作数据，对DBA更加敌对。向应用程序齐全通明，可间接当做MySQL应用。实用于任何兼容MySQL协定的客户端。	Apache我的项目，定位为透明化的数据库代理端，提供封装了数据库二进制协定的服务端版本，用于实现对异构语言的反对。
Sharding jdbc	apache开源我的项目	齐全兼容JDBC和各种ORM框架。实用于任何基于Java的ORM框架，如：JPA, Hibernate, Mybatis, Spring JDBC Template或间接应用JDBC。基于任何第三方的数据库连接池，如：DBCP,C3P0, BoneCP, Druid, HikariCP等。反对任意实现JDBC标准的数据库。目前反对MySQL，Oracle，SQLServer和PostgreSQL	Apache我的项目，定位为轻量级Java框架，在Java的JDBC层提供的额定服务。它应用客户端直连数据库，以jar包模式提供服务，无需额定部署和依赖，可了解为增强版的JDBC驱动

对于分库分表的产品模式，又分为两种，中间件模式和客户端模式。

1. 中间件模式其优缺点

中间件模式独立过程，所以能够反对异构语言，对以后程序没有侵入性，对业务方来说是通明的mysql服务，然而毛病也非常明显，硬件耗费大、运维老本高（尤其是在本地化施行状况下），同时因为对关系型数据库减少了代理，会造成问题难调试。

2. 客户端模式优缺点

客户端模式的次要毛病是对代码有侵入，所以根本只能反对单语言，同时因为每个客户端都要对schema建设连贯，所以如果数据库实例不多，须要对连接数认真管制，然而客户端模式的长处也非常明显，首先从架构上它是去中心化的，这样就防止了中间件模式的proxy故障问题，同时因为没有中间层性能高、灵便可控，而且因为没有proxy层，不须要思考proxy的高可用和集群，运维老本也比拟低。

sharding-jdbc接入实战

sharding-jdbc其实是这些产品中最为大家熟知的，也是因为它定位为轻量级 Java 框架，在 Java 的 JDBC 层提供的额定服务。它应用客户端直连数据库，以 jar 包模式提供服务，无需额定部署和依赖，可了解为增强版的 JDBC 驱动，齐全兼容 JDBC 和各种 ORM 框架。实用于任何基于 JDBC 的 ORM 框架，如：JPA, Hibernate, Mybatis, Spring JDBC Template 或间接应用 JDBC。而且在社区活跃度，代码品质等方面，也是很不错的。接下来，我讲具体讲一下接入细节。

1. 组件集成

<dependency><groupId>org.apache.shardingsphere</groupId><artifactId>shardingsphere-jdbc-core-spring-boot-starter</artifactId> <version> 5.0.0</version></dependency><dependency><groupId>com.baomidou</groupId><artifactId>dynamic-datasource-spring-boot-starter</artifactId><version>3.4.0</version></dependency>

2. bean配置

配置sharding jdbc数据源并且退出到动静数据源中，用于数据源路由。

[]()

批改原配置核心对应服务的mysql数据源配置，对不分库分表的数据源配置为动静数据源默认路由

[]()

3. sharing JDBC配置

spring.shardingsphere.enabled=true #shardingsphere开关 spring.shardingsphere.props.sql.show=true spring.shardingsphere.mode.type=Standalone #在应用配置核心的状况下，应用standalone模式即可（memery、standalone、cluster三种模式） spring.shardingsphere.mode.repository.type=File #standalone模式下应用File，即以后配置文件 spring.shardingsphere.mode.overwrite=true # 本地配置是否笼罩配置核心配置。如果可笼罩，每次启动都以本地配置为准。 spring.shardingsphere.datasource.names=ds-0,ds-1 #配置数据源名字，实在数据源 #配置ds-0数据源 spring.shardingsphere.datasource.ds-0.jdbc-url=jdbc:mysql://**** spring.shardingsphere.datasource.ds-0.type=com.zaxxer.hikari.HikariDataSource spring.shardingsphere.datasource.ds-0.driver-class-name=com.mysql.jdbc.Driver spring.shardingsphere.datasource.ds-0.username= spring.shardingsphere.datasource.ds-0.password= #配置ds-1数据源 spring.shardingsphere.datasource.ds-1.jdbc-url=jdbc:mysql://****spring.shardingsphere.datasource.ds-1.type=com.zaxxer.hikari.HikariDataSource spring.shardingsphere.datasource.ds-1.driver-class-name=com.mysql.jdbc.Driver spring.shardingsphere.datasource.ds-1.username= spring.shardingsphere.datasource.ds-1.password= #配置模式数据库分片键和相干的表 spring.shardingsphere.rules.sharding.default-database-strategy.standard.sharding-column=user_id spring.shardingsphere.rules.sharding.default-database-strategy.standard.sharding-algorithm-name=database-inline spring.shardingsphere.rules.sharding.binding-tables[0]=t_order,t_order_item spring.shardingsphere.rules.sharding.broadcast-tables=t_address #配置播送表，即所有库中都会同步增删的表

以上是一些根本配置，还有一些业务场景配置，大家能够参考开源社区文档: https://shardingsphere.apache.org/document/4.1.0/cn/overview/

总结

对于具体业务场景，咱们首先是基于DDD的思维划分业务单元，最开始先做好垂直分库。接着是针对一些特定的业务增长量微小的表，进行程度的分库解决，比方商品子域中的商品池表，订单子域中的订单表等等。

而在分表维度，业务初期，就要最好垂直分表的设计。比方商品池设计中，只须要存储关系信息，而商品详情的信息独自存储在一个底表之中。

作者：京东物流赵勇萍
起源：京东云开发者社区