关于java:数据量大了一定要分表分库分表组件ShardingJDBC入门与项目实战

最近我的项目中不少表的数据量越来越大，并且导致了一些数据库的性能问题。因而想借助一些分库分表的中间件，实现自动化分库分表实现。调研下来，发现Sharding-JDBC目前成熟度最高并且利用最广的Java分库分表的客户端组件。本文次要介绍一些Sharding-JDBC外围概念以及生产环境下的实战指南，旨在帮忙组内成员疾速理解Sharding-JDBC并且可能疾速将其应用起来。Sharding-JDBC官网文档

外围概念

在应用Sharding-JDBC之前，肯定是先了解分明上面几个外围概念。

逻辑表

程度拆分的数据库（表）的雷同逻辑和数据结构表的总称。例：订单数据依据主键尾数拆分为10张表，别离是t_order_0到t_order_9，他们的逻辑表名为t_order。

实在表

在分片的数据库中实在存在的物理表。即上个示例中的t_order_0到t_order_9。

数据节点

数据分片的最小单元。由数据源名称和数据表组成，例：ds_0.t_order_0。

绑定表

指分片规定统一的主表和子表。例如：t_order表和t_order_item表，均依照order_id分片，则此两张表互为绑定表关系。绑定表之间的多表关联查问不会呈现笛卡尔积关联，关联查问效率将大大晋升。举例说明,如果SQL为：

SELECT i.* FROM t_order o JOIN t_order_item i ON o.order_id=i.order_id WHERE o.order_id in (10, 11);

假如t_order和t_order_item对应的实在表各有2个，那么实在表就有t_order_0、t_order_1、t_order_item_0、t_order_item_1。在不配置绑定表关系时，假如分片键order_id将数值10路由至第0片，将数值11路由至第1片，那么路由后的SQL应该为4条，它们出现为笛卡尔积：

SELECT i.* FROM t_order_0 o JOIN t_order_item_0 i ON o.order_id=i.order_id WHERE o.order_id in (10, 11);
SELECT i.* FROM t_order_0 o JOIN t_order_item_1 i ON o.order_id=i.order_id WHERE o.order_id in (10, 11);
SELECT i.* FROM t_order_1 o JOIN t_order_item_0 i ON o.order_id=i.order_id WHERE o.order_id in (10, 11);
SELECT i.* FROM t_order_1 o JOIN t_order_item_1 i ON o.order_id=i.order_id WHERE o.order_id in (10, 11);

在配置绑定表关系后，路由的SQL应该为2条：

SELECT i.* FROM t_order_0 o JOIN t_order_item_0 i ON o.order_id=i.order_id WHERE o.order_id in (10, 11);
SELECT i.* FROM t_order_1 o JOIN t_order_item_1 i ON o.order_id=i.order_id WHERE o.order_id in (10, 11);

播送表

指所有的分片数据源中都存在的表，表构造和表中的数据在每个数据库中均完全一致。实用于数据量不大且须要与海量数据的表进行关联查问的场景，例如：字典表。

数据分片

分片键

用于分片的数据库字段，是将数据库(表)程度拆分的关键字段。例：将订单表中的订单主键的尾数取模分片，则订单主键为分片字段。 SQL 中如果无分片字段，将执行全路由，性能较差。除了对单分片字段的反对，Sharding-JDBC 也反对依据多个字段进行分片。

分片算法

通过分片算法将数据分片，反对通过=、>=、<=、>、<、BETWEEN和IN分片。分片算法须要利用方开发者自行实现，可实现的灵便度十分高。

目前提供4种分片算法。因为分片算法和业务实现严密相干，因而并未提供内置分片算法，而是通过分片策略将各种场景提炼进去，提供更高层级的形象，并提供接口让利用开发者自行实现分片算法。

准确分片算法

对应 PreciseShardingAlgorithm，用于解决应用繁多键作为分片键的 = 与 IN 进行分片的场景。须要配合 StandardShardingStrategy 应用。

范畴分片算法

对应 RangeShardingAlgorithm，用于解决应用繁多键作为分片键的 BETWEEN AND、>、<、>=、<=进行分片的场景。须要配合 StandardShardingStrategy 应用。

复合分片算法

对应 ComplexKeysShardingAlgorithm，用于解决应用多键作为分片键进行分片的场景，蕴含多个分片键的逻辑较简单，须要利用开发者自行处理其中的复杂度。须要配合 ComplexShardingStrategy 应用。

Hint分片算法

对应 HintShardingAlgorithm，用于解决通过Hint指定分片值而非从SQL中提取分片值的场景。须要配合 HintShardingStrategy 应用。

分片策略

蕴含分片键和分片算法，因为分片算法的独立性，将其独立抽离。真正可用于分片操作的是分片键 + 分片算法，也就是分片策略。目前提供 5 种分片策略。

规范分片策略

对应 StandardShardingStrategy。提供对 SQ L语句中的 =, >, <, >=, <=, IN 和 BETWEEN AND 的分片操作反对。 StandardShardingStrategy 只反对单分片键，提供 PreciseShardingAlgorithm 和 RangeShardingAlgorithm 两个分片算法。 PreciseShardingAlgorithm 是必选的，用于解决 = 和 IN 的分片。 RangeShardingAlgorithm 是可选的，用于解决 BETWEEN AND, >, <, >=, <=分片，如果不配置 RangeShardingAlgorithm，SQL 中的 BETWEEN AND 将依照全库路由解决。

复合分片策略

对应 ComplexShardingStrategy。复合分片策略。提供对 SQL 语句中的 =, >, <, >=, <=, IN 和 BETWEEN AND 的分片操作反对。 ComplexShardingStrategy 反对多分片键，因为多分片键之间的关系简单，因而并未进行过多的封装，而是间接将分片键值组合以及分片操作符透传至分片算法，齐全由利用开发者实现，提供最大的灵便度。

行表达式分片策略

对应 InlineShardingStrategy。应用 Groovy 的表达式，提供对 SQL 语句中的 = 和 IN的分片操作反对，只反对单分片键。对于简略的分片算法，能够通过简略的配置应用，从而防止繁琐的Java代码开发，如: t_user_$->{u_id % 8} 示意 t_user 表依据 u_id 模 8，而分成 8 张表，表名称为 t_user_0 到 t_user_7。 能够认为是准确分片算法的繁难实现

Hint分片策略

对应 HintShardingStrategy。通过 Hint 指定分片值而非从 SQL 中提取分片值的形式进行分片的策略。

分布式主键

用于在分布式环境下，生成全局惟一的id。Sharding-JDBC 提供了内置的分布式主键生成器，例如 UUID、SNOWFLAKE。还抽离出分布式主键生成器的接口，不便用户自行实现自定义的自增主键生成器。为了保障数据库性能，主键id还必须趋势递增，防止造成频繁的数据页面决裂。

读写拆散

提供一主多从的读写拆散配置，可独立应用，也可配合分库分表应用。

同一线程且同一数据库连贯内，如有写入操作，当前的读操作均从主库读取，用于保证数据一致性
基于Hint的强制主库路由。
主从模型中，事务中读写均用主库。

执行流程

Sharding-JDBC 的原理总结起来很简略: 外围由 SQL解析 => 执行器优化 => SQL路由 => SQL改写 => SQL执行 => 后果归并的流程组成。

我的项目实战

spring-boot我的项目实战

引入依赖

<dependency>
    <groupId>org.apache.shardingsphere</groupId>
    <artifactId>sharding-jdbc-spring-boot-starter</artifactId>
    <version>4.0.1</version>
</dependency>

数据源配置

如果应用sharding-jdbc-spring-boot-starter, 并且数据源以及数据分片都应用shardingsphere进行配置，对应的数据源会主动创立并注入到spring容器中。

spring.shardingsphere.datasource.names=ds0,ds1

spring.shardingsphere.datasource.ds0.type=org.apache.commons.dbcp.BasicDataSource
spring.shardingsphere.datasource.ds0.driver-class-name=com.mysql.jdbc.Driver
spring.shardingsphere.datasource.ds0.url=jdbc:mysql://localhost:3306/ds0
spring.shardingsphere.datasource.ds0.username=root
spring.shardingsphere.datasource.ds0.password=

spring.shardingsphere.datasource.ds1.type=org.apache.commons.dbcp.BasicDataSource
spring.shardingsphere.datasource.ds1.driver-class-name=com.mysql.jdbc.Driver
spring.shardingsphere.datasource.ds1.url=jdbc:mysql://localhost:3306/ds1
spring.shardingsphere.datasource.ds1.username=root
spring.shardingsphere.datasource.ds1.password=

# 其它分片配置

然而在咱们已有的我的项目中，数据源配置是独自的。因而要禁用sharding-jdbc-spring-boot-starter外面的主动拆卸，而是参考源码本人重写数据源配置。须要在启动类上加上@SpringBootApplication(exclude = {org.apache.shardingsphere.shardingjdbc.spring.boot.SpringBootConfiguration.class})来排除。而后自定义配置类来拆卸DataSource。

@Configuration
@Slf4j
@EnableConfigurationProperties({
        SpringBootShardingRuleConfigurationProperties.class,
        SpringBootMasterSlaveRuleConfigurationProperties.class, SpringBootEncryptRuleConfigurationProperties.class, SpringBootPropertiesConfigurationProperties.class})
@AutoConfigureBefore(DataSourceConfiguration.class)
public class DataSourceConfig implements ApplicationContextAware {

    @Autowired
    private SpringBootShardingRuleConfigurationProperties shardingRule;

    @Autowired
    private SpringBootPropertiesConfigurationProperties props;

    private ApplicationContext applicationContext;

    @Bean("shardingDataSource")
    @Conditional(ShardingRuleCondition.class)
    public DataSource shardingDataSource() throws SQLException {
        // 获取其它形式配置的数据源
        Map<String, DruidDataSourceWrapper> beans = applicationContext.getBeansOfType(DruidDataSourceWrapper.class);
        Map<String, DataSource> dataSourceMap = new HashMap<>(4);
        beans.forEach(dataSourceMap::put);
        // 创立shardingDataSource
        return ShardingDataSourceFactory.createDataSource(dataSourceMap, new ShardingRuleConfigurationYamlSwapper().swap(shardingRule), props.getProps());
    }

    @Bean
    public SqlSessionFactory sqlSessionFactory() throws SQLException {
        SqlSessionFactoryBean sqlSessionFactoryBean = new SqlSessionFactoryBean();
        // 将shardingDataSource设置到SqlSessionFactory中
        sqlSessionFactoryBean.setDataSource(shardingDataSource());
        // 其它设置
        return sqlSessionFactoryBean.getObject();
    }
}

分布式id生成器配置

Sharding-JDBC提供了UUID、SNOWFLAKE生成器，还反对用户实现自定义id生成器。比方能够实现了type为SEQ的分布式id生成器，调用对立的分布式id服务获取id。

@Data
public class SeqShardingKeyGenerator implements ShardingKeyGenerator {

    private Properties properties = new Properties();

    @Override
    public String getType() {
        return "SEQ";
    }

    @Override
    public synchronized Comparable<?> generateKey() {
       // 获取分布式id逻辑
    }
}

因为扩大ShardingKeyGenerator是通过JDK的serviceloader的SPI机制实现的，因而还须要在resources/META-INF/services目录下配置org.apache.shardingsphere.spi.keygen.ShardingKeyGenerator文件。文件内容就是SeqShardingKeyGenerator类的全路径名。这样应用的时候，指定分布式主键生成器的type为SEQ就好了。

至此，Sharding-JDBC就整合进spring-boot我的项目中了，前面就能够进行数据分片相干的配置了。

数据分片实战

如果我的项目初期就能预估出表的数据量级，当然能够一开始就依照这个预估值进行分库分表处理。然而大多数状况下，咱们一开始并不能筹备预估出数量级。这时候通常的做法是：

线上数据某张表查问性能开始降落，排查下来是因为数据量过大导致的。
依据历史数据量预估出将来的数据量级，并联合具体业务场景确定分库分表策略。
主动分库分表代码实现。

上面就以一个具体事例，论述具体数据分片实战。比方有张表数据结构如下：

CREATE TABLE `hc_question_reply_record` (
  `id` bigint NOT NULL AUTO_INCREMENT COMMENT '自增ID',
  `reply_text` varchar(500) NOT NULL DEFAULT '' COMMENT '回复内容',
  `reply_wheel_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '回复工夫',

  `ctime` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创立工夫',
  `mtime` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新工夫',
  PRIMARY KEY (`id`),
  INDEX `idx_reply_wheel_time` (`reply_wheel_time`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci
  COMMENT='回复明细记录';

分片计划确定

先查问目前指标表月新增趋势：

SELECT count(*), date_format(ctime, '%Y-%m') AS `日期`
FROM hc_question_reply_record
GROUP BY date_format(ctime, '%Y-%m');

目前月新增在180w左右，预估将来达到300w(根本以2倍计算)以上。冀望单表数据量不超过1000w，可应用reply_wheel_time作为分片键按季度归档。

分片配置

spring:
  # sharing-jdbc配置
  shardingsphere:
    # 数据源名称
    datasource:
      names: defaultDataSource,slaveDataSource
    sharding:
      # 主从节点配置
      master-slave-rules:
        defaultDataSource:
          # maser数据源
          master-data-source-name: defaultDataSource
          # slave数据源
          slave-data-source-names: slaveDataSource
      tables:
        # hc_question_reply_record 分库分表配置
        hc_question_reply_record:
          # 实在数据节点  hc_question_reply_record_2020_q1
          actual-data-nodes: defaultDataSource.hc_question_reply_record_$->{2020..2025}_q$->{1..4}
          # 表分片策略
          table-strategy:
            standard:
              # 分片键
              sharding-column: reply_wheel_time
              # 准确分片算法 全路径名
              preciseAlgorithmClassName: com.xx.QuestionRecordPreciseShardingAlgorithm
              # 范畴分片算法，用于BETWEEN，可选。。该类需实现RangeShardingAlgorithm接口并提供无参数的结构器
              rangeAlgorithmClassName: com.xx.QuestionRecordRangeShardingAlgorithm

      # 默认分布式id生成器
      default-key-generator:
        type: SEQ
        column: id

分片算法实现

准确分片算法：QuestionRecordPreciseShardingAlgorithm

 public class QuestionRecordPreciseShardingAlgorithm implements PreciseShardingAlgorithm<Date> {
   @Override
   public String doSharding(Collection<String> availableTargetNames, PreciseShardingValue<Date> shardingValue) {
       return ShardingUtils.quarterPreciseSharding(availableTargetNames, shardingValue);
   }

范畴分片算法：QuestionRecordRangeShardingAlgorithm

 public class QuestionRecordRangeShardingAlgorithm implements RangeShardingAlgorithm<Date> {
   @Override
   public Collection<String> doSharding(Collection<String> availableTargetNames, RangeShardingValue<Date> shardingValue) {
       return ShardingUtils.quarterRangeSharding(availableTargetNames, shardingValue);
   }
 }

具体分片实现逻辑：ShardingUtils

 @UtilityClass
 public class ShardingUtils {
     public static final String QUARTER_SHARDING_PATTERN = "%s_%d_q%d";
     public Collection<String> quarterRangeSharding(Collection<String> availableTargetNames, RangeShardingValue<Date> shardingValue) {
         // 这里就是依据范畴查问条件，筛选出匹配的实在表汇合
     }

     public static String quarterPreciseSharding(Collection<String> availableTargetNames, PreciseShardingValue<Date> shardingValue) {
         // 这里就是依据等值查问条件，计算出匹配的实在表
     }
 }

到这里，针对hc_question_reply_record表，应用reply_wheel_time作为分片键，依照季度分片的解决就实现了。还有一点要留神的就是，分库分表之后，查问的时候最好都带上分片键作为查问条件，否则就会应用全库路由，性能很低。还有就是Sharing-JDBC对mysql的全文索引反对的不是很好，我的项目有应用到的中央也要留神一下。总结来说整个过程还是比较简单的，后续碰到其它业务场景，置信大家依照这个思路必定都能解决的。

关于java:数据量大了一定要分表分库分表组件ShardingJDBC入门与项目实战

外围概念

逻辑表

实在表

数据节点

绑定表

播送表

数据分片

分片键

分片算法

准确分片算法

范畴分片算法

复合分片算法

Hint分片算法

分片策略

规范分片策略

复合分片策略

行表达式分片策略

Hint分片策略

分布式主键

读写拆散

执行流程

我的项目实战

引入依赖

数据源配置

分布式id生成器配置

数据分片实战

分片计划确定

分片配置

分片算法实现

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于java:数据量大了一定要分表分库分表组件ShardingJDBC入门与项目实战

外围概念

逻辑表

实在表

数据节点

绑定表

播送表

数据分片

分片键

分片算法

准确分片算法

范畴分片算法

复合分片算法

Hint分片算法

分片策略

规范分片策略

复合分片策略

行表达式分片策略

Hint分片策略

分布式主键

读写拆散

执行流程

我的项目实战

引入依赖

数据源配置

分布式id生成器配置

数据分片实战

分片计划确定

分片配置

分片算法实现

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复