关于canal:移山数据迁移平台实时数据同步服务的架构设计

移山是禧云自研的数据迁徙平台，蕴含异构数据源的迁徙、实时数据同步等服务。有趣味的能够看这里理解在移山中怎么实现异构数据源的迁徙；
本文次要介绍移山实时数据同步服务产生的背景以及整体架构设计。

一. 移山实时数据同步服务产生背景

禧云各个子公司业务零碎根本都是以 MySQL 为主；
做为数据反对部门，须要订阅这些业务数据做为数据仓库的数据源，来进行上游的数据分析。比方：
- 各种离线数据 T+1 报表展现；
- 实时数据大屏展现等。

微信小程序实时数据指标展现

像这种常见的实时数据指标大屏展现，背地可能就用到实时数据同步服务技术栈。

二. 移山实时数据同步服务应用canal中间件

1. 应用场景合乎

它能够对 MySQL 数据库增量日志解析，提供增量数据订阅和生产，完全符合咱们的应用场景。

2. 反对将订阅到的数据投递到kafka

canal 1.1.1版本之后，server端能够通过简略的配置就能将订阅到的数据投递到MQ中，目前反对的MQ有kafka、RocketMQ，代替老版本中必须通过手动编码投递的形式。

移山的实时数据同步服务应用的MQ为kafka，以下为次要配置：

批改canal.properties中配置

# 这里写上以后canal server所在机器的ipcanal.ip = 10.200.*.109# register ip to zookeeper（这里写上以后canal server所在机器的ip）canal.register.ip = 10.200.*.109# 指定注册的zk集群地址canal.zkServers =10.200.*.109:2181,10.200.*.110:2181# tcp, kafka, RocketMQ（设置serverMode模式，这个配置十分要害，咱们设置为kafka）canal.serverMode = kafka# 这个demo就是conf目录里的实例canal.destinations = demo# HA模式必须应用该xml，须要将相干数据写入zookeeper,保证数据集群共享canal.instance.global.spring.xml = classpath:spring/default-instance.xml# 这里设置 kafka集群地址(其它对于mq的配置参数能够依据理论状况设置)canal.mq.servers = 10.200.*.108:9092,10.200.*.111:9092

批改demo.properties中配置

# canal假装的MySQL slave的编号，不能与MySQL数据库和其余的slave反复# canal.instance.MySQL.slaveId=1003# 按需批改成本人的数据库信息# position info（须要订阅的MySQL数据库地址）canal.instance.master.address=10.200.*.109:3306# 这里配置要订阅的数据库，数据库的用户名和明码canal.instance.dbUsername=canalcanal.instance.dbPassword=canalcanal.instance.defaultDatabaseName =# 设置要订阅的topic名称canal.mq.topic=demo# 设置订阅散列模式的分区数canal.mq.partitionsNum=3

备注

更多对于mq的配置参数解释，能够拜访这里：https://github.com/alibaba/canal/wiki/Canal-Kafka-RocketMQ-QuickStart
多个 canal server 除了 ip 和 MySQL.slaveId 设置不同外，其它都应该放弃雷同的配置。

3.反对带cluster模式的客户端链接，保障服务高可用

客户端能够间接指定zookeeper地址、instance name，canal client 会主动从zookeeper中的running节点，获取以后canal server服务的工作节点，而后与其建设链接；
其它canal server节点则做为Standby状态，如果以后active节点产生故障，能够主动实现failover切换。

对canal 的高可用（HA机制）想理解更多，能够查看这篇文章。

三. 移山实时数据同步流程图

实时数据同步服务流程图（摘自《禧云数芯大数据平台技术白皮书》）如下：

总结

canal server 订阅业务零碎的 MySQL 数据库产生的 bin log；
canal server 将订阅到的 bin log 投递至 kafka 指定的topic里；
kafka 生产端拿到音讯，依据理论的数据应用场景，将数据再写入 Hbase 或 MySQL，或间接做实时剖析。

四. 创立一个实时数据同步工作的次要步骤

以创立一个数据订阅类型为 HBase 的数据同步工作为例，次要步骤如下：

创立kafka的topic；
进入到canal server的bin目录，拷贝example整个目录，生成一个新的实例目录；
手动批改新实例的配置文件，配置以下主要参数：
- 3.1 设置slaveId，不能与曾经胜利运行的实例设置的slaveId值反复；
- 3.2 要订阅的数据库所在的机器地址和端口号；
- 3.3 要订阅的数据库名称；
- 3.4 要订阅的表；
- 3.5 要订阅的数据库用户名、明码；
- 3.6 配置向kafka发送音讯的topic；
- 3.7 配置kafka的partition等；
重启canal server；
查看实例的启动日志，判断实例是否启动胜利。

存在的问题

因为不足 WebUI 的撑持，因而会存在以下问题：

流程简单：如上这些一系列的操作都是依附脚本的形式配置实现，配置过程繁琐，数据开发者很容易在某个环节上产生脱漏、出错；
不利于工作的对立治理：比方谁开发的工作可能只有写代码的这个人比拟相熟；
不不便查看工作的运行状况：比方已生产音讯数、提早音讯数；
不利于排查问题：查看工作的执行状况只能登陆 canal server 所在服务器去查看工作所属实例的启动日志，如果遇到谬误时，不可能疾速及时的排查问题。

怎么解决问题

为了解决下面提到的这些问题，咱们开发了移山的实时数据同步服务。

后话

在最新的稳定版：canal 1.1.4版本，迎来最重要的 WebUI 能力；
instance 能够通过 WebUI 来创立，然而有局部使用者反馈，instance的启动会有不稳固的状况呈现，咱们期待稳固版本能够疾速公布。

五. 移山实时数据同步服务整体架构

1. 所需集群环境

zookeeper集群

为什么要用zookeeper集群，能够看这篇文章：阿里canal是怎么通过zookeeper实现HA机制的？

kafka集群

kafka 具备高吞吐量、内置的分区、备份冗余分布式等特点，为大规模音讯解决提供了一种很好的解决方案；
后面曾经提到过 canal 中间件通过简略的配置即可反对将订阅到的数据间接投递到 kafka中。

canal server集群

为保障数据订阅服务的稳定性，咱们须要借助 canal 的HA机制，实现故障主动转移，保障服务高可用，因而咱们须要部署多个 canal server。

hbase集群

数据湖在禧云的实际是存储团体各子公司、ISV各种各样原始数据的大型仓库，其中的数据可供存取、解决、剖析和传输；
数据湖的技术解决方案，咱们抉择的是 Apache HBase。

2. 移山实时数据同步架构设计

架构图

canal server端

在canal server 的多个节点上手工创立、运行instance；

备注：

咱们在配置instance相干参数时，不指定具体的数据库，这样该instance能够订阅到该MySQL节点上的所有数据库，而后在移山创立同步工作时再指定具体要订阅的表。

移山

前端采纳 Vue.js + Element UI，后端应用 SpringBoot 开发：

前端工程
- 负责提供创立实时同步工作所需的 WebUI；
- 提供丰盛的工作运行监控性能。
后端工程
- 负责前端工程的数据接口，会记录指标表（实时同步工作订阅到的数据最终存储的目的地）的各种元数据信息。

备注：

如果要创立的同步工作将数据存储至MySQL，则须要提前人工干预创立MySQL表（MySQL数据库由DBA对立治理）；
如果要创立的同步工作将数据存储至Hbase，则在移山创立工作时，由后盾主动创立Hbase表。

变形金刚

解决订阅数据存储的java工程，分为三个可独自部署的模块：

canal client服务
- canal 客户端，从 canal server 拿到数据，并将数据投递至kafka。
kafkaToHbase服务
- kafka 生产端，负责将接管的音讯进行转化解决，解决后的数据存储至Hbase。
kafkaToMySQL服务
- kafka 生产端，负责将接管的音讯进行转化解决，解决后的数据存储至MySQL。

备注：

以上三个服务均反对命令行启动、进行。

关注微信公众号

欢送大家关注我的微信公众号浏览更多文章：