关于数据库:送你两个神器关系数据库数据入湖轻松应对

摘要：关系数据库的数据入湖，有多种场景、多种工具、多种入湖时效要求等，本文梳理相干场景，以及对应的倡议计划。

本文分享自华为云社区《关系数据库数据入湖的场景及计划总结》，作者：HisonHuang 。

关系数据库的数据入湖，有多种场景、多种工具、多种入湖时效要求等，本文梳理相干场景，以及对应的倡议计划。

首先介绍下两种入湖工具：批量数据迁徙工具（如CDM）和实时数据接入工具（如CDL）。

批量数据迁徙工具，能够一次全量、一次全量+批次增量的形式将数据从关系数据库的数据迁徙到数据湖，往往入湖时效性（从数据产生到数据进入数据湖贴源层）在10多分钟或更长，如15分钟左右，取决于批次增量迁徙工作的工夫距离。以下是批量数据迁徙工具（CDM）的性能架构图：

实时数据接入工具（如CDL），能够实时捕捉关系数据库的binlog日志，保留在音讯队列如Kafka，并反对实时解析binlog日志生成增删改命令来操作数据湖的数据记录，实现关系数据库的数据实时入湖，入湖时效性在秒级或分钟级，个别小于15分钟。以下是实时数据接入工具（CDL）的性能架构图：

场景1：关系数据库有存量历史数据，无实时产生的新数据

计划：
1、入湖工具：批量数据迁徙工具（如CDM）
2、入湖形式：整表迁徙，示意如下：

3、入湖流程：
3.1、应用入湖工具，配置关系数据库作为源端，配置HDFS/Hive的目录作为目标端；
3.2、用入湖工具启动入湖作业，关系数据库-》HDFS目录（数据湖贴源层）。

场景2：关系数据库初始无数据，在建设入湖流程后，关系数据库才凋谢数据写入

计划：
前置条件：关系数据库关上binlog日志开关。
1、入湖工具：实时数据接入工具（如CDL）
2、入湖形式：实时增量数据入湖，示意如下：

3、入湖流程：
3.1、应用入湖工具，配置关系数据库作为源端，配置Hudi文件的目录作为目标端；
3.2、启动入湖工具运行；
3.3、关系数据库的实时增量数据入湖；
3.3.1、数据记录插入、批改、删除到关系数据库；
3.3.2、关系数据库的数据变动日志被实时捕捉到入湖工具；
3.3.3、入湖工具解析日志，调用Hudi接口插入、批改、删除数据记录到Hudi文件的目录（数据湖贴源层）。

场景3：关系数据库有存量历史数据，且实时产生新数据，数据记录有工夫标识字段

计划1：
1、入湖工具：批量数据迁徙工具（如CDM）
2、入湖形式：首次存量历史数据入湖+继续批次增量数据入湖
3、入湖时效：近实时（取决于批次调度周期）
4、入湖流程：
4.1、假如关系数据库实时产生稳固数量的新数据；
4.2、应用入湖工具，配置关系数据库作为源端，配置HDFS/Hive的目录作为目标端；
4.3、用入湖工具，启动存量数据入湖作业，其中Where过滤条件的工夫标识字段从初始工夫截止到以后工夫；
注：存量数据入湖作业运行工夫较久，视存量历史数据量、网络带宽、入湖作业吞吐量等因素决定。在此期间，关系数据库因为一直承受新写入，累积较大量的新数据。
4.4、继续批次启动增量数据入湖作业，其中Where过滤条件的工夫标识字段从上一批次作业的截止工夫到到以后工夫；每批次迁徙数据量逐渐缩小，批次之间的工夫距离逐渐减小并趋势稳固，每批次作业所占用的计算资源也逐渐减小并趋势稳固。示意如下：

计划2：
前置条件：关系数据库关上binlog日志开关。
1、入湖工具：批量数据迁徙工具（如CDM）+ 实时数据接入工具（如CDL）
2、入湖形式：首次存量历史数据入湖+继续批次增量数据入湖+实时增量数据入湖
3、入湖时效：前两个阶段非实时，最初阶段进入实时
4、入湖流程：
4.1、假如关系数据库实时产生稳固数量的新数据；
4.2、应用批量数据迁徙工具，配置关系数据库作为源端，配置HDFS/Hive的目录作为目标端（表A，文件格式可能是CSV）；
4.3、用批量数据迁徙工具，启动存量数据入湖作业，其中Where过滤条件的工夫标识字段从初始工夫截止到以后工夫；
注：存量数据入湖作业运行工夫较久，视存量历史数据量、网络带宽、入湖作业吞吐量等因素决定。在此期间，关系数据库因为一直承受新写入，累积较大量的新数据。
4.4、继续批次启动增量数据入湖作业，其中Where过滤条件的工夫标识字段从上一批次作业的截止工夫到到以后工夫；每批次迁徙数据量逐渐缩小，批次之间的工夫距离逐渐减小并趋势稳固，每批次作业所占用的计算资源也逐渐减小并趋势稳固；
4.5、某工夫点Ts暂停关系数据库的数据写入，确保Ts之前的数据全副由批次作业迁徙到了HDFS目录（数据湖贴源层）；
4.6、进行批量数据迁徙工具的批次作业。
4.7、应用实时数据接入工具，配置关系数据库作为源端，配置Hudi文件的目录作为目标端（表B，文件格式是Hudi）；
4.8、启动实时数据接入工具运行；
4.9、此时Te关系数据库凋谢数据写入；
4.10、关系数据库的实时增量数据入湖；
4.10.1、关系数据库的数据变动日志被实时捕捉到实时数据接入工具；
4.10.2、实时数据接入工具解析日志，调用Hudi接口插入、批改、删除数据记录到Hudi文件的目录（数据湖贴源层）。示意如下：

场景4：关系数据库有存量历史数据，且实时产生新数据，数据记录无工夫标识字段

计划：
前置条件：关系数据库关上binlog日志开关。
1、入湖工具：批量数据迁徙工具（如CDM）+ 实时数据接入工具（如CDL）
2、入湖形式：整表迁徙+实时增量数据入湖
3、入湖时效：最初阶段进入实时
4、入湖流程：
4.1、暂停关系数据库的数据写入；
4.2、应用批量数据迁徙工具，配置关系数据库作为源端，配置HDFS/Hive的目录作为目标端（表A，文件格式可能是CSV）；
4.3、用批量数据迁徙工具批量数据迁徙工具启动入湖作业，关系数据库-》HDFS目录（数据湖贴源层）；
4.4、以上存量数据迁徙实现后，进行批量数据迁徙工具的批次作业；
4.5、应用实时数据接入工具，配置关系数据库作为源端，配置Hudi文件的目录作为目标端（表B，文件格式是Hudi）；
4.6、启动实时数据接入工具运行；
4.7、此时Te关系数据库凋谢数据写入；
4.8、关系数据库的实时增量数据入湖；
4.8.1、关系数据库的数据变动日志被实时捕捉到实时数据接入工具；
4.8.2、实时数据接入工具解析日志，调用Hudi接口插入、批改、删除数据记录到Hudi文件的目录（数据湖贴源层）。示意如下：

点击关注，第一工夫理解华为云陈腐技术~

关于数据库:送你两个神器关系数据库数据入湖轻松应对

场景1：关系数据库有存量历史数据，无实时产生的新数据

场景2：关系数据库初始无数据，在建设入湖流程后，关系数据库才凋谢数据写入

场景3：关系数据库有存量历史数据，且实时产生新数据，数据记录有工夫标识字段

场景4：关系数据库有存量历史数据，且实时产生新数据，数据记录无工夫标识字段

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:送你两个神器关系数据库数据入湖轻松应对

场景1：关系数据库有存量历史数据，无实时产生的新数据

场景2：关系数据库初始无数据，在建设入湖流程后，关系数据库才凋谢数据写入

场景3：关系数据库有存量历史数据，且实时产生新数据，数据记录有工夫标识字段

场景4：关系数据库有存量历史数据，且实时产生新数据，数据记录无工夫标识字段

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复