乐趣区

关于数据库:教你三步实现CDH到星环TDH的平滑迁移

Transwarp Data Hub(TDH)是星环科技自主研发的企业级一站式多模型大数据根底平台,其当先的多模型技术架构提供对立的接口层,对立的计算引擎层,对立的分布式存储管理层,对立的资源调度层,以及异构存储引擎层。8 种异构存储引擎能够反对包含关系表、文本、时空天文、图数据、文档、时序等在内的 10 种数据模型。存算解耦个性反对弹性扩大,让资源配置更灵便。

星环一站式多模型大数据根底平台 TDH 架构图
TDH 可能存储 PB 级别的海量数据,同时可能提供高性能的查问搜寻、实时剖析、统计分析、预测性剖析等数据分析性能,被广泛应用在离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储剖析、空间数据存储、实时数据处理等各类大数据业务场景。
目前 TDH 曾经在政府、金融、能源、制造业等十多个行业内落地,能够代替 Oracle、IBM DB2、Teradata 等传统支流数据库在剖析型场景中的利用及代替 CDH 在大数据平台的利用,帮忙企业,更全面、更便捷、更智能、更平安地使用数据,减速企业数字化转型。
本文将基于某金融机构的数据仓库批处理场景来手把手率领大家“三步”实现 CDH 到星环 TDH 的平滑迁徙。

CDH 集群及业务场景
某金融机构基于 CDH 构建了离线数仓和对客高并发查问业务,残缺业务场景包含:
数据抽取,通过 Sqoop 根本从业务数据库中抽取数据到分布式文件 HDFS;
数据加载,通过 Shell 脚本将数据 Load 到离线数仓 Hive 中,保留为 orc 格局;
数据加工,通过 Hive 脚本做数据离线批处理加工,撑持营销、风控等业务;
对客查问,局部后果 load 到 HBase 对客提供高并发查问服务;
理论客户场景波及数千张表和脚本,百 TB 级别数据量,这里咱们对其中残缺逻辑做了形象,精简的过程便以了解迁徙过程。

CDH 集群信息
硬件信息
节点数 3
CPU 40 核 / 节点
内存 256G/ 节点
磁盘 12*1.7T/ 节点
软件信息
软件 版本
CDH V6.2.1
Hive V2.1.1
Hbase V2.1.2
Hadoop V3.0.0
Sqoop V1.99.5

CDH 数据处理流程
数据抽取(模仿数据 ETL)
用 Sqoop 工具从业务数据库抽取数据到 Hive 表。

批处理数据(模仿数据加工)
在 Hive 中执行批处理 SQL,把后果写入销售统计表。

将处理结果导入 HBase,在 HBase 中查问后果(模仿对客查问)

  • 用 HBase 的导数工具把 Hive 批处理后果导入 HBase。
  • 点查

在正式迁徙之前,咱们须要筹备好 TDH 的部署环境,并装置好星环 TDH,具体的装置步骤可参考《手把手教你装置 TDH8.1.0》。

TDH 集群信息
TDH 集群信息
硬件信息
节点数 3
CPU 40 核 / 节点
内存 256G/ 节点
磁盘 12*1.7T/ 节点
软件信息
软件 版本
TDH V8.1.2
HDFS V8.1.0
Inceptor V8.1.0
Hyperbase V8.1.0
Transporter V2.2.0

星环 TDH 产品介绍
产品 应用场景 次要性能
分布式文件系统 Transwarp Distributed File System(TDFS)提供 Inceptor、Hyperbase 等产品所须要的文件读写性能,也能够间接通过接口为客户提供分布式文件系统服务 TDFS 是用于存取 PB 级海量文件的分布式文件系统,提供了兼容 Hadoop 生态的文件系统 API,实现了十亿及以上数量级的文件读写能力。
关系型剖析引擎 Inceptor 数据湖以及其余结构化数据的剖析场景等 Inceptor 是一款能够对数百万张结构化数据表、PB 级的海量数据进行存储和加工的分布式关系型剖析引擎。Inceptor 反对绝大部分 ANSI 92、99、2003 SQL 规范,兼容传统关系型数据库方言,如 Oracle、IBM DB2、Teradata 等,反对存储过程,反对分布式事务,便于存量数据分析业务平滑迁徙。
宽表数据库 Hyperbase 历史数据查问零碎、面向消费者的高并发的数据查问业务等场景 Hyperbase 是一款可能实现在 TB 到 PB 级数据量下毫秒级响应延时、百万级高并发检索的 NoSQL 宽表数据库。Hyperbase 与 Inceptor 组合,能够为开发者提供良好的 SQL 兼容性和存储过程的开发能力,反对多种类型的索引技术,反对寄存结构化数据以及图片、文本等非结构化数据,可能实现结构化和非结构化数据的混合存储。
大数据整合工具 Transporter 数据湖、数据仓库 Transporter 是可视化的 ETL 开发工具,将扩散于各个中央、各种平台上的各种类型的数据同步或集成到大数据平台上,通过简洁、对立的可视化界面疾速配置数据流转流程,实现异构平台和数据源之间的数据整合。Transporter 自研的疾速数据同步技术,提供了分布式事务能力,保障了数据在跨平台之间流转时的准确性和一致性。

在装置好 TDH 及服务之后,咱们须要装置星环大数据平台数据备份复原软件 Transwarp  Backup (TBAK),之后咱们就能够在 TBAK 的可视化界面通过简略的“三步”来实现 CDH 到星环 TDH 的平滑迁徙。
Transwarp  Backup (TBAK)是星环的大数据平台数据备份复原软件,可独立于生产集群与备份集群之外,具备灾备计划制订与调度灾备工作的性能。同时,灾备零碎提供了可视化的操作页面以及丰盛的统计监控页面,用户通过浏览器进行简略的操作即可直观的设计灾备计划、剖析灾备工作,从而实现集群的数据备份、同步、迁徙。

三步实现 CDH 到星环 TDH 的平滑迁徙
Step1 配置 CDH 和 TDH 集群
该步骤次要是用来配置 CDH 和 TDH 集群,为后续数据迁徙做筹备。星环 TBAK 提供可视化的界面进行集群配置,咱们依据界面指引式向导进行配置即可实现,简便快捷。
CDH 集群配置
首先新建一个 CDH 集群配置,咱们能够在集群配置界面设置 CDH 集群名称,协定,CDH Manager IP,端口,用户名和明码等信息。


当集群信息配置实现并校验胜利后,咱们就能够获取到配置文件。之后咱们须要对各服务进行配置并测试连贯,在该案例场景中应用的是 HDFS,HBase 和 Hive。

TDH 集群配置
同样,咱们对 TDH 集群进行相应配置。


Step2 创立 CDH 迁徙计划
当 CDH 和 TDH 集群配置实现后,咱们就能够配置 CDH 到 TDH 的迁徙计划了。依据该案例 CDH 的业务状况,咱们须要别离对 CDH Hive,HDFS 和 HBase 的迁徙计划进行配置。

创立 CDH Hive 迁徙计划
以 CDH Hive 迁徙计划为例,TDH 提供服务级和表级的迁徙策略,例如这里咱们在同步类型中抉择“CDH 到 TDH Hvie 表迁徙”,同时咱们能够对源集群,灾备集群,调度策略等进行配置。在调度策略中用户能够依据理论状况进行配置,咱们能够设置在业务空窗期的每天凌晨 2 点进行数据迁徙。同时,用户能够设置相应的告警策略,当迁徙产生问题时能够第一工夫收到告警信息并对问题进行排查和复原。


与创立 CDH Hive 迁徙计划的操作步骤雷同,咱们能够对 CDH HFDS 和 HBase 的迁徙计划进行配置。

Step3 执行迁徙工作和后果查看
当集群配置实现后,所有的迁徙计划将在迁徙计划界面进行治理和操作。咱们能够抉择相应的迁徙计划进行操作,例如立刻执行和设置执行策略。
执行迁徙工作

点击执行迁徙工作之后,零碎进入到主动迁徙状态,咱们能够监测迁徙工作执行的整体状态信息,并且能够对每一步的执行状况进行实时监测,例如胜利,失败,告警,执行中和未执行。当迁徙产生故障时,咱们会收到执行故障的告警,并对故障产生的阶段进行排查和故障复原。

迁徙后果查看
当所有迁徙步骤都显示胜利后,咱们能够对迁徙前后的状况进行查看确认。
Hive 迁徙
迁徙前 CDH Hive 表

迁徙前 TDH Inceptor 对应表不存在

迁徙后 TDH Inceptor 对应表查问后果

如上查看,咱们能够确认 CDH Hive 表迁徙胜利。同样地,咱们对 HDFS 和 HBase 迁徙状况进行查看以确认迁徙已胜利。

至此,CDH 到 TDH 的迁徙工作就全副实现了。

整个迁徙过程均在可视化界面实现,逻辑清晰,操作简略,配置灵便,通过 3 步即可实现所有的迁徙工作,同时用户能够对迁徙过程进行全流程实时监控,保障整个迁徙过程顺利进行。

迁徙后 TDH 数据处理流程
接下来咱们来看看 CDH 迁徙到 TDH 后的数据处理流程。
数据 ETL(抽取 + 加载)
在星环大数据开发工具 Transwarp Data Studio(TDS)中配置数据同步,从业务数据库抽取数据到星环关系型剖析引擎 Inceptor 中。



数据加工
Inceptor 高度兼容 Hive,批处理工作根本不需改变即能够迁徙到 Inceptor 执行。
与 CDH 要手动向 HBase 导入数据不同,TDH 中能够间接把批处理后果写入 Hyperbase 表中。

![](/img/bVcYvRB)


Hyperbase 提供对客高并发查问
Transwarp Hyperbase 反对 SQL 和 API 两种查问形式,用户能够依据理论状况进行抉择。
SQL 查问形式
对传统数据库开发人员敌对,门槛低,新业务开发和保护成本低。

API 查问形式
星环 TDH 对原来基于 CDH 开发的利用兼容性高,原先业务能够平滑迁徙到 TDH。

迁徙前后数据处理流程比照

CDH    星环 TDH

数据抽取 用 Sqoop 脚本从业务数据库抽取数据到 HDFS 用 Transporter 工具将从业务数据库同步数据到企业级数据仓库 Inceptor 中,一步实现数据 ETL
数据加载 用 Shell 脚本将 HDSF 数据 load 到 Hive
批数加工 在 Hive 中执行批处理 SQL 在 Inceptor 外面执行批处理,兼容 Hive 脚本,同时具备更残缺的 SQL 规范、存储过程、以及 Oracle、DB2、TD 等传统数据库方言
对客查问 用 HBase 的导数工具把 Hive 批处理后果导入 HBase,在 Hbase 中查问后果 多模大数据平台,Inceptor 批处理后果间接能够通过 Hyperbase 对外提供高并发查问,Hyperbase 既兼容 HBase API 也能够通过规范 SQL 低成本开发新业务

以上就是从 CDH 到星环一站式多模型大数据平台 TDH 的迁徙过程介绍。

作为一家企业级大数据根底软件开发商,星环科技始终保持自主研发与技术创新,并重视技术的落地利用,帮忙各行各业的用户提供国产化大数据根底软件,为企业数字化转型提供弱小的技术撑持。

链接:

  1. 手把手教你装置 TDH8.1.0 https://mp.weixin.qq.com/s/AV…
  2. 星环科技 TDH8.1.0:全新降级为用户带来极致体验 https://mp.weixin.qq.com/s/gw…
  3. 便捷、高效、智能—从运维视角看星环科技大数据根底平台 TDH https://mp.weixin.qq.com/s/If…
退出移动版