Transwarp Data Hub(TDH) 是星环科技自主研发的企业级一站式多模型大数据根底平台,其当先的多模型技术架构提供对立的接口层,对立的计算引擎层,对立的分布式存储管理层,对立的资源调度层,以及异构存储引擎层。8种异构存储引擎能够反对包含关系表、文本、时空天文、图数据、文档、时序等在内的10种数据模型。存算解耦个性反对弹性扩大,让资源配置更灵便。

星环一站式多模型大数据根底平台TDH架构图
TDH可能存储PB 级别的海量数据,同时可能提供高性能的查问搜寻、实时剖析、统计分析、预测性剖析等数据分析性能,被广泛应用在离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储剖析、空间数据存储、实时数据处理等各类大数据业务场景。
目前 TDH 曾经在政府、金融、能源、制造业等十多个行业内落地,能够代替Oracle、IBM DB2、Teradata等传统支流数据库在剖析型场景中的利用及代替CDH在大数据平台的利用,帮忙企业,更全面、更便捷、更智能、更平安地使用数据,减速企业数字化转型。
本文将基于某金融机构的数据仓库批处理场景来手把手率领大家“三步”实现 CDH到星环TDH的平滑迁徙。

CDH集群及业务场景
某金融机构基于CDH构建了离线数仓和对客高并发查问业务,残缺业务场景包含:
数据抽取,通过Sqoop根本从业务数据库中抽取数据到分布式文件HDFS;
数据加载,通过Shell脚本将数据Load到离线数仓Hive中,保留为orc格局;
数据加工,通过Hive脚本做数据离线批处理加工,撑持营销、风控等业务;
对客查问,局部后果load到HBase对客提供高并发查问服务;
理论客户场景波及数千张表和脚本,百TB级别数据量,这里咱们对其中残缺逻辑做了形象,精简的过程便以了解迁徙过程。

CDH集群信息
硬件信息
节点数 3
CPU 40核/节点
内存 256G/节点
磁盘 12*1.7T/节点
软件信息
软件 版本
CDH V6.2.1
Hive V2.1.1
Hbase V2.1.2
Hadoop V3.0.0
Sqoop V1.99.5

CDH数据处理流程
数据抽取(模仿数据ETL)
用Sqoop工具从业务数据库抽取数据到Hive表。

批处理数据(模仿数据加工)
在Hive中执行批处理SQL,把后果写入销售统计表。

将处理结果导入HBase,在HBase中查问后果(模仿对客查问)

  • 用HBase的导数工具把Hive批处理后果导入HBase。
  • 点查

在正式迁徙之前,咱们须要筹备好TDH的部署环境,并装置好星环TDH,具体的装置步骤可参考《手把手教你装置TDH8.1.0》。

TDH集群信息
TDH集群信息
硬件信息
节点数 3
CPU 40核/节点
内存 256G/节点
磁盘 12*1.7T/节点
软件信息
软件 版本
TDH V8.1.2
HDFS V8.1.0
Inceptor V8.1.0
Hyperbase V8.1.0
Transporter V2.2.0

星环TDH产品介绍
产品 应用场景 次要性能
分布式文件系统Transwarp Distributed File System(TDFS) 提供Inceptor、Hyperbase等产品所须要的文件读写性能,也能够间接通过接口为客户提供分布式文件系统服务 TDFS是用于存取PB级海量文件的分布式文件系统,提供了兼容Hadoop生态的文件系统API,实现了十亿及以上数量级的文件读写能力。
关系型剖析引擎 Inceptor 数据湖以及其余结构化数据的剖析场景等 Inceptor是一款能够对数百万张结构化数据表、PB级的海量数据进行存储和加工的分布式关系型剖析引擎。Inceptor反对绝大部分ANSI 92、99、2003 SQL规范,兼容传统关系型数据库方言,如Oracle、IBM DB2、Teradata等,反对存储过程,反对分布式事务,便于存量数据分析业务平滑迁徙。
宽表数据库Hyperbase 历史数据查问零碎、面向消费者的高并发的数据查问业务等场景 Hyperbase是一款可能实现在TB到PB级数据量下毫秒级响应延时、百万级高并发检索的NoSQL宽表数据库。Hyperbase与Inceptor组合,能够为开发者提供良好的SQL兼容性和存储过程的开发能力,反对多种类型的索引技术,反对寄存结构化数据以及图片、文本等非结构化数据,可能实现结构化和非结构化数据的混合存储。
大数据整合工具Transporter 数据湖、数据仓库 Transporter是可视化的ETL开发工具,将扩散于各个中央、各种平台上的各种类型的数据同步或集成到大数据平台上,通过简洁、对立的可视化界面疾速配置数据流转流程,实现异构平台和数据源之间的数据整合。Transporter自研的疾速数据同步技术,提供了分布式事务能力,保障了数据在跨平台之间流转时的准确性和一致性。

在装置好TDH及服务之后,咱们须要装置星环大数据平台数据备份复原软件Transwarp  Backup (TBAK),之后咱们就能够在TBAK的可视化界面通过简略的“三步”来实现CDH到星环TDH的平滑迁徙。
Transwarp  Backup (TBAK)是星环的大数据平台数据备份复原软件,可独立于生产集群与备份集群之外,具备灾备计划制订与调度灾备工作的性能。同时,灾备零碎提供了可视化的操作页面以及丰盛的统计监控页面,用户通过浏览器进行简略的操作即可直观的设计灾备计划、剖析灾备工作,从而实现集群的数据备份、同步、迁徙。

三步实现CDH到星环TDH的平滑迁徙
Step1配置CDH和TDH集群
该步骤次要是用来配置CDH和TDH集群,为后续数据迁徙做筹备。星环TBAK提供可视化的界面进行集群配置,咱们依据界面指引式向导进行配置即可实现,简便快捷。
CDH集群配置
首先新建一个CDH集群配置,咱们能够在集群配置界面设置CDH集群名称,协定,CDH Manager IP,端口,用户名和明码等信息。


当集群信息配置实现并校验胜利后,咱们就能够获取到配置文件。之后咱们须要对各服务进行配置并测试连贯,在该案例场景中应用的是HDFS,HBase和Hive。

TDH集群配置
同样,咱们对TDH集群进行相应配置。


Step2创立CDH迁徙计划
当CDH和TDH集群配置实现后,咱们就能够配置CDH到TDH的迁徙计划了。依据该案例CDH的业务状况,咱们须要别离对CDH Hive,HDFS和HBase的迁徙计划进行配置。

创立CDH Hive迁徙计划
以CDH Hive迁徙计划为例,TDH提供服务级和表级的迁徙策略,例如这里咱们在同步类型中抉择“CDH到TDH Hvie表迁徙”,同时咱们能够对源集群,灾备集群,调度策略等进行配置。在调度策略中用户能够依据理论状况进行配置,咱们能够设置在业务空窗期的每天凌晨2点进行数据迁徙。同时,用户能够设置相应的告警策略,当迁徙产生问题时能够第一工夫收到告警信息并对问题进行排查和复原。


与创立CDH Hive迁徙计划的操作步骤雷同,咱们能够对CDH HFDS和HBase的迁徙计划进行配置。

Step3 执行迁徙工作和后果查看
当集群配置实现后,所有的迁徙计划将在迁徙计划界面进行治理和操作。咱们能够抉择相应的迁徙计划进行操作,例如立刻执行和设置执行策略。
执行迁徙工作

点击执行迁徙工作之后,零碎进入到主动迁徙状态,咱们能够监测迁徙工作执行的整体状态信息,并且能够对每一步的执行状况进行实时监测,例如胜利,失败,告警,执行中和未执行。当迁徙产生故障时,咱们会收到执行故障的告警,并对故障产生的阶段进行排查和故障复原。

迁徙后果查看
当所有迁徙步骤都显示胜利后,咱们能够对迁徙前后的状况进行查看确认。
Hive迁徙
迁徙前CDH Hive表

迁徙前TDH Inceptor对应表不存在

迁徙后TDH Inceptor对应表查问后果

如上查看,咱们能够确认CDH Hive表迁徙胜利。同样地,咱们对HDFS和HBase迁徙状况进行查看以确认迁徙已胜利。

至此,CDH到TDH的迁徙工作就全副实现了。

整个迁徙过程均在可视化界面实现,逻辑清晰,操作简略,配置灵便,通过3步即可实现所有的迁徙工作,同时用户能够对迁徙过程进行全流程实时监控,保障整个迁徙过程顺利进行。

迁徙后TDH数据处理流程
接下来咱们来看看CDH迁徙到TDH后的数据处理流程。
数据ETL(抽取+加载)
在星环大数据开发工具Transwarp Data Studio(TDS)中配置数据同步,从业务数据库抽取数据到星环关系型剖析引擎Inceptor中。



数据加工
Inceptor高度兼容Hive,批处理工作根本不需改变即能够迁徙到Inceptor执行。
与CDH要手动向HBase导入数据不同,TDH中能够间接把批处理后果写入Hyperbase表中。

![](/img/bVcYvRB)


Hyperbase提供对客高并发查问
Transwarp Hyperbase反对SQL和API两种查问形式,用户能够依据理论状况进行抉择。
SQL查问形式
对传统数据库开发人员敌对,门槛低,新业务开发和保护成本低。

API查问形式
星环TDH对原来基于CDH开发的利用兼容性高,原先业务能够平滑迁徙到TDH。

迁徙前后数据处理流程比照

CDH    星环TDH

数据抽取 用Sqoop脚本从业务数据库抽取数据到HDFS 用Transporter工具将从业务数据库同步数据到企业级数据仓库Inceptor中,一步实现数据ETL
数据加载 用Shell脚本将HDSF数据load到Hive
批数加工 在Hive中执行批处理SQL 在Inceptor外面执行批处理,兼容Hive脚本,同时具备更残缺的SQL规范、存储过程、以及Oracle、DB2、TD等传统数据库方言
对客查问 用HBase的导数工具把Hive批处理后果导入HBase,在Hbase中查问后果 多模大数据平台,Inceptor批处理后果间接能够通过Hyperbase对外提供高并发查问,Hyperbase既兼容HBase API也能够通过规范SQL低成本开发新业务

以上就是从CDH到星环一站式多模型大数据平台TDH的迁徙过程介绍。

作为一家企业级大数据根底软件开发商,星环科技始终保持自主研发与技术创新,并重视技术的落地利用,帮忙各行各业的用户提供国产化大数据根底软件,为企业数字化转型提供弱小的技术撑持。

链接:

  1. 手把手教你装置 TDH8.1.0 https://mp.weixin.qq.com/s/AV...
  2. 星环科技 TDH8.1.0:全新降级为用户带来极致体验 https://mp.weixin.qq.com/s/gw...
  3. 便捷、高效、智能—从运维视角看星环科技大数据根底平台TDH https://mp.weixin.qq.com/s/If...