数据仓库系列文章(继续更新)
- 数仓架构发展史
- 数仓建模方法论
- 数仓建模分层实践
- 数仓建模—宽表的设计
- 数仓建模—指标体系
- 数据仓库之拉链表
- 数仓—数据集成
- 数仓—数据集市
- 数仓—商业智能零碎
- 数仓—埋点设计与治理
- 数仓—ID Mapping
- 数仓—OneID
- 数仓—AARRR 海盗模型
- 数仓—总线矩阵
- 数仓—数据安全
- 数仓—数据品质
- 数仓—数仓建模和业务建模
关注公众号:
大数据技术派
,回复:材料
,支付1024G
材料。
其实数据集成是数仓的一个根本特点,这里咱们再回顾一下数仓的个性,或者说是咱们再回顾一下数仓的定义,面向主题的(Subject Oriented)、集成的(Integrate)、绝对稳固的(Non-Volatile)、反映历史变动(Time Variant)的数据汇合,用于反对管理决策的数据系统。
明天咱们学习的数据集成指的是“集成的”个性,说到数据集成咱们就不得不说咱们为什么要建设数仓了,对于数仓是是什么或者是服务于什么的咱们曾经说过了,那就是 数仓次要是用来做决策的 ,也就是 从数据的角度登程去做决策,而不是纯正的拍脑袋去决策。
所以这个时候数据准确性就很重要,这里的数据准确性不仅仅指的是咱们的数据计算精确,而是指的是咱们的数据自身要可能反馈事实,也就是说咱们要拿适合的数据来干正确的事件。
咱们将以前扩散的数据收集到一起不仅仅是为了突破数据壁垒,咱们更心愿能进行对立解决,从而进步数据的可信性、进步数据的生产效率问题,所以说数据集成并不是单单指的是数据收集,可能一说到数据集成大家想到的可能就是 sqoop、dataX、maxwell 这样的 数据同步工具,这个想法自身没错,然而这些仅仅是工具,是开始而已。
数据集成的背景
集成的目标是为了买通数据从而更加精确的形容业务,从而更好的为业务赋能,这里举一个例子介绍我当初有三个决策零碎,都须要一份业务数据,那这个时候三个零碎都会从业务数据库拉去数据,这个时候就会引发很多问题
- 对业务库的压力太大
- 每个零碎都有本人的逻辑、产出不精确、数据无奈核查
- 每个零碎都有资源耗费
在企业中,因为 开发工夫 或开发部门 的不同,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行,这些零碎的数据源彼此独立、互相关闭,使得数据难以在零碎之间交换、共享和交融,从而造成了 ” 信息孤岛 ”。随着信息化利用的不断深入,企业外部、企业与内部信息交互的需要日益强烈,急切需要对已有的信息进行整合,买通信息孤岛,共享信息。
数据集成是把不同起源、格局、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成畛域,曾经有了很多成熟的框架能够利用。目前通常采纳 联邦式、基于中间件模型和数据仓库 等办法来结构集成的零碎,这些技术在不同的着重点和利用上解决数据共享和为企业提供决策反对。
数据集成通过利用间的数据交换从而达到集成,次要解决数据的 散布性和异构性 的问题,其前提是被集成利用必须公开数据结构,即必须公开表构造,表间关系,编码的含意等
数据集成的分类
在企业数据集成畛域,曾经有了很多成熟的框架能够利用。通常采纳联邦式、基于中间件模型和数据仓库等办法来结构集成的零碎,这些技术在不同的着重点和利用上解决数据共享和为企业提供决策反对。在这里将对这几种数据集成模型做一个根本的剖析。
联邦数据库系统
联邦数据库系统 (FDBS) 由半自治数据库系统形成,相互之间分享数据,联盟各数据源之间互相提供拜访接口,同时联盟数据库系统能够是集中数据库系统或分布式数据库系统及其他联邦式零碎。
在这种模式下又分为紧耦合和松耦合两种状况,紧耦合提供对立的拜访模式,个别是动态的,在减少数据源上比拟艰难;而松耦合]则不提供对立的接口,但能够通过对立的语言拜访数据源,其中外围的是必须解决所有数据源语义上的问题。
中间件模式
中间件模式通过对立的全局数据模型来拜访异构的数据库、遗留零碎、Web 资源等。
中间件位于异构数据源零碎[数据层) 和应用程序(应用层) 之间,向上协调各数据源零碎,向下为拜访集成数据的利用提供对立数据模式和数据拜访的通用接口。各数据源的利用依然实现它们的工作,中间件零碎则次要集中为异构数据源提供一个高层次的数据收集和散发服务。
中间件模式是比拟风行的数据集成办法,它通过在中间层提供一个对立的数据逻辑视图来暗藏底层的数据细节,使得用户能够把集成数据源看为一个对立的整体。这种模型下的关键问题是如何结构这个逻辑视图并使得不同数据源之间能映射到这个中间层。
比拟支流的中间件模式是应用一些高性能的音讯队列,例如 kafak、pulsar 等,也就是说咱们的多个数据源将本人的数据发送到 kafka,上游的集成系统再从 kafka 进行生产数据,从而实现数据集成。
数据仓库模式
数据仓库在另外一个层面上表白数据之间的共享,它次要是为了针对企业某个 应用领域 提出的一种数据集成办法,也就是咱们在下面所提到的面向主题并为企业提供数据挖掘和决策反对的零碎。
所以说数据仓库的数据集成其实是依照域对数据集成进行划分治理的,其实这就和咱们的宽表建设进行了响应,能够参考数仓建模—宽表的设计, 所以说数据集成它不等于数据堆集,也不等于数据同步,不是说我把数据同步到一个中央,而后应用的时候就能够在这个中央找失去这就是数据集成。
数据集成的目标是为了买通数据孤岛,数据同步到一起,孤岛还在,这个时候要咱们须要依照业务特点进行加工才能够建设咱们的数仓表,这样才算是实现了数据集成。
所以咱们能够看到后面的联邦数据库系统、中间件模式 只是在肯定水平上的数据集成工具,然而它并没有实现业务意义上的数据集成。
数据集成的含意
这里咱们还是要说一下数据集成的含意,否则你可能认为数据集成就是数据同步,或者是数据同步平台 (d_BUS) 的建设
- 数据集成须要有数据同步的能力,也就是说须要将散落在各处的数据同步过去,这里会波及到各种异构数据源,所以对咱们的数据平台能力有肯定的要求,例如反对各种数据库的能力、反对实时和离线的数据同步能力
- 依照业务特点对同步过去的数据进行荡涤加工,而后以宽表的模式堆外提供服务,这里的宽表才是咱们业务上集成的含意
- 集成也是有要求的,也就是说咱们是在特定的数据域下进行集成的。
总结
- 数据集成是数仓的个性,所以数仓须要具备数据集成的能力
- 数据集成它不等价于数据同步平台,数据同步只是数据集成的第一步
- 数据集成的目标是为了买通数据孤岛,从而更好的反对企业的数据决策,数仓突破数据孤岛的形式是将各个业务零碎数据集中到一个对立的、集中的 数据仓库,而达到这个目标形式就是数据集成