关于大数据:大数据开发之数据仓库架构分析

12次阅读

共计 1850 个字符,预计需要花费 5 分钟才能阅读完成。

概述
架构是数据仓库建设的总体规划,从整体视角形容了解决方案的高层模型,形容了各个子系统的性能以及关系,形容了数据从源零碎到决策大数据培训零碎的数据流程。业务需要答复了要做什么,架构就是答复怎么做的问题。

架构的价值

数据仓库架构

数据仓库的外围性能从源零碎抽取数据,通过荡涤、转换、标准化,将数据加载到 BI 平台,进而满足业务用户的数据分析和决策反对。数据仓库架构蕴含三个局部:数据架构、应用程序架构、底层设施。

底层设施

底层设施为架构提供了根底,底层设施包含硬件、数据库平台、网络和桌面零碎。

硬件

硬件次要指服务器硬件,次要有数据库服务器、ETL 服务器、调度服务器、报表服务器、BI 门户服务器、接口服务器。

数据库平台

数据库平台分为二大类:联机事务处理 OLTP(on-line transaction processing)、联机剖析解决 OLAP(On-Line Analytical Processing),OLAP 是为数据分析而设计的数据库管理系统。次要有 Oracel,MySQL,Teradata, Greenplum,Hive,Kudu。

桌面零碎

数据仓库不同的利用对桌面零碎也有不同的要求,开发工具次要有 Window、Mac 面零碎,部署服务器次要有 Unix 桌面零碎,零碎 BI 应用程序次要有 Window、Mac、挪动设施桌面零碎。

网络

网络是底层设施的根底,特地是大数据时代对网络的要求越来越高。

BI 应用程序架构

数据仓库是数据处理的后盾,业务用户并不关怀后盾怎么解决。BI 利用是数据出现的前台,是业务用户进行查问的入口。BI 应用程序的体验也是掂量数据仓库是否胜利的次要因素。

BI 剖析周期

业务剖析从监督流动开始辨认某个问题或机会,进而采取行动,最终回到监督该流动产生的后果上来,达到数据驱动业务增长的目标。剖析周期把这个过程分为五个不同的阶段。

 
BI 利用分类

接口查问

数据以接口的模式提供给上下游零碎,供高低业务零碎进行查问。次要有推和拉二种模式。

即席查问

业务用户依据本人的需要,自定义查问申请,后盾主动组织 SQL 语句拜访维度模型。

规范报表

依据业务用户的需要,进行定制报表。

仪表盘

它是向企业展现度量信息和要害业务指标现状的数据可视化工具。

数据挖掘

为数据挖掘工具提供规范根底数据。

经营查问

为了缩小业务零碎的大数据量查问压力,数据仓库为业务零碎提供实时的查问。

数据存储

数据架构

数据架构次要形容数据从源零碎抽取数据,而后通过荡涤、规范化、提交造成规范模型,最终提交给业务用户,以及对数据的治理。

源零碎

数据仓库个别会面临多个、异构数据源的问题,次要分为结构化,半结构化以及非结构化数据。为了便于管理须要对源零碎建设元数据信息。

抽取

因为源零碎的多样性,源抽取阶段个别抉择应用工具。在抽取之前还要做以下工作:

数据分析是对数据的技术性剖析,对数据的内容、一致性和构造进行形容。对源零碎的数据品质进行评估。

数据分析和变动数据捕捉策略:为了缩小对源零碎的影响,个别只抽取变动的数据,也须要辨认物理删除的数据。CDC 策略次要有:

增加审计列
在源零碎追加日期字段,当数据发生变化的时候,零碎会自动更新该值。如果由后盾人员手工批改数据,可能就产生脱漏。

数据比拟
比拟源零碎和数据仓库的数据,只抽取变动的数据。这种办法须要全量的数据,比拟消耗资源。能够视数据量的大小而定。

读取日志
读取数据库操作日志信息,同步到数据仓库中。个别日志的有效期比拟短,一旦产生要重跑的状况,可能以前的日志曾经被清空了。

音讯队列
把事务信息放到音讯队列里,以流的模式同步到数据仓库。这种形式即能够加重源零碎的压力,又能做到实时同步。

数据转换
数据从源零碎抽取过去之后,就要进入数据转换阶段。这一阶段是数据仓库开发外围阶段。次要有以下步骤:

荡涤

数据荡涤是制订转换规则,筛选数据并纠正数据的过程。荡涤的目标是改良源零碎的数据品质,然而不要在数据仓库做过多的荡涤,源零碎的数据品质应该在源头解决。荡涤的次要内容包含:

 
规范化

规范化就是整合各个源零碎的数据,把数据对立命名,对立取值,建设企业规范版本数据。次要内容包含:

提交

提交就要依据维度模型生成维度表和事实表。提交次要内容包含:

抉择适合的迟缓变动维类型
为维表生成代理键
治理不同粒度的档次维
治理专项维
生成维度桥接表
生成代理键管道
抉择适合的事实表类型
解决提早达到的事实
生成维度表
生成事实表
汇集

汇集是指依据事务事实表进行更高粒度的聚合以及生成绝对应的维度表。次要内容包含:

数据存储

数据存储是指在在数据的生命周期内对数据的治理,次要内容包含:

正文完
 0