关于后端:浅谈数据仓库架构设计

39次阅读

共计 3258 个字符,预计需要花费 9 分钟才能阅读完成。

简介:简略的比拟了一下数据中台架构与数据仓库、BI、DSS 之间的关系,并比照了一下 Bill Inmon 和 Ralph Kimball 架构的差别。1. 数据中台与 DW/BI/DSS   集体认为数据中台实质上是一种新的适配大数据技术倒退的新的“数据仓库 - 决策反对(商业智能)”架构。这个架构是构建在传统的架构根底之上,对传统架构的一种新的倒退。数据中台从企业的视角登程,要求企业在构建数据仓库到决策支持系统的过程中构建一个服务型的架构。数据中台心愿构建在数据仓库根底上的决策支持系统的建设能更加迅速麻利,缩短业务需要实现过程中的数据开发过程的工夫。数据中台把利用的共性需要积淀在中台,做厚数据服务层,这样利用前台在构建的时候能够大幅度的利用已积淀在中台的各种能力,能够做到疾速搭建,造成大中台小前台的档次架构。1.1. 数据仓库(DW)/ 商务智能(BI)/ 决策反对(DSS)数据仓库之父比尔·恩门(Bill Inmon)在 1991 年出版的“Building the Data Warehouse”(《建设数据仓库》)一书中所提出的定义被宽泛承受,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、绝对稳固的(Non-Volatile)、反映历史变动(Time Variant)的数据汇合,用于反对管理决策。数据仓库是一个过程而不是一个我的项目;数据仓库是一个环境,而不是一件产品。数据仓库提供用户用于决策反对的以后和历史数据,这些数据在传统的操作型数据库中很难或不能失去。数据仓库技术是为了无效的把操作形数据集成到对立的环境中以提供决策型数据拜访,的各种技术和模块的总称。所做的一切都是为了让用户更快更不便查问所须要的信息,提供决策反对。商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用古代数据仓库技术、线上剖析解决技术、数据挖掘和数据展示技术进行数据分析以实现商业价值。决策支持系统(Decision Support System)是一个基于计算机用于反对业务或组织决策流动的信息系统。DSS 服务于组织治理、经营和布局管理层(通常是中级和高级管理层),并帮忙人们对可能疾速变动并且不容易预测后果的问题做出决策。决策支持系统能够全计算机化、人力驱动或二者联合。从概念上来讲,BI 与 DSS 都是一组概念的概括性的总称,能够有很多定义。从历史沿革上来说,先有的决策支持系统,利用计算机来辅助人做决策。后续商务智能的倒退,为决策反对提供了数据分析预测的能力,商务智能(BI)提供的数据分析能力是古代决策支持系统(DSS)的基石。(概念援用:商务智能与剖析 - 决策支持系统)

1.2. 先贤的一些词汇与观点的争议   数据仓库行业内容的两位观点局部相左的先贤,别离是 Bill Inmon 与 Ralph Kimball。1.2.1. 定义与用词   在数据仓库撑持的剖析型零碎的用词上:Bill Inmon- 数据仓库是体系结构设计环境的外围,是决策支持系统解决的根底。(The data warehouse is the heart of the architected environment, and is the foundation of all DSS processing.)Ralph Kimball- 数据仓库和商业智能 (Data Warehousing and Business Intelligence, DW/BI) 零碎   显然 BI 与 DSS 是有区别的,然而 DW 无疑是能够撑持 BI 和 DSS。BI 是伎俩是能力,而 DSS 是 BI 的指标。在数据仓库的定义上,因为 Bill Inmon 是数据仓库之父,他对数据仓库的定义取得了宽泛的认可。而 Ralph Kimball 并未对数据仓库概念有独自的定义,然而从架构与实现上来看,其实还是有区别的。1.2.2. 架构设计   在数据仓库架构的设计上:Bill Inmon – 全局视角,要先构建企业级数据仓库,而后再基于企业级数据仓库之下来构建数据集市。数据的整合是的企业对数据有一个真正企业范畴级的察看,业务剖析人员是从整体而不是部分进行数据分析。数据仓库后期的需要是不明确的,业务人员是先要看到数据再去构建摸索实在需要,所以数据仓库是一直的迭代构建。采纳 3RD 模型来构建一个企业级的业务模型,确保数据的完整性与一致性。Ralph Kimball - 需要视角,以业务需要驱动,面向剖析。事实要构建在最细的粒度上,不同的业务需要之间靠一致性维度来确保数据的一致性。DW/BI 架构

辐射状企业信息工厂(CIF)

混合辐射状企业信息工厂与 KimBall 架构

   从下面几张图上咱们能够看到,之所以在 Kimball 的书中会有与 Inmon 组合的混合架构,是因为这几张架构图中的档次根本是统一的。而 Kimball 架构中并未去形容如何去做数据的规范化、完整性、一致性,只是要去做,而 Inmon 的架构中恰好能够实现这个局部。对于前面数据展示区的数据模型,又都统一的认为是以维度模型来建模。从理论构建形式上来看,Bill Inmon 架构强调数据仓库应该是对立构建,业务模型是企业级的。这个出发点是更具备宏观意义,假如企业有 30 个交易系统,建设的时候就须要都纳入需要剖析范畴,而后按需分阶段实现企业级的数据仓库模型。Ralph Kimball 架构强调以业务需要为导向,构建维度模型,后续的需要只有确保整个企业范畴内一致性维度,就能够构建更加高效的数据仓库。Ralph Kimball 认为 Bill Inmon 的架构太过于宏大,可能会让企业投入微小然而看不到回报。而 Bill Inmon 则认为维度模型构建的数据仓库,很容易变成涣散的多个不统一的数据集市。尽管 Ralph Kimball 也强调独立集市架构是不可取的。其实综合实际与事实中数据仓库的案例来看,在以 Teradata\IBM\Oracle 等公司构建的企业级的数据仓库架构,全部都是以 Bill Inmon 的架构来构建了一个 3RD 的企业级的数据仓库模型,并且在一些规模宏大的银行、保险、电信等行业获得了比拟微小的胜利。尤其是国内 Teradata 的金融模型,简直占据了国内全副的大银行、保险机构的市场。而 Ralph Kimball 的架构,在银行、电信、批发电商等行业也是受到了宽泛的好评。这两种架构各有千秋,各有偏重。并且从两位先贤相互指责的问题来看,问题都是实在存在的。Ralph Kimball 架构尽管强调不能建设成独立集市架构,要采纳全局一致性维度,然而,业务部门分头建设且以需要为导向的构造,很容易失控就走成独立集市架构。Bill Inmon 的架构因为有一层数据仓库层,从机能上就会去协调,防止这种状况的产生。然而 Bill Inmon 的架构,因为构建投入微小,也只是在金融业取得了微小的胜利。在一些业务绝对简略规模不大的客户场景中,因为交易型零碎自身就是 3RD 模型,所以,自身并没有需要再去构建一个数据仓库的 3RD 模型,ODS 零碎就根本代替的这一层。在数据集市、数据利用的剖析型场景中,Ralph Kimball 与 Bill Inmon 都应该应用维度模型来构建。1.3. 综合的抉择   从 Bill Inmon 与 Ralph Kimball 的书中,咱们能够看到两位先贤的观点。集体认为在不同的场景能够有不同的抉择,在业务简单、业务变动不频繁、数据仓库上游的交易型零碎特地多、能承受足够长时间大投入的企业级数仓建设的场景,Inmon 的架构(或者说是 CIF 与 DW/BI 混合架构)显然是更好的抉择,这种架构更加宏观,且具备企业级视角,只有在这种视角下能力实现数据中台的设计指标。而在业务模型简略、业务变动频繁、难以承受企业级架构构建的工夫老本的场景,最好应用 DW/BI 架构。如果能够放眼眼前的数据仓库的案例,就会发现这是一种比拟事实的抉择。

 原文链接:https://click.aliyun.com/m/10… 本文为阿里云原创内容,未经容许不得转载。

正文完
 0