共计 2924 个字符,预计需要花费 8 分钟才能阅读完成。
建设数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建设和应用数据仓库,施展其决策反对的作用;IT 部门的人员往往又不懂业务,不晓得应该建设哪些决策主题,从数据源中抽取哪些数据。因而,数据仓库的我的项目小组应该由业务人员和 IT 人员独特组成,单方须要互相沟通,合作开发数据仓库。
开发数据仓库的过程包含以下几个步骤。
一、系统分析,确定主题
建设数据仓库的第一个步骤就是通过与业务部门的充沛交换,理解建设数据仓库所要解决的问题的真正含意,确定各个主题下的查问剖析要求。
业务人员往往会列举出很多想解决的问题,IT 人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务性能。一旦确定问题当前,IT 人员还须要确定几个因素:
操作呈现的频率,即业务部门每隔多长时间做一次查问剖析?
在零碎中须要保留多久的数据,是一年、两年还是五年、十年?
用户查问数据的次要形式,如在工夫维度上是依照天然年,还是财政年?
用户所能承受的响应工夫是多长、是几秒钟,还是几小时?
因为单方在了解上的差别,确定问题和理解问题可能是一个须要屡次重复的过程,IT 人员可能须要做一些原型演示给业务人员看,以最终确定零碎将要实现的性能的确是业务部门所须要的。
二、抉择满足数据仓库零碎要求的软件平台
在数据仓库所要解决的问题确定后,第二个步骤就是抉择适合的软件平台,包含数据库、建模工具、剖析工具等。这里有许多因素要思考,如系统对数据量、响应工夫、剖析性能的要求等,以下是一些公认的抉择规范:
厂商的背景和反对能力,是否提供全方位的技术支持和咨询服务?
数据库对大数据量 (TB 级) 的反对能力?
数据库是否反对并行操作?
是否提供数据仓库的建模工具,是否反对对元数据的治理?
是否提供反对大数据量的数据加载、转换、传输工具(ETL)?
是否提供残缺的决策反对工具集,满足数据仓库中各类用户的须要?
三、建设数据仓库的逻辑模型
具体步骤如下:
确定建设数据仓库逻辑模型的根本办法;
基于主题视图,把主题视图中的数据定义转到逻辑数据模型中;
辨认主题之间的关系;
合成多对多的关系;
用范式实践测验逻辑数据模型;
由用户审核逻辑数据模型;
四、逻辑数据模型转化为数据仓库数据模型
具体步骤如下:
Step.1 删除非战略性数据
数据仓库模型中不须要蕴含逻辑数据模型中的全副数据项,某些用于操作解决的数据项要删除;
Step.2 减少工夫主键
数据仓库中的数据肯定是工夫的快照,因而必须减少工夫主键;
Step.3 减少派生数据
对于用户常常须要剖析的数据,或者为了进步性能,能够减少派生数据;
Step.4 退出不同级别粒度的汇总数据
数据粒度代表数据细化水平,粒度越大,数据的汇总水平越高。粒度是数据仓库设计的一个重要因素,它间接影响到驻留在数据仓库中的数据量和能够执行的查问类型。显然,粒度级别越低,则反对的查问越多; 反之,能反对的查问就越无限。
对数据操作的效率与能失去数据的具体水平是一对矛盾,通常人们心愿建成的零碎既有较高的效率,又能失去所需的详细资料。施行数据仓库的一个重要准则就是不要试图包含所有具体数据,因为 90% 的剖析需要是在汇总数据上进行的。试图将粒度细化到最低层,只会减少零碎的开销,升高零碎的性能。
五、数据仓库数据模型优化
数据仓库设计时,性能是一项次要思考因素。在数据仓库建成后,也须要常常对其性能进行监控,并随着需要和数据量的变更进行调整。
优化数据仓库设计的次要办法是:
合并不同的数据表;
通过减少汇总表防止数据的动静汇总;
通过冗余字段缩小表连贯的数量,不要超过 3~5 个;
用 ID 代码而不是形容信息作为键值;
对数据表做分区。
六、数据荡涤转换和传输
因为业务零碎所应用的软硬件平台不同,编码方法不同,业务零碎中的数据在加载到数据仓库之前,必须进行数据的荡涤和转换,保障数据仓库中数据的一致性。
在设计数据仓库的数据加载计划时,必须思考以下几项要求:
加载计划必须可能反对拜访不同的数据库和文件系统;
数据的荡涤、转换和传输必须满足工夫要求,可能在规定的工夫范畴内实现;
反对各种转换方法,各种转换方法能够形成一个工作流;
反对增量加载,只把自上一次加载以来变动的数据加载到数据仓库。
七、开发数据仓库的剖析利用
建设数据仓库的最终目标是为业务部门提供决策反对能力,必须为业务部门抉择适合的工具实现其对数据仓库中的数据进行剖析的要求。
IT 部门所抉择的开发工具必须可能:
满足用户的全副剖析性能要求。数据仓库中的用户包含了企业中各个业务部门,他们的业务不同,要求的剖析性能也不同。如有的用户只是简略的剖析报表,有些用户则要求做预测和趋势剖析;
提供灵便的体现形式。剖析的后果必须可能以直观、灵便的形式体现,反对简单的图表。应用终端上,能够是 PC 机,也能够是手机、平板等挪动端。
事实上,当初市面上有很多数据分析工具可供选择。然而,要么学习门槛太高,业务人员难以把握; 要么不足深度剖析的能力,无奈满足要求。而由广州思迈特软件推出的 Smartbi,不仅为 IT 人员提供简单报表、炫酷大屏等制作工具,而且为业务人员提供多样化的自助剖析工具和数据挖掘平台,满足企业不同场景下的剖析需要。
八、数据仓库的治理
只器重数据仓库的建设,而漠视数据仓库的治理必然导致数据仓库我的项目的失败。数据仓库治理次要包含数据库治理和元数据管理。
数据库治理须要考以下几个方面:
安全性治理。数据仓库中的用户只能拜访到他的受权范畴内的数据,数据在传输过程中的加密策略;
数据仓库的备份和复原。数据仓库的大小和备份的频率间接影响到备份策略;
如何保障数据仓库零碎的可用性,硬件还是软件办法;
数据老化。设计数据仓库中数据的寄存工夫周期和对过期数据的老化办法,如历史数据只保留汇总数据,当年数据保留具体记录。
然而,元数据管理贯通于整个零碎的建设过程中,元数据是形容数据的数据。在数据采集阶段,元数据次要包含下列信息:
源数据的形容定义:类型、地位、构造;
数据转换规则:编码规定、行业标准;
指标数据仓库的模型形容:星型 / 雪花模型定义,维 / 事实构造定义;
源数据到指标数据仓库的映射关系:函数 / 表达式定义;
代码:生成转换程序、主动加载程序等。
在数据管理阶段,元数据次要包含下列信息:
汇总数据的形容:汇总 / 聚合档次、物化视图构造定义;
历史数据存储规定:地位、存储粒度;
多维数据结构形容:立方体定义、维构造、度量值、钻取档次定义等。
在数据展示阶段,元数据次要包含以下信息:
报表的形容:报表构造的定义;
统计函数的形容:各类统计分析函数的定义;
后果输入的形容:图、表输入的定义。
元数据不然而独立寄存,而且对用户是通明的,规范元数据之间能够相互转换。
以上介绍的就是数据仓库建设的 8 个步骤。如果能一步一步把数据仓库建设好,那么对于整个 BI 零碎的建设,对于后续的日常数据分析,都会起到夯实根底、事倍功半的作用。