乐趣区

关于javascript:阿里巴巴大数据实践阿里巴巴的数据模型实践综述

起源:数智化转型俱乐部
阿里巴巴团体很早就曾经把大数据作为其战略目标施行,而且其各个业务也十分依赖数据撑持经营,那么阿里巴巴到底采取何种办法构建本人的数据仓库模型呢?阿里巴巴的数据仓库模型建设经验了多个倒退阶段。

1.齐全利用驱动时代

第一个阶段:齐全利用驱动的时代,阿里巴巴的第一代数据仓库零碎构建在 Oracle 上,数据齐全以满足报表需要为目标,将数据以与源构造雷同的形式同步到 Oracle(称作 ODS 层),数据工程师基于 ODS 数据进行统计,根本没有系统化的模型办法体系,齐全基于对 Oracle 数据库个性的利用进行数据存储和加工,局部采纳一些维度建模的迟缓变动维形式进行历史数据处理。这时候的数据架构只有两层,即 ODS+DSS。

2.四层模型架构时代

第二个阶段:随着阿里巴巴业务的疾速倒退,数据量也在飞速增长,性能成为一个较大的问题,因而引入了过后 MPP 架构体系的 Greenplum,同时阿里巴巴的数据团队也在着手进行肯定的数据架构优化,心愿通过一些模型技术扭转烟囱式的开发模型,打消一些冗余,晋升数据的一致性。来自传统行业的数据仓库工程师开始尝试将工程畛域比拟风行的 ER 模型 + 维度模型形式利用到阿里巴巴团体,构建出一个四层的模型架构,即 ODL(操作数据层)+BDL(根底数据层)+IDL(接口数据层)+ADL(利用数据层)。ODL 和源零碎保持一致;BDL 心愿引入 ER 模型,增强数据的整合,构建统一的根底数据模型;IDL 基于维度模型办法构建集市层;ADL 实现利用的个性化和基于展示需要的数据组装。在此期间,咱们在构建 ER 模型时遇到了比拟大的艰难和挑战,互联网业务的疾速倒退、人员的疾速变动、业务知识功底的不够全面,导致 ER 模型设计迟迟不能产出。至此,咱们也失去了一个教训:在不太成熟、疾速变动的业务背后,构建 ER 模型的危险十分大,不太适宜去构建 ER 模型。

3.公共层模型数据架构体系时代

第三个阶段:阿里巴巴团体的业务和数据还在飞速发展,这时候迎来了以 Hadoop 为代表的分布式存储计算平台的疾速倒退,同时阿里巴巴团体自主研发的分布式计算平台 MaxCompute 也在紧锣密鼓地进行着。咱们在拥抱分布式计算平台的同时,也开始建设本人的第三代模型架构,这时候须要找到既适宜阿里巴巴团体业务倒退,又能充分利用分布式计算平台能力的数据模型形式。咱们抉择了以 Kimball 的维度建模为核心理念的模型方法论,同时对其进行了肯定的降级和扩大,构建了阿里巴巴团体的公共层模型数据架构体系。
数据公共层建设的目标是着力解决数据存储和计算的共享问题。阿里巴巴团体当下曾经倒退为多个 BU,各个业务产生宏大的数据,并且数据每年以近 2.5 倍的速度在增长,数据的增长远远超过业务的增长,带来的老本开销也是十分令人担忧的。
阿里巴巴数据公共层建设的领导办法是一套统一化的团体数据整合及治理的办法体系(在外部这一体系称为“OneData”),其包含一致性的指标定义体系、模型设计办法体系以及配套工具。注:本书中呈现的局部专有名词、专业术语、产品名称、软件项目名称、工具名称等,是淘宝(中国)软件有限公司外部我的项目的习用词语,如与第三方名称雷同,实属偶合。

原文链接
本文为阿里云原创内容,未经容许不得转载。

退出移动版