共计 2476 个字符,预计需要花费 7 分钟才能阅读完成。
作者:柯根
从整体上看,数据中台体系架构可分为:数据采集层、数据计算层、数据服务层三大档次。通过这三大档次对下层数据利用提供数据撑持。
数据采集层
对于企业来说,每时每刻都在产生海量的数据,数据采集作为数据体系第一环尤为重要。
因而在数据采集层须要建设了一套规范的数据采集体系计划,并致力全面、高性能、标准地实现海量数据的采集,将其传输到大数据平台。
互联网日志采集体系包含两大体系:Web 端日志采集技术计划;APP 端日志采集技术计划。
在采集技术之上,企业能够用面向各个场景的埋点标准,来满足日志数据买通等多种业务场景。同时,还能够建设了一套高性能、高可靠性的数据传输体系实现数据从生产业务端到大数据系统的传输;在传输方面,采集技术可既包含数据库的增量数据传输,也包含日志数据的传输;既须要能反对实时流式计算、也能实时各种工夫窗口的批量计算。另一方面,也通过数据同步工具直连异构数据库(备库)来抽取各种工夫窗口的数据。
下图展现数据采集层在数据分层中的地位:
数据计算层
从采集零碎中收集了大量的原始数据后,数据只有被整合、计算能力被用于洞察商业法则、开掘潜在信息,实现大数据价值,达到赋能商业、发明商业的目标。从采集零碎中收集到的大量原始数据,将进入数据计算层中被进一步整合与计算。
面对海量的数据和简单的计算,数据计算层包含两大体系:数据存储及计算云平台和数据整合及管理体系。
– 数据存储及计算云平台
例如,MaxCompute 是阿里巴巴自主研发的离线大数据平台,其丰盛的性能和弱小的存储及计算能力使得企业的大数据有了弱小的存储和计算引擎;StreamCompute 是阿里巴巴自主研发的流式大数据平台,在外部较好地反对了企业流式计算需要。
– 数据整合及管理体系
“OneModel”是数据整合及治理的办法体系和工具,大数据工程师在这一体系下,构建对立、标准、可共享的全域数据体系,防止数据的冗余和反复建设,躲避数据烟囱和不统一,充分发挥在大数据海量、多样性方面的独特劣势。借助这一统一化数据整合及治理的办法体系,构建企业数据公共层,并能够帮忙类似大数据我的项目疾速落地实现。
数据中台数据加工链路也是遵循业界的分层理念:包含操作数据层(ODS,Operational Data Store)、明细数据层 (DWD,Data Warehouse Detail)、汇总数据层(DWS, Data Warehouse Summary) 和利用数据层(ADS,Application Data Store)。通过数据中台不同档次之间的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行无效的元数据管理及数据品质解决。
下图展现数据公共层(ODS+DWD+DWS)与数据应用层(ADS)在数据分层中的地位:
图:数据公共层与数据应用层关系
(1)对立数据根底层
咱们通过各种形式采集到的丰盛数据,在荡涤、结构化后进入对立的 ODS 数据根底层。
其次要性能包含:
- 同步:结构化数据增量或全量同步到数据中台
- 结构化:非结构化(日志) 结构化解决并存储到数据中台
累积历史、荡涤:依据数据业务需要及稽核和审计要求保留历史数据、数据荡涤
在权责方面,所有数据应该在源头对立,对立所有的数据根底层,并由一个团队负责和管控,其余团队无权复制数据根底层的数据。
(2)数据中间层
咱们进行数据建模研发,并解决不因业务特地是组织架构变动而轻易转移的数据中间层。包含 DWD 明细数据中间层和 DWS 汇总数据中间层。
其次要性能包含:
- 组合相干和类似数据:采纳明细宽表,复用关联计算,缩小数据扫描。
- 公共指标对立加工:基于 OneData 体系构建命名标准、口径统一和算法对立的统计指标,为下层数据产 - 品、利用和服务提供公共指标;建设逻辑汇总宽表;
- 建设一致性维度:建设统一数据分析维度表,升高数据计算口径、算法不对立的危险。
在权责方面,面向业务提供服务之前,由对立的团队负责从业务中形象出源于业务而又不同于业务的数据域,再主导对立建设数据中间层,包含偏重明细数据预 JOIN 等解决的明细中间层、偏重面向利用可复用维度和指标的汇总数据中间层。特地是要由惟一团队负责将外围业务数据对立退出数据中间层。容许局部业务数据有独立的数据团队依照对立的 OneModel 体系方法论建设数据体系,ODS 数据根底层和 DWD+DWS 数据中间层因其统一性和可复用性,被称为数据公共层。
(3)数据应用层
在面向利用提供服务时,业务团队或深刻业务线的数据团队有极大的自由度,只有依赖数据公共层,即可自在的建设 ADS 数据应用层。
其次要性能包含:
- 个性化指标加工:不专用性;复杂性(指数型、比值型、排名型指标)
- 基于利用的数据组装:大宽表集市、横表转纵表、趋势指标串
数据服务层
当数据已被整合和计算好之后,须要提供给产品和利用进行数据生产,为了更好的性能和体验,须要构建数据服务层,通过接口服务化形式对外提供数据服务。针对不同的需要,数据服务层的数据源架构在多种数据库之上,如 Mysql 和 Hbase 等。
数据服务能够使利用对底层数据存储通明,将海量数据不便高效地凋谢给团体外部各利用应用。如何在性能、稳定性、扩展性等多方面更好地服务用户;如何满足利用各种简单的数据服务需要;如何保障数据服务接口的高可用。随着业务的倒退,需要越来越简单,因而数据服务也在一直地后退。
不论是数据公共层还是应用层,最终都须要面向业务提供服务。为了让业务部门找数据、看数据、用数据更加不便,咱们将 OpenAPI 降级为能缓解业务变动对数据模型冲击的包含方法论 + 产品在内的 OneService 体系,使其在提供对立的专用服务的同时,兼容面向个性化利用的服务。
下图为数据服务层在数据分层中的地位:
图:数据应用层与数据服务层关系
综上,企业数据中台依靠数据采集层、数据计算层、数据服务层,为下层数据产品、业务零碎等提供数据撑持。云上数据中台产品 Dataphin 从“采、建、管、用”为企业提供一站式数据中台各层次的实现,配合阿里云系列产品,可实现企业数据中台全链路稳固、高效构建。
原文链接
本文为阿里云原创内容,未经容许不得转载。