关于数据:基于-DataWorks-MaxCompute-构建大数据平台

8次阅读

共计 1821 个字符,预计需要花费 5 分钟才能阅读完成。


简介:

DataWorks 是阿里云重要的 PaaS 平台产品,提供数据集成、数据开发、数据地图、数据品质和数据服务等全方位的产品服务,一站式开发治理的界面,帮忙企业专一于数据价值的开掘和摸索。

MaxCompute 是实用于数据分析场景的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供疾速、全托管的在线数据仓库服务,打消了传统数据平台在资源扩展性和弹性方面的限度,最小化用户运维投入,能够经济并高效地剖析解决海量数据。

数据架构选型:

随着业务的疾速倒退,咱们开始摸索新的解决方案来帮忙咱们实现大数据平台的倒退,因波及到运维、人力资源的投入,咱们更偏向于采纳一站式数据开发平台,基于 DataWorks + MaxCompute 框架体系。如图是我司现有大数据平台架构图:

MaxCompute 数仓标准:

数据模型标准:

  • 档次数据划分:

    • ODS:数据引入层,离线、实时数据区,寄存原始数据,非结构化数据进行结构化解决
    • CDM:数据公共层

      • DIM:公共维度层,建设企业一致性维度
      • DWD:明细粒度事实层,以业务过程建模
      • DWS:公共汇总事实层,以剖析主题对象建模

    ​ * ADS:数据应用层,定制化统计指标数据

  • 数据流程、空间命名:以业务分类、业务过程、数据域划分
  • 设计准则:

    • 工作流程、工作节点、表命名荡涤易了解
    • 数据模型高内聚、低耦合
    • 公共根底逻辑下沉

档次开发标准:

  • 数据引入层表(ODS):

    • 命名标准:

      • 表名:ods_{源零碎表名}_{delta/ 保留位}
      • 字段名:默认原零碎表名 / 与关键字重名 + col
      • 工作命名:与输出表名统一
    • 其余标准:

      • 零碎源表只容许同步一次
      • 表名后缀明确同步形式 (全量 / 增量)
      • 表数据的生命周期
  • 明细粒度事实层(DWD):

    • 命名标准:

      • 表名:dwd_{项目名称}_{数据域缩写}_{自定义表名}_{刷新周期标识}
      • 工作命名:与输出表名统一
      • 存储及生命周期治理:以天为分区,依据拜访跨度,设置生命周期
  • 公共汇总粒度事实层(DWS)

    • 命名标准:

      • 表名:dws_{项目名称}_{数据域缩写}_{自定义表名}_{刷新周期标识}{统计工夫周期范畴缩写}
      • 工作命名:与输出表名统一
      • 存储及生命周期治理:以天为分区,依据拜访跨度,设置生命周期
  • 数据应用层(ADS):

    • 命名标准:

      • 表名:ads_{项目名称}_{自定义表名}{后缀}
      • 数据报表、数据分析等后缀为 bi,数据产品等后缀为 app

公共开发标准:

  • 档次调用标准:数仓档次调用时,应用层数据不容许间接调用 ODS 层数据,必须存在中间层 CDM 数据;DWS 数据汇总层应优先调用 DWD 明细层数据;数据计算解决工作只容许一个输出表;DWD 明细层累计快照事实表优先调用 DWD 事务型事实表,保证数据的一致性产出。
  • 空值解决准则:指标类的空值填充为 0,维度空值填写默认值

基于 DataWork 的数据治理:

  • 数据集成:用于离线(批量)数据同步。实现多数据源对立治理,买通多种第三方数据库,API 等形式,打消数据孤岛的存在。采纳两种开发模式:

    • 向导模式:该形式为现有大部分数据集成所采纳的形式

    • 脚本模式:通过编写 json 脚本实现数据同步开发,配置管理更加精细化

  • 数据开发:数据开发基于业务流程下对应的节点进行开发操作,在业务流程面板下新建一个或多个业务流程,每个业务流程依据不同的引擎类型进行分组,每个引擎分组下再对数据开发类型节点、表、资源、函数进行一步分组,即一类业务应用的组件(节点、表、资源、函数)兼顾在一个业务流程中,业务流程下仅展现以后业务流程中应用的组件:

    • 在 DataWorks 上,具体的数据开发工作是基于业务流程发展的,须要先新建业务流程,再进行后续的开发工作。
    • 所有生产环境调度节点的代码变更都须要在数据开发界面批改实现后走公布流程进行公布。

  • 数据运维:咱们在开发环境实现节点开发,并提交和公布至生产环境后,能够到生产环境的运维核心对工作进行运维操作,包含周期调度工作的主动调度与手动运行、工作运行详情查看、工作运行状态监控、工作运行应用的资源监控与主动运维;实时工作的执行管控、运行详情查看与监控报警配置;调度工作运维大屏以及数据集成离线同步与实时同步工作运维专页,针对工作运维要害指标的查看。

小结:

信息是重要的财产,信息简直总是用作两个目标:操作型记录的保留和剖析型决策的制订。操作型零碎保留数据,而 DW / BI 零碎应用数据。本文仅简略介绍了 DataWorks + MaxComplute 框架的应用,有趣味的敌人能够到官网去查看!

更多精彩请关注咱们的公众号「百瓶技术」,有不定期福利呦!

正文完
 0