乐趣区

关于数据中台:基于Apache-doris怎么构建数据中台三数据资产管理

概述

后面咱们讲了什么是数据中台,及数据中台的架构及性能布局,这次咱们开始从数据资产开始拆解每个功能模块做的内容
数据资产治理平台能够定量评估数据资产的老本,价值,品质。帮忙企业优化存储老本,节约计算资源。精细化的数据生命周期治理,帮忙企业更好的治理数据的生产到销毁的整个生命周期。

在治理方面:管理者在布局数据文化建设时,对企业数据资产的全局形成、应用模式、应用成果都须要具体的指标输出,往往这些指标都没有被兼顾起来;在组织保障上,须要多少资源、运作机制应该如何制订能力保障数据文化的落地,也须要经营指标来 辅助决策,所以管理者通常需从以下几个方面的问题进行思考:

  1. 数据如何被用起来?
  2. 数据保值后如何增值?
  3. 组织已不再满足变动所需?
  4. 管理体系如何建设?

在治理方面:企业领有大量的数据资产之后,因为分工不同,个别的数据生产者、数据 消费者之间会随着时间推移、人员变动等因素,造成数据资产的信息成为无人保护的 动态状态,数据的存储老本、检索的了解老本会越来越高。这些数据资产散布在一片 数据沼泽中,难以分辨数据资产的老本、价值,更难以进行生命周期治理,甚至给数据 消费者带来难以逾越的信息鸿沟;数据治理通常关注以下几个方面的问题:

  1. 数据的老本如何升高?
  2. 数据生命周期如何治理?
  3. 数据品质低,如何保障可用?
  4. 数据价值如何评估?

在经营方面:数据资产从被建设,到数据内容的生产、到被应用,各环节用户各自所关注的、所进行的工作重点不统一;从数据管理视角、数据生产视角、数据利用视角来 看,各个视角之间的指标实现、工作重点、合作形式,不再以点对点的模式存在,而是 贯通于整个数据链路中,数据经营正是为了从以上角度来发现问题、解决问题,作用是:数据经营会从“策略、执行、指标拆解、跟踪实现”各个阶段进行兼顾,对经营指标 负责。数据经营通常关注以下几个方面的问题:

  1. 无限的资源如何迷信调配?
  2. 数据的关系如何相互影响?
  3. 如何发现最迫切的问题?
  4. 数据经营不足工具、渠道;

在应用方面:数据只有被用起来,能力施展其应有的价值。然而以后局部的企业应用 数据的状况并不乐观。依据调研统计,只有约 14% 的企业数据相干的从业人员认为应用 数据是不便的。数据应用是否不便,可从两个维度来判断,一是工具:是否可能具备“顺畅的、快捷的、容易实现的”数据应用场景的工具集;二是工夫:是否能够疾速地查找、信赖、了解数据。依据调研统计,有不低于 80% 的工夫耗费在“查找 - 了解 - 信赖”数据的过程中;这两个现状成为妨碍数据应用的最大的瓶颈。咱们演绎了数据应用的几 大问题点,如下所示:

  • 数据孤岛亟需突破;
  • 发现、了解、应用数据耗时费劲;
  • 常识教训无奈共享、迭代;
  • 沟通不畅、权责不明;
  • 个人信息无奈归档;
  • 数据安全如何保障;

本次只介绍数据资产治理的外围元数据管理及数据资产数据地图,及数据生命周期治理,其余相干模块:数据接入,数据处理,数据服务等前面介绍

资源管理

实现集中对各种数据资源的治理,包含数据库,音讯队列等的治理

实现数据库数据源治理:属性包含:所属业务名称,业务技术负责人,数据源 IP,端口、数据库名称,用户名、明码,数据库类型(Mysql、oracle、SQLServer、Doris 等),创立工夫,创建人

实现 Kafka 数据源治理:属性包含:Kafka 集群名称,Kafka Broker Server 地址(示例:172.22.197.123:9020),对应 zookeeper 地址(示例:172.22.197.123:2181), 创立工夫,创建人,集群负责人

元数据管理

元数据管理是整个零碎的外围,所有的性能及业务流程都是围绕这个进行的,也是整个零碎数据治理的外围

元数据次要解决三个问题:首先,通过建设相应的组织、流程和工具,推动业务规范的落地施行,实现指标的标准定义,打消指标认知的歧义;其次,基于业务现状和将来的演进形式,对业务模型进行形象,制订清晰的主题、业务过程和剖析方向,构建齐备的技术元数据,对物理模型进行精确欠缺的形容,并买通技术元数据与业务元数据的关系,对物理模型进行齐备的刻画;第三,通过元数据建设,为应用数据提效,解决找数据,了解数据,问题评估难题以及取数和数据可视化难题

元数据管理系统架构

这里元数据分为物理元模型和血统元模型

元数据采集

元数据采集分为人工录入和主动抽取,通过人工录入的形式实现物理表的精确归属(包含该表属于仓库哪一层、对应的主题、业务过程、星型模型关系等)以及指标的采集,从而实现技术元数据和业务元数据的采集,通过主动抽取的形式实现生产元数据的采集和应用元数据的采集,次要包含:物理模型的依赖关系、存储占用、热度等信息

血缘关系:这块因为咱们数仓是用的 Apache doris,实现起来绝对月 Hadoop 架构的简略了很多,通过 Flume 采集每个 Doris Fe 节点的审计日志(fe.audit.log)中的 sql,通过阿里开源的数据库连接池 Druid 进行解析主动生成,这里同时还能够对 SQL 操作进行一些平安审计,比方 Delete,truncate,drop 及 sql 执行成功失败,执行工夫等进行审计预警

元数据管理性能

1. 业务数据元数据同步采集

实现对业务数据库数据表的元数据主动采集同步,包含建表语句中的中文备注信息,并将中文备注信息填写到对应的中文字段名称中,界面提供元数据批改性能,次要批改是增加业务技术负责人、批改表的中文名称、备注阐明等信息,表的字段名称,类型、长度等信息不容许批改

2. 数据仓表元数据采集

实现对数仓数据库数据表的元数据主动采集同步,包含建表语句中的中文备注信息,并将中文备注信息填写到对应的中文字段名称中,界面提供元数据批改性能,次要批改是增加数仓表对应技术负责人、批改表的中文名称、备注阐明等信息,表的字段名称,类型、长度等信息不容许批改

3. 元数据版本治理

因为数据库表存在构造变更,这里须要提供元数据多的历史版本治理,能够查问元数据历史版本信息

4. 业务元数据变更治理及预警

对业务元数据的变更(次要是 Mysql 数据库),通过 flink 监控 binlog 的 schema 变更工夫,一旦发现及时发送音讯告诉,后端监控变更音讯队列,取到变更信息,收回元数据变更预警,并主动批改相应的元数据,生成版本信息。

5. 元模型构建

分为以物理表为外围的根底元模型构建,以及以血统为核心的血统元模型。

根底元模型构建以物理表为核心,买通其与技术元数据(主题、业务过程、Schema)的关系,实现了物理表的清晰归属,买通其与生产元数据的关系,要加上物理表查问热度、资源耗费、查问密级等生产应用信息,买通其与指标、维度和利用的对应关系,为下层的取数利用建设了齐备的元数据。

血统元模型以血统为核心,通过监控 Doris 审计日志,通过 sql 解析实现主动的血缘关系构建,不仅要构建从上游业务表到仓库表的物理血统,而且要买通仓库表到上游对应报表的血统,为后续的影响评估构建了齐备的元数据根底

6. 虚构库及表的治理

对于通过 API 接口方式对接的数据,要通过页面手动增加库,增加表及表字段类型,字段名称,字段中文名称,字段长度等等,这样的目标是为了对立元数据管理形式

业务元数据

数据域主题治理
数据仓库是面向主题(数据综合、归类并进行剖析利用的形象)的利用。数据仓库模型设计除横向的分层外,通常也须要依据业务状况进行纵向划分数据域。数据域是分割较为严密的数据主题的汇合,是业务对象高度概括的概念档次归类,目标是便于数据的治理和利用。
数据域是指面向业务剖析,将业务过程或者维度进行形象的汇合。为保障整个体系的生命力,数据域须要形象提炼,并长期保护更新。在划分数据域时,既能涵盖以后所有的业务需要,又能让新业务在进入时能够被蕴含进已有的数据域或扩大新的数据域。数据域的划分工作能够在业务调研之后进行,须要剖析各个业务模块中有哪些业务流动。
数据域能够依照用户企业的部门划分,也能够依照业务过程或者业务板块中的功能模块进行划分
数据域的治理实质是一个分类管理,暂定二级分类

数据域主题作用于数仓外部数据表的治理及数据指标的分类管理

数据维度治理

建设对立的维度管理系统,实现对维度信息的对立管控,并为公司的数据产品提供对立的维度数据服务,蕴含维度开发治理,维度信息管理及维度数据服务三个方面。

维度治理:基于数据维度治理标准,对维度新增、批改、公布等生命周期进行对立治理。

维度服务:基于数据仓库 ODS 层模型源数据,建设服务化的维度表模型,在模型根底上建设维度,包含零碎维度和手工维度定义,反对离线和实时大数据量的维度查问服务,维度创立实现后为各数据产品提供高可用,高性能的数据服务

1,抉择业务过程 依据业务场景以及可用数据源 2,申明粒度 依据事实表及利用场景,确定汇总粒度,个别尽可能的用最细粒度 3,确定维度 依据确定的粒度,定义对应的维度,最细粒度,也是最低档次的维度 4,确定事实 确认将哪些事实放到事实表中,维度表只是做关联,不做维度数据的查问服务。

维度定义:维度按团体产业进行指标一级业务域划分,包含:智能工厂、供应商、洽购、销售、门店、仓储、运输、POS 等;在各业务域下,对维度进行主题分类,次要有:工夫类(DT)、组织类(OG)、产品(PD)、销售平台(SP)、经营方式(BM)、终端 (TM)、业务渠道(BC)、营销(MK)、会员(MB)、洽购模式(PM)、地点(AD) 等。

维度治理:

维度:维度平台要反对疾速定义维度, 通过设置维度的根本信息,抉择维度映射的维度表,做好维度与维度表的映射,设定维度的一些个性(布尔维度,工夫维度,杂项维度等),检测维度的定义后果。达到了让业务人员可能只是通过页面操作就能够制订须要的维度。

维度表:数据开发人员能够通过维度库平台定义维度表,定义好之后能够集成数据仓库的同步工作一键将仓库的数据同步到维度表中,将维度表与维度做映射关系。

维度层级:维度库平台反对定义维度层级,只有是维度库平台上有的维度表并且做好维度与维度的映射关系之后,就能够定义须要的维度层级,依据维度层级提供维度值的上卷下钻查问服务。

维度血统:提供了维度,指标,报表的血缘关系,以及还筹备做的维度数据的血统,维度,指标,报表调用次数的血统等等。

数据地图

数据地图提供数据检索能力,致力于提供蜀海生态内丰盛数据源的检索服务。实现找数据的过程,通过该平台,用户能够以较小老本找到所需数据,无论是业务数据、数仓数据库表或字段、数据指标,数据服务都能够通过该性能实现检索,对业务及数据开发应用人员能很快的找到须要的资源,并依据搜寻的后果展现理解数据

1. 找表

通过对立的查问页面,通过输出关键字实现数据表的检索
在检索的后果页面找到合乎本人的数据,进去查看表的详情页信息,详情页展现内容包含

  • 表的详情信息
  • 表的字段信息
  • 表的数据预览(最多 10 条)
  • 表的血缘关系(包含表的上下游依赖,表的关联关系)
  • 表的应用状况统计
  • 表的建表语句
  • 表评论信息,对于表有不了解的中央能够在这块进行发问
  • 表的分区信息
  • 表的应用阐明
  • 珍藏及应用脚印记录

表明细:

2. 找维度

通过对立的维度检索页面,通过输出关键字检索字段信息,点击字段列表数据,能够查看该字段的信息

  • 维度所在表的信息
  • 维度关联表的信息
  • 维度阐明信息
  • 该维度关联的指标数据信息
  • 维度评论

3. 找指标

通过对立的指标检索页面,通过输出关键字检索指标信息,点击指标列表数据,能够查看该指标的信息

  • 显示指标的根本信息
  • 指标的生产链路
  • 指标技术逻辑
  • 指标字段信息(按维度和指标离开)
  • 指标数据预览
  • 指标应用阐明
  • 指标评论
    指标明细:

4. 找服务

通过对立的服务检索页面,通过输出关键字检索服务信息,点击服务列表数据,能够查看该服务的信息

  • 数据服务接口根本信息
  • 数据接口参数及响应阐明
  • 数据接口应用阐明
  • 接口权限

5. 找报表

数据生命周期治理

次要是为了实现数据从产生、采集、解决、存储、加工、应用及归档销毁的全生命周期的各个阶段的治理

依据数据的应用状况或者依据 用户设定的数据生命周期,及时帮用户销毁数据,在大数据研发中大部分用户关注的是数据怎么进入数据仓库,然而很少有用户会关注数据的销毁。随着工夫持续性倒退之后数据会无限量减少,数据仓库缓缓的成为一个很大的老本累赘。数据生命周期治理,关注于数据整个链路的生命周期治理,及时举荐有效数据下线。在数据下线的过程中,很多用户会放心数据误删,齐备的数据下线机制,在有效期限内能够对数据进行复原,确保数据误删的状况。

次要是通过数据接入,数据 ETL、数据地图、元数据、数据指标各个系统在应用过程中的应用日志数据,对数据进行一个全面的采集及剖析,生成数据在各个阶段的数据指标。

生命周期治理关注以下内容:

数据归档治理:对合乎归档的数据进行归档到冷存储上,缩小存储及计算成本
统计在数据每个阶段的数据变化趋势
业务库 DDL 变更趋势
数据热度排名:数据库,数据表的应用热度统计
数据库数据量排名,
库内数据表数据排名
依据数据的应用状况或者依据 用户设定的数据生命周期,及时帮用户销毁数据

在大数据研发中大部分用户关注的是数据怎么进入数据仓库,然而很少有用户会关注数据的销毁。随着工夫持续性倒退之后数据会无限量减少,数据仓库缓缓的成为一个很大的老本累赘。数据生命周期治理,关注于数据整个链路的生命周期治理,及时举荐有效数据下线。在数据下线的过程中,很多用户会放心数据误删,齐备的数据下线机制,在有效期限内能够对数据进行复原,确保数据误删的状况

数据资产全景视图

数仓界的 360,能够定量评估数据资产的老本,价值,品质。帮忙企业优化存储老本,节约计算资源。精细化的数据生命周期治理,帮忙企业更好的治理数据的生产到销毁的整个生命周期。

  • 资源视图
  • 数据库统计
  • 表统计
  • 表援用统计
  • 数据在各个生命周期阶段的资源应用状况
  • 文件数量:总文件数,累计存储量,当月优化存储量
  • Job 统计
  • 优化倡议等
  • 脚印
  • 数据问答

咱们为数据地图中的找表,找维度,找指标,找服务,找报表都提供了数据问答性能,通过评论问答性能,帮忙用户能够疾速失去问题反馈:如果用户看了信息后还是感到有问题,提供评论问答的性能,用户通过这个性能能够进行发问,会有相应的负责人进行回复。对于反复问重复问的问题,用户通过查看其它人的发问和回复就能找到答案。并且负责人还会定期的将问答信息积淀到对应的元数据里,一直地对元数据进行补充和欠缺

下一讲会解说怎么基于 Apache doris 实现疾速数据接入,零代码数据接入零碎

退出移动版