乐趣区

关于数据:数据服务基础能力之元数据管理

一、业务背景

1、利用场景

在多变的数据服务场景中,利用中常见如下的业务需要,通过对多种数据结构的灵便组合,疾速实现业务模型构建,整体示意图如下:

像罕用的画图工具,右边提供根底图形库,两头是画布,左边是组件的管制细节,比照到这里的逻辑如下:

  • 字段面板:提供业务数据结构的字段映射,和惯例字段类型配置,用来撑持组合面板的表单配置。

    • 数据结构:对现有业务构造做映射,可能是文件、数据表、JSON 等,生成绝对规范的字段选项;
    • 拓补字段:保护一批根底的字段类型,用来做拓补操作,欠缺整个业务构造;
  • 组合面板:承载字段的组合治理,生成新的数据结构,依据业务场景,实现底层数据的抽取存储或者 API 服务生成。

    • 业务主体:通过业务需要的判断,明确面板撑持的业务属性,通过根底构造组合新的业务主体;
    • 组合构造:面板上出现的字段,是多个业务构造的抽取,即不同业务构造中的局部字段组合;
  • 规定面板:对组合面板上字段进行规制设定,常见波及:形容,类型,默认值等,对面板字段进行绝对对立的标准化治理。

    • 形容信息:对于组合面板上的字段形容,也能够是原有映射的后果,作为新业务主体的属性阐明;
    • 类型保护:简单的环节,不同数据类型在不同的存储中解决形式不同,须要对立保护类型存储映射;
    • 业务规定:对于新的业务主体,设置属性的规定,能够是:唯一性,默认值,等等;

2、构建服务

基于上述性能的实现,能够疾速实现以下服务能力,通常利用在业务多变的场景中:

  • 数据主体构建:通过组合面板的构造生成,疾速实现相干数据的抽取和存储,作为新的业务场景中的主体数据。
  • 服务 API 生成:在数据服务中,间接通过配置,生成 API 服务能力,并控制参数的响应构造,这种状况通常会以实时查问的形式解决。
  • 数据智能剖析:在数据分析场景中,偏重统计的后果,基于字段和图表构造,生成相应的统计分析工作,灵便治理剖析报表。

这里是简述绝对繁多的应用服务,如果把这里的流程分段放大,在整个数据服务体系下,就是围绕元数据管理的简单的根底零碎:围绕数据结构映射,进行元数据标准化治理,在此基础上二次组织数据,疾速响应业务需要。在这样的流程下,能够疾速建设业务链路,提供高效的服务能力,升高试错的老本。

二、元数据概念

1、根底形容

从定义上说,元数据 (Metadata) 即形容数据的数据,然而在理论应用的时候,还是存在很多细分的概念,看上面的案例:用户性别;

从细分角度看,能够对下面数据进行两块划分,即业务层与技术层:

  • 业务层:名称. 释义. 阐明. 值类型;
  • 技术层:路由库. 路由表. 存储类型. 值类型;

这里的分层只是形容的侧重点,业务层偏差利用端,技术层偏差底层零碎的交互和实现,在对性别的形容上都是外围维度。

所以从实质上看元数据,介于零碎和业务两头,提供单方都能明确的语义和逻辑,能够更加高效的撑持数据的业务价值。

2、血缘关系

下面是从单个指标看元数据的构造,如果从整个链路上看,就会造成层级线路,通常称为血缘关系:

从下层业务侧追溯到底层构造,造成血缘关系的概念,概念自身并不重要的,背地的外围是链路的治理,链路上的节点(两头实体)是通过多种计算伎俩生成;

如果某个节点数据一旦呈现品质问题,则须要依据这里的链路关系进行逐级向底层排查,实现问题修复后,还须要依据关系向上逐级修复荡涤;如此通过血缘关系进行数据品质的剖析和把控。

3、业务价值

元数据管理是一个继续又漫长的过程的,任何零碎的搭建都须要业务来掂量其存在的价值,其外围逻辑在于:对立标准化治理元数据信息,标准业务层的定义,并通过技术层面疾速定位数据,自动化抽取数据,灵便撑持业务利用。

  • 围绕外围业务:通常在我的项目初期的时候,只围绕一些外围业务主体,使其在应用的时候灵便高效,后续在继续扩大其余能力。
  • 数据老本剖析:基于元数据中链路,剖析各个节点数据的生产保护治理等老本,为数据服务中商业定价提供参考,可能间接影响服务是否可提供的决策。
  • 配置可视化:在数据服务平台中,最禁忌的一点就是靠手动去保护各种作业,不论在什么场景下,都要思考可配置化治理,保障动作可追溯。
  • 流程自动化:不论是元数据结构映射,还是配置后数据的抽取,要保障指令生成后能够主动实现该一系列动作,并实现流程监控剖析。
  • 资产化剖析:通常会把元数据视为数据资产体系,因而围绕元数据去统计数据的应用状况,产生的价值,以及热点数据辨认和散布,业务主体关联度等,并输入相应剖析后果。

如果单从业务角度去看,元数据系统的存在,就是为了能够疾速了解元数据,并且灵便的组织治理,以此升高服务能力的实现老本。

三、架构设计

1、零碎分层

  • 采集层:元数据系统中的根底节点,架构体系的底层,保护元数据获取通道和映射治理以及落地存储,并实现构造治理和数据处理过程;在数据源中可能存在多种状况:数仓环境、文件构造等,在特定状况中,还须要肯定水平的手动保护进行构造拓补;
  • 管理层:对于元数据外围能力打造,和相应的标准化治理,或者二次加工,数据源层面间接采集的数据通常不具备规范的业务语义,更多偏差技术侧的阐明和逻辑,在通过标准化保护之后,在放开给应用层之前,还须要通过品质检测:例如工作城市,如果不足相应的枚举字典,显然是不合格的,必须通过必要的解决能力放开;即管理层放开的数据须要标准化和整体维度欠缺;
  • 应用层:基于元数据能力的应用层开发,对于理论业务场景提供解决方案和性能入口,以及相应的零碎中用户权限隔离等基本功能;

从零碎分层的角度了解流程并不简单,然而理论的实现过程几乎不堪回首,技术栈应用非常复杂,多个版本逻辑重构再重构,并且一直的改良优化,最终能力实现绝对稳固的服务能力。

2、元数据采集

在采集数据的时候,面对的最大问题就是多品种数据源解析适配,以及数据调度工作的形象,必须开发对应的工具来实现各种场景的元数据解析能力:

  • 解析能力:适配解析各种数据源特点,文件格式,SQL 脚本,形象工作等,实现规范元数据的转换积淀;
  • 类型辨认:十分复杂的一个节点,类型在形容数据的时候至关重要,结构化存储能够间接读取,文件类构造通常须要类型转换标识,工作流程会间接对立治理,顺次保证数据在不同环境中的正当存储;
  • 更新音讯:业务的倒退中,各种数据结构是频繁变动的,这就须要与元数据系统进行同步,通常要向音讯服务(总线)发送告诉,而后触发元数据更新动作;

外围能力:构造与类型辨认解析、获取初始化数据,并且通过音讯告诉线路,实现动静更新流程的触发。

3、元数据管理

外围能力的打造,通常在零碎初期都是围绕根本能力和业务需要的方向,以求疾速落地实现,提供业务撑持能力;

  • 根底能力:标准化元数据结构,进行构造存储和可搜寻能力实现,这个节点进行对立保护,数据类型辨认和转换是至关重要的;补充说一句,在数据平台中,都会存在类型服务零碎,以提供相应的辨认能力和标准不同场景下的转换;
  • 实体与关系:数据业务中两个外围概念,实体必然由属性形成这是常说的,实体之间保护的关系:关联、、绑定、输入、输出等,是构建血缘关系和数据链路的外围标识;
  • 数据抽取:基于对元数据的组织和实体的定义,生成数据抽取规定,进而实现数据的疾速获取,后续就是对接具体的业务,例如数据存储形式,搬运形式,最终落地业务线应用;
  • 可视化剖析:包含数据品质剖析,链路与周期剖析,血统剖析等,这类性能个别在外围业务能力实现之后,会按需要等级,逐渐迭代实现;

通过外围能力的建设,以求实现对数据的疾速定位,高效治理,灵便利用的指标,进步数据服务能力的效率,适应业务倒退的多变性。

同系列:消息中间件革新 ┃ 数据服务零碎设计 ┃ 业务数据荡涤计划 ┃ 数字营销概念 ┃ 标签业务利用 ┃

四、源代码地址

GitEE·地址
https://gitee.com/cicadasmile
Wiki·地址
https://gitee.com/cicadasmile/butte-java-note/wikis

浏览标签

【Java 根底】【设计模式】【构造与算法】【Linux 零碎】【数据库】

【分布式架构】【微服务】【大数据组件】【SpringBoot 进阶】【Spring&Boot 根底】

【数据分析】【技术导图】【职场】

退出移动版