关于数据仓库:数据标准在网易的实践

7次阅读

共计 10033 个字符,预计需要花费 26 分钟才能阅读完成。

在生活中,规范与咱们非亲非故,吃的食品须要满足国家标准能力食用,汽车排放达标才可能上路行驶,电脑接口得满足对立的规范才可能与外设对接等等。而在数据的世界,数据规范也等同重要。咱们冀望将数据规范真正利用到实际中去,帮忙客户解决资产化有余、数据品质难以晋升、数据开发效率低等问题,于是网易开始了数据规范的建设。

本文将基于咱们对数据规范的了解,论述规范的建设并根据规范的建设内容和流程来设计的规范治理产品的介绍以及规范在数据治理过程中的具体实际,心愿与大家碰撞出新的意识。

1. 数据规范是什么?

在理论的工作生产中,咱们个别会参照国家标准、中央规范、行业标准等来进行具体的流动,来确保咱们生成过程合乎监管要求、便于上下游协同等,于是咱们会见到如下的规范领导文件:

同样,数据规范也会以文件的模式存在,在除了国标、行标定义的规范外,企业外部为了便于各部门采取同样的数据建设标准,通常会应用文件来定义数据规范,以供各部门达成对立的共识。

尽管文件是规范的一种体现模式,但文件是非结构化的,在理论利用中,咱们只有了解、提取文件里的内容,将规范利用于产品设计及流程流动当中去,规范能力起到真正的标准束缚作用。

依据信通院公布的《数据规范治理实际白皮书》定义:数据规范(Data Standards)是指保障数据的内外部应用和替换的一致性和准确性的规范性束缚。

毫无疑问,这是正确的。但咱们还须要将规范践行,以建设数据中台为例,咱们晓得数据中台强调的是资源整合,在数据层面就是整合多源异构零碎中扩散在各个孤岛的数据,造成对立的数据服务能力,这是一项艰巨的工作,很难通过相互约定以及默认信赖相干方来保障数据的价值挖掘,造成真正的数据资产。

于是,基于此点将数据规范进行裁减,一是对治理范畴的裁减,从广义的数据规范(指对根底数据自身的规范性束缚,如数据格式、类型、值域等)裁减到整个数据中台层面的规范(蕴含治理各阶段的规范性束缚);二是对管理手段的裁减,数据规范不再是指一系列的数据标准化文档,而是一套由标准要求、流程制度、技术工具独特组成的体系,通过这套体系实现规范的布局、制订、公布、执行、查看、保护等行为,来实现数据的标准化以及规范的积淀。

2. 数据规范的价值

在说价值之前,咱们先聊聊让咱们头疼的问题。人人都在议论数据规范,但数据规范真的被利用起来了么,咱们拿着一堆标准文件,冀望企业外部宣贯大家要依照这个规范来,但执行的后果如何?

数据集成多源异构数据时,数仓开发人员真的能疾速了解这些数据的理论业务含意么?如果了解老本很高,开发人员可能就会呈现意识偏差。

终于数据集成进来了,能够开始进行数仓建设了,如何保障每一层的数据都是合乎品质要求的,靠开发的集体素质么?比方咱们个别在 dwd 层做数据标准化,那么不同主题域的由不同的负责人进行开发,怎么保障标准化的后果仿佛满足标准的?dws 的数据可信度还能保障么?还能被叫做公共模型层么?

再后,数仓开发实现后须要对外开放,咱们其实开发的不光是其数据,还须要开发它的元数据信息,帮忙数据应用方疾速的找到须要的数据,如果只是把数据堆在一起,只有研发人员本人晓得这个数据是什么、在哪、怎么应用,那是不可能被称为数据资产的。

还有很多问题,这里只列举了些典型。当然这些问题,是能够解决的,解决的形式就是数据规范。解决的的过程可能须要的工夫比拟长,因为规范从治理到落地执行推动并不是一件容易的事,须要从思维上进行转变,但咱们总要正确的做事。

上面列举了一些价值,但在理论的利用过程可能发现更多的可能性。

价值一:建设对立的数据视图

建设通用的元模型标准,反对用户自定义扩大,对多源异构数据表进行信息形象提取,造成对立的元数据层。所有的数据开发实现后公布到数据规范保护的对立的数据目录,通过不同维度的数据目录进行多维筛选,满足各类用户的检索须要,达到资产的可管、可用、可查的指标。

价值二:建设对立的数据认知

首先利用规范实现对多源异构数据的标准化形容,尽管数据在不同零碎中的称说千奇百怪,但只有进入咱们的平台都将赋予对立的名姓,使得管理方、开发方、应用方建设对立认知。对于仓表面将数据规范与表字段进行关联,旨在对立含意以及告知将来数据处理的方向;对于仓内表,模型设计之初就须要援用规范,咱们晓得将数据项进行组合即可失去模型,数据元即为规范数据项池,模型设计时仅需从池子里选取须要的字段进行组合即可组装成想要的模型。

价值三:建设品质稽核体系

现有的品质稽核个别是由用户依据业务需要手动设置,不同人员的认知偏差将导致数据品质难以管制。数据规范通过数据元的示意类属性,依据其格局、类型等要求主动生成品质稽核规定,当某张表的字段绑定了数据元时,即可依据数据元的品质信息要求主动生成稽核工作,且保障了源头定义的一致性。

价值四:面向未来的数据治理
咱们晓得,工具的终极目标都是为了降本提效。效率晋升是要靠流程标准的,流程足够标准,在某种程度上可实现流程主动流转。因而,将来的数据治理趋势该当侧重于流程自动化以及阶段智能化,而这两点都须要数据规范的撑持。

阶段智能化冀望在流程各阶段提供智能辨认能力,比方字段的实在含意(挂载数据规范)、资源所属分类、字段枚举值等,缩小人工参加。从短期来看,用户从解决者变为审核者,从长期来看,用户干涉的行为反哺辨认模型,减少辨认准确性,可升高人力老本;

流程自动化依赖阶段智能化以及人工干预的后果,将各阶段进行串联,上下游尽可能完满对接,当上游阶段达到上游准入条件时,可主动触发流程运作,当然该过程也须要对立上下游语言(即数据规范),在理论实际中,可通过试运行进行验证。

规范的价值还有很多,限于篇幅不过多赘述,大家能够一直发现规范的利用场景。说完规范的价值了,那么咱们该如何建设数据规范呢?

3. 如何建设数据规范?

在晚期的业务倒退过程中,企业为了解决当下的业务问题,各业务条线已建设本人个性化的业务零碎,在建设的过程中为了保障外部通信,或多或少都已存在部分的数据规范。因而,建设对立的数据规范很大水平上是对部分规范进行收口,一般来说,可收集现行的国家标准或行业标准,将现有规范与国标或行标进行对标,此过程一是能够满足监管须要,二是可大大节俭规范制订的人力;另一方面则是思考所在行业的特点并联合企业的理论须要,逐渐构建规范进行推广。

具体可参考数据规范的建设的 6 个步骤,别离是:数据规范布局、数据规范制订、数据规范公布、数据规范执行、数据规范查看、数据规范保护。

3.1 数据规范布局

规范的布局首先需对企业业务和数据进行调研和剖析,结合实际的数据规范需要,明确数据规范的范畴。再依据理论状况的不同,逐步推进。

3.1.1 收集现行标准

可从业务流程登程,圈定参加业务流程的业务实体,通用的业务实体如人,可收集对应现行的国家标准,如对于公民身份证号码该当遵循强制性规范 GB 11643 , 对于性别的代码该当参考推荐性规范 GB/T 2261.1 的规定,行政区划该当参考 GB/T 2260 的规定等。具备行业属性的业务实体如商业银行担保物,可参考 JR/T 0170.1 以及 JR/T 0170.2 的规定等。

3.1.2 从部分规范到全局规范

对于企业各业务条线(部门)已建设的部分规范且不适用于援用现行标准或不存在于现行标准的须要进行收集,对同一业务含意但不同规范形容的项进行评审,在企业外部达成统一,失去最终对立的数据规范。

此过程可蕴含根底类数据规范对立、参照类规范对立、指标类数据规范对立。

3.1.3 发现更多数据规范

发现更多规范次要利用于以下状况,一是部分规范不明确也无现行标准实用时,二是企业各业务条线垂直零碎较多,数据体量较大,不足足够的人力及技术手段,但从总体策略的角度冀望制订规范时。应答这种状况可依赖数据规范治理平台(第 3 节将具体介绍)进行规范的辨认及拾取。

规范的辨认及拾取个别存在两种形式:

第一种有明确制订某项规范的需要,则通过定义数据元概念(第 2.2 节具体介绍),确定该项数据规范形容的对象类及个性,再通过关键词扫描及智能辨认技术,扫描存量数据,辨认与该数据元概念统一的数据项汇合,对该汇合进行探查获取字段类型散布、长度范畴、值域散布等,从而构建数据元的示意形容,造成残缺的数据规范。

第二种是暂无明确制订某项规范的需要,去摸索是否须要对某些数据项制订规范。系统对存量数据进行扫描,遍历所抉择的数据源类型中的所有字段名,提取达到反复阈值的字段名,对其制订数据规范。

3.2 数据规范制订

3.2.1 元数据规范

元数据规范次要标准了平台对于各类元数据及资产的示意形式和组织形式。

3.2.1.1 元模型的制订

数据中台是企业数字化转型的根底和中枢系统,将企业全域海量、多源、异构的数据整合资产化,但多源异构数据差异化显著,如何保证数据管理者、使用者、开发者对数据具备对立的认知是亟待解决的问题。良好元模型设计,宗旨在于屏蔽底层多源异构零碎的复杂度,用对立的语言来形容来自不同利用零碎、存储在不同品种数据库的各类数据。

咱们晓得元数据是形容数据的数据,而元模型则是对于模型的数据形容,依据 OMG(对象治理组织)提出的四层元模型构造,能够清晰的表白出四层的关系:

能够看出,元数据是个绝对的概念,元模型即为元数据的元数据,为了更不便大家了解,这里提供一个实例解释:

元模型不仅限于表元模型、字段元模型,还蕴含指标元模型、标签元模型等,尽管所形容的元数据品种不同,但治理办法上都是统一的,在实际的过程中,可全副纳入数据规范进行治理,也可在对应的子系统中各自保护。

3.2.1.2 命名及编码规定制订

命名规定次要用于标准表名、字段名、工作名称、指标名称、标签名称等,指定某个名称该当应用哪些命名因素组成以及以何种排列程序组成。编码规定次要用户资产编码、数据元外部标识符、标签编码、指标编码等,指定某个编码该当应用何种编码方式。

因而须要指定命名及编码因素范畴,一是选取平台已存在的枚举值,如数据分层、主题域或其余已存在的分类枚举;二是用户可自定义常量、自定义枚举值;三是平台提供的可变位序列。通过上述的命名因素,进行排序组合,造成命名及编码规定。

以数据元为例子:

第一种编码方式能够为“指定标识(常量)+ 7 位自增序列”,能够编码为 DE0000001;

第二种编码方式能够依照所在分类进行对立编码,相似于“一级分类编码 + 二级分类编码 + 三位自增序列”,比方公民身份号码数据元归属分了为”人员类(01)/ 信息标识类(001)“,那么能够编码为 01001001,其余以此类推。

3.2.1.3 数据目录标准制订

数据目录提供灵便的数据组织形式,比方数仓开发人员应用数据分层、主题域来组织数据,对于数据管理者,可能更关注于资产盘点,心愿可能依照起源零碎、治理部门以及平安分类等多种计划进行治理。

咱们在制订数据目录时,须要剖析用户的需要场景,在不同场景下为用户提供更适合的数据视角,便于用户取数用数。一般来说,会先提供数据起源分类、数仓设计分类、数据安全分类,分类的形容信息至多要蕴含分类名称、英文名称、外部编码,以便于在平台其余模块的利用。且分类计划反对用户在前期的治理过程中进行自定义裁减。

3.2.2 根底数据规范

3.2.2.1 词根的制订

词根是为了规范的命名更加标准对立,最终将被利用到字段命名或其余资产的命名上。

企业可依据本身积攒,对词根进行收集,造成本人的词根库,在制订数据元及字典时,可依据输出的中文名称主动依据词根翻译英文名称。

一个残缺的词根信息蕴含英文简称、英文全称、中文全称三个局部,其中文全称反对多个,保障用户在应用词根翻译时雷同含意字段可能获取雷同的英文简称。另外,为了便于对立治理,需对词根的编码及词根起源进行指定。

3.2.2.2 数据元的制订

数据元是根底类数据规范的具象化体现,也是数据规范治理的外围。依据数据规范布局,制订数据元第一种形式是对现行标准进行结构化提取,应用平台进行治理,第二种则是依据本身须要建设企业本人的业余数据元。

残缺的数据元该当由三局部组成,对象类、个性及示意,如下图所示,只有当对象类及其个性绑定了示意时,能力由数据元概念转变为真正的数据元。

对象类:事实世界中的想法、抽象概念或事物的汇合,有分明的边界和含意,并且个性和其行为遵循同样的规定而可能加以标识;,如:车、人、订单等;

个性:对象类的所有个体所共有的某种性质,如色彩、性别、年龄、价格等;

示意:值域、数据类型的组合,必要时也包含度量单位或字符集,如:格局、值域、长度等;

其中,值域可通过名称或码值间接给出、也可通过参考资料给出、也可通过绑定数据字典给出。


因而残缺的数据元名称该当为:“对象类词 + 个性词 + 示意词”,如人性别代码。

在了解了数据元的含意后,如何去制订数据元呢?咱们可参考 GB/T 18391 规范的第 1~6 局部,有趣味的敌人能够去理解下,这里联合咱们的了解给出数据元的结构化形容。

在制订数据元时,咱们通常会从 6 个方面形容数据元的根本属性:标识类属性、定义类属性、关系类属性、示意类属性、治理类属性、附加类属性,如下表,这是一个综合的较为通用的数据元形容模板,在利用过程中须要依据企业理论须要,进行删减补全。

3.2.2.3 数据字典的制订

数据字典是参照类数据规范的具象体现,个别分为原始字典及规范字典,原始字典指源零碎或生产零碎中某个原始项数据内容的枚举汇合,规范数据字典个别用于作为数据元值域而存在,在数据处理过程中须要实现原始字典到规范字典的映射,实现字典标准化工作。

数据字典外围是其码值列表,码值列表至多要蕴含两项信息:代码、代码形容,必要时可减少阐明字段进行补充。

取得码表的形式:

原始字典:数据库逆向采集、元数据注册时填写字段枚举值、数据探查时值域散布计算、手动录入;
规范字典:现行标准的结构化提取、规范辨认后果剖析、手动录入。

3.2.2.4 数据项分类标准制订

数据项分类与数据目录相似,也是为了满足在不同场景下,对不同对象的分类需要。数据项分类即是对字段级进行分类。

在制订数据目录时,须要剖析用户的需要场景,在不同场景下为用户提供不同的分类计划。如从治理角度,能够依照形容对象、起源文件进行划分;从数据安全角度能够依照敏感级别、安全级别进行划分等,且分类计划反对用户在前期的治理过程中进行自定义裁减。

在理论利用的过程时,会将具体的分类值关联数据元,再由数据元关联字段,做到疾速分类的目标。

3.2.3 技术标准制订

3.2.3.1 数据类型映射关系

次要记录不同数据源间数据类型的映射关系,便于在数据传输、散发等场景下疾速建表,晋升数据传输工作的配置效率。

3.2.3.2 异构数据开发模板制订

次要治理不同数据源的 DDL 语句模板,蕴含新增、删除、更新等,帮助数据开发人员抉择对应数据库节点时疾速依据模板生成语句。

3.3 数据规范公布

个别数据规范倡议遵循草案、试用、规范、废止的生命周期流转,但可依据理论状况进行简化。对于数据元、数据字典尽可能遵循此生命周期治理,对于词根、数据分类、元模型等可简化流程,可采取草案、上线、下线的生命周期治理。

数据规范公布是在规范制订实现进入开发实现态后,可提交公布审核,审核通过后将利用于整个零碎,若后续须要进行订正,则需订正实现后从新公布最新版本。

另外,公布前需查看版本变动以及影响范畴,评估影响后再进行公布失效,并告诉相干方进行调整。

3.4 数据规范执行

数据规范执行次要分两块,第一块是正在进行数据治理的各个阶段进行利用,第二块是新建零碎和历史存在的业务零碎的利用。

数据治理过程的利用次要在(波及数据规范与各个模块的对接,将在第 4 节具体介绍):

元数据:须要从业务属性、技术属性、治理属性三个方面对元数据进行形容,须要定义具体的形容项
数据资产:须要对各类资产进行盘点,须要定义资产编码及命名标准、定义分类根据、上线规范
数据品质:须要建设稽核规定,须要构建品质检测体系
数据安全:须要对数据进行分级分类,须要定义数据项分类根据、敏感信息的辨认根据
模型设计:须要定义数据模型、数据指标、维度度量等数据的规范
数据传输:须要对接不同种数据源、起源零碎,须要制订不同零碎、数据源间的替换根据
数据开发:须要定义数据处理根据,字段及字典映射逻辑、各类数据源 SQL 模板

新建的业务零碎

必须严格依照公布的规范进行设计,通过应用平台提供的模型设计产品进行管控

正在运行的零碎

能够通过探查、智能辨认的伎俩建设映射关系

3.5 数据规范查看

数据规范执行后,须要进行落标查看,确认规范执行的状况以及成果。

可参考相干指标,从规范侧进行规范的援用统计、标准化率统计,从品质侧统计表及字段品质评分,多角度去判断指标执行状况及利用成果。

3.6 数据规范保护

保护数据规范

在理论执行的过程中,可能现行标准产生订正,企业本身业务规定发生变化,都须要对已公布的规范进行订正
订正要严格依照生命周期流转要求,记录版本变动,评估变更影响,在进行从新公布失效

积淀数据规范

随着规范的累计,咱们须要积淀所在行业的规范
通过规范积淀,建设规范资产,造成行业最佳实际,晋升企业在所在行业的位置

4. 数据规范产品介绍

在理解了如何建设数据规范后,咱们能够着手开始干了。但工欲善其事必先利其器,一个适合的数据规范管理工具能够帮忙咱们更不便、更高效的制订和治理数据规范。

因而咱们基于数据规范治理流程、治理内容的剖析,并充分考虑不同行业对规范治理需要的不一致性,对数据规范治理产品进行功能设计,本章将具体介绍产品的各个模块。

4.1 产品总体架构

4.2 产品功能模块

4.2.1 数据规范统计首页

次要蕴含规范资产统计、标准化状况统计、规范流程统计,全方位评估规范建设及应用状况。

4.2.2 数据标准文件治理

此模块用于治理以后平台参照的各类标准文件,并与已结构化的规范建立联系,保障规范起源的可信。另外,针对曾经做过结构化规范提取的文件,将作为平台预置的规范模板,供用户应用。

4.2.2.1 数据元治理

数据元治理是规范治理核心内容,反对表单及批量导入的形式录入数据元,依照规范生命周期草案、试用、规范、废止对数据元进行治理,反对数据元的批量导出,满足不同场景下查看数据元的需要。定义时也将数据元与稽核规定进行绑定,为品质检测提供根据。

另外,反对数据元不同版本之间的比对,获取版本差别,评估规范变更存在的危险。


4.2.2.2 数据字典治理

数据字典治理内容蕴含原始字典及规范字典,能够认为原始字典是原始数据项的值域散布,规范字典是规范数据项的值域散布。原始字典可被动录入,也可通过数据探查的值域散布进行生成;规范字典满足与数据元同样的生命周期治理,也反对批量导入导出操作。

在后续的实现中,将实现从平台已有数据库中存在的字典表进行拾取,同时保护原始字典与规范字典之间的关系,不便用户在进行数据处理时疾速进行字典对标。

4.2.2.3 词根治理

词根治理旨在定义英文名称、英文简称、中文名称间的映射关系,为规范的命名提供标准的输出。用户在定义数据元、数据字典或模型字段时,将对输出的中文名称进行拆词,根据词根生成英文名称。

除了已反对的词根表单录入外,后续将反对词根的批量导入,帮忙用户疾速导入已制订好的词根列表。

4.2.2.4 数据项分类管理

数据项分类管理提供了三个层级目录类型,第一种治理的是分类目录,用户对分类计划进行归类;第二种治理的是分类计划,它是基于某种数据项分类根据(如形容对象)提供的一种分类形式;第三种是分类值,它归属于分类计划,在这一层将与真正的数据元进行挂载。

因而数据项分类反对分类的根本信息管理,也反对对数据元批量进行关联以及解除关联。

4.2.3 元数据规范治理

4.2.3.1 命名及编码规定治理

命名规定及编码治理要可能将平台中已有的可作为命名因素的枚举值进行收集治理,反对用户增加自定义元素,用户可通过点击或拖拽的形式将元素进行组合造成命名规定及编码规定。

4.2.3.2 数据目录治理

数据目录治理与数据项分类管理相似,但分类的对象不同,此处分类次要是对平台各类资产的编目,提供多种视角、多种计划对表、指标、标签等进行分类管理,利用于对立的资产目录进行展现,让资产可了解、可辨认、易查找。

4.2.4 技术标准治理

4.2.4.1 数据类型映射关系治理

次要治理不同数据源间数据类型的映射关系,如下示意例,随着数据源品种的减少,此模块反对多数据源类型穿插映射。


4.2.4.2 DDL 模板治理

次要治理不同数据源的 DDL 语句模板,蕴含新增、删除、更新等,在模型设计时或离线开发时进行援用,依据选中的信息,替换模板中的参数。以 mysql 建表为例:

CREATE TABLE IF NOT EXISTS ${table_name}(
${filed_list}
PRIMARY KEY (${pk_filed_name} )
)ENGINE=InnoDB DEFAULT CHARSET=utf8;

4.2.5 规范流程治理

4.2.5.1 规范发现

依据规范制订流程,平台提供数据库拾取能力,对规范进行辨认,依据辨认后果来得出结论,即残缺的数据元定义。上面是依据数据元概念进行辨认的页面参考。

4.2.5.2 审核治理

审核治理次要是对规范生命周期流转的申请以及规范的公布申请进行操作,审核人员可依据理论状况评估,抉择通过或回绝。


4.2.5.3 规范公布

规范公布采取整包公布的形式,若将同一批次的数据元列表公布一个大版本,保障平台的规范参考基线。须要反对查看以后更新的内容,提交公布申请,比对版本差别,反对查看公布历史等。

4.2.6 标准配置

标准配置次要是对数据元及数据字典的元模型进行配置管理,咱们提供了较为全面的数据规范结构化示意办法,但依据不同行业对规范形容的须要,可能并不需要这么多形容项,因而提供数据规范的元模型配置,用户可依据理论状况进行启用、停用或新增规范的形容项。

4.2.6.1 数据元模板配置


4.2.6.2 数据字典模板配置

5. 数据规范和数据中台的联合实际

在具体实施过程中,咱们冀望依照“需要 - 设计 - 开发 - 交付”流程进行建设。在需要设计阶段,应答数据现状进行摸排,确定治理范畴以及规范的制订范畴。从而在后续的设计中可能标准指标及模型设计,从源头上开始管制元数据及数据的品质,领导开发过程的具体实施。

数据规范在治理流程中的地位以及跟各模块产生的交互。

5.1 数据传输

数据传输承当着将多源异构数据集成到大数据平台以及将平台数据散发到其余库的能力,当指标库无对应表时,须要依据起源表进行建表,但不同数据源间的类型差别,须要人工进行匹配,随着数据源品种的一直减少,靠人的教训进行匹配解决已十分艰难。

规范保护的是不同数据源间类型的映射关系,在建设传输工作时,可依据映射关系疾速生成指标表构造,达到疾速建表、一键建表的能力。

5.2 元数据

元模型的配置在咱们的实际中次要蕴含对元模型分组治理、零碎内置项治理、用户自定义项治理,目前已反对对表、字段、指标、标签的元模型设计。

5.2.1 表元模型设计

5.2.1.1 分组治理

5.2.1.2 零碎内置项治理


5.2.1.3 自定义项治理

5.2.2 字段元模型设计

5.2.2 指标元模型设计

5.2.3 标签元模型设计

5.3 模型设计

5.3.1 分层布局

除了零碎内置的分层外,用户可增加自定义分层

对于分层下的表,须要配置表名设计规范,将选取命名因素依照肯定顺序排列,失去命名规定


5.3.2 分类布局

利用数据目录治理进行分类布局,在资源目录、资产侧依照场景对数据资源进行编目,满足各类用户查数用数需要。如:主题域划分、起源零碎划分、平安分类等。

5.3.3 表构造及数据项规范设计

设计表构造时,一方面依据填写的中文形容,主动举荐对应的数据元(若规范存在),另一方面可间接抉择数据元,平台将依据抉择的数据元主动回填字段名、字段类型、字段形容以及关联的规范数据字典,如下图所示:


具体利用个别放在模型设计核心增加字段时进行关联:

5.4 数据开发

SQL 编辑时依据抉择的输入输出表,通过表字段关联的数据元信息,将雷同含意的字段主动进行映射,疾速生成 SQL,用户只需对生成的 SQL 进行确认即可。

在后续的布局中,规范将助力可视化 ETL 以及自动化 ETL,帮助用户进行字段映射,依据数据元关联的稽核规定、脱敏规定等,主动获取对应的处理函数,即可生成开发脚本。

5.5 数据品质

数据规范是数据品质稽核规定的次要参考根据,通过将数据品质稽核规定与数据规范关联,一方面能够实现字段级的数据品质校验,另一方面也能够间接构建较为通用的数据品质稽核规定体系,确保规定的全面性和可用性。

5.6 数据安全

数据规范可蕴含业务敏感数据对象和属性,从而实现对数据安全治理相干规定的定义。通过数据元关联,疾速生成字段级加密或脱敏规定。

6. 总结

数据规范的建设及治理任重而道远,后续将逐渐扩大规范的利用场景,满足各行业客户的需要。随着治理内容的不断丰富,治理流程的不断完善,规范将作为数据中台的基石,为各模块、各流程阶段提供规范性领导及监督。

正文完
 0