共计 2987 个字符,预计需要花费 8 分钟才能阅读完成。
随着数字化过程的深刻,企业对数据的依赖日益加深,数据资源的重要性愈发凸显。如何管好、用好数据,做好数据治理工作,施展数据资源价值,成为企业提质增效过程中的重要议题。
在本次直播中,咱们介绍了数据治理体系、技术框架及云原生数据平台在数据治理畛域的劣势。以下内容依据直播文字整顿成稿。
传统数据治理体系及框架
在数字化转型中,策略驱动是基本,数据治理是根底,数据智能是方向。
数据治理就是从组织、治理、技术的角度继续扭转数据应用行为的过程,贯通整个数据生命周期。数据治理的基本指标是确保数据安全,晋升数据价值。
同时,数据治理更是一个体系,其关注于信息系统的执行层面,以整合信息科技部门与业务部门的常识和意见为目标,通过数据治理组织对企业的信息化建设进行全方位的监管,从而迭代数据资产价值,赋能业务倒退,达成业务策略,保障数据安全,升高隐衷泄露的危险。
数据治理体系波及企业的组织、治理、技术等多个层面,和业务部门关系严密。通常,企业的数据治理工作都是由业务部门牵头,IT 部门辅助执行。
图 1 数据治理体系架构图
如上图所示,数据治理体系分为三个层级,别离是数据治理对象、数据治理工作和数据治理撑持。
数据治理的对象围绕主题进行划分,不同企业的数据主题不尽相同,与企业本身组织和部门设置密切相关,这里不再开展形容。
数据治理撑持包含企业的组织架构、在数据治理过程中的角色、企业外部基于数据治理相干的制度与流程以及 IT 技术架构与平台。
数据治理工作,次要蕴含主数据管理、数据规范治理、数据品质治理、数据资产治理、数据安全治理、数据生命周期等。其中,主数据管理、元数据管理和数据品质治理是重点所在。
主数据管理
主数据是指形容外围业务实体的数据,如客户、产品、员工、账户等,具备高业务价值的、可在逾越各个业务部门被重复使用的数据,并且存在于多个异构的利用零碎中。
主数据管理将从企业多个业务零碎中整合最外围、最须要共享的数据(即主数据)集中进行荡涤和丰盛,并以服务的形式把主数据分发给企业范畴内的操作型和剖析型利用。
主数据管理的目标是为了保障在跨零碎和跨平台应用数据的时候,主数据可能保持一致。
数据品质治理
数据品质管理体系包含数据品质的判断以及所有对数据品质起到保障晋升作用的流动、流程,力求实现全方位数据品质治理。
其中,数据品质优化晋升是面向存量数据,按业务零碎或者主题分批对数据进行剖析、荡涤,进步既有数据品质的数据品质治理流动。数据品质治理的管控,首先须要企业外部制订相干的规章制度,并将数据依照不同的主题域指定相应的归口部门,确保数据品质是的继续晋升。
图 2 数据品质问题归因溯源
通过上方的鱼骨图能够看出,数据品质问题产生的起因有很多,其中人员、流程、业务零碎前段录入属于原生数据品质问题;业务零碎后端数据库设计、数据抽取、数据加载等属于次生数据品质问题。
针对原生数据品质问题,能够通过进步录入的自动化和易用性等伎俩,升高前端输出时出错的机率。
对于次生数据品质问题,通过在数据流转过程中退出一些埋点校验,进行数据比对,防止数据出错。
元数据管理
元数据用来形容数据的数据,相当于书籍的目录,是数据的解释阐明信息,使数据的使用者能够理解数据的特色、内容、作用,以及获取形式等信息,并对数据是否能满足应用需要做出适当的评估。
在数据治理体系中,元数据可分为业务元数据、技术元数据、操作元数据和治理元数据四种类型。元数据管理分为采集、治理、分类、服务四个层面,波及规范制订、补充保护、治理分类、血统剖析、查问统计等诸多环节。
对于大型企业,元数据的规模比拟宏大,要实现元数据管理须要投入大量的人力和工夫,工程周期往往以年为单位。此外,企业数据治理还波及数据规范、数据安全、数据生命周期等,这里不再开展赘述。
数据治理面临的难题
随着新技术的不断涌现和数据量的极速增长,传统数据治理体系在施行时面临着以下挑战:
- 元数据管理老本高:业务元数据的施行须要业务人员的染指与辨认,每个数据平台都要录入,数据流转的操作元数据也须要进行录入,导致记录老本高。
- 数据品质难以保障:数据在平台间流转的过程中会产生次生数据品质问题,须要进行大量的埋点校验工作。
- 数据规范落标简单:每个数据平台都要进行数据规范的查看,跨平台的数据规范一致性难以保障。
- 数据同步策略简单:主数据平台必须向多个数据平台同步主数据,须要简单的同步策略,否则可能面临主数据的版本不统一问题。
- 敏感数据难以集中治理:须要定期对每个数据平台的敏感数据进行辨认,数据跨平台流转还须要加密解密,保护艰难。
- 数据服务响应周期长:数据服务要通过多个数据平台进行加工和 etl,拉长了数据服务的响应工夫。
云原生数据平台下的数据治理
以后,云计算对企业 IT 架构产生了深刻影响和改革,云原生平台可能在很大水平加重上述数据管理与治理累赘,缩短响应周期,基于云原生平台的数据治理应运而生。
图 3 云原生平台体系与数据治理
如上图所示,与传统数据体系相比,云原生数据平台体系具备以下特点:
- 一站式麻利数据服务:通过一站式的数据门户,疾速检索数据资产,麻利开发新的数据服务与产品,疾速公布上线,和用户互动迭代更新,滚动积淀企业的数据资产价值。
- 云原生数据平台:采纳存算拆散架构,原生反对 OneData,保障企业外围数据的一致性,升高数据治理的复杂度;依据业务状态,实现资源弹性伸缩、动静调度与高并发,满足各种业务场景的灵便要求。同时具备自愈能力,进步零碎可用性。
- 云原生大数据撑持平台:为云原生化的数据平台提供稳固撑持,实现存算拆散、弹性调度、更好的资源隔离等能力,同时也反对混合云等多种异构环境部署,保障业务的灵活性,帮忙企业疾速实现业务指标。
随着新技术的一直成熟,利用场景一直减少,业务模式一直复杂化,全域数据治理的理念日益受到企业的器重。全域数据涵盖了企业相干的内外部数据,与企业的业务和商业性质非亲非故。
云原生数据平台的“存算拆散”,实现了企业内的全域数据交融,整合了扩散的数据平台,彻底消除了数据孤岛景象,并且能够集中进行数据安全治理,缩小安全漏洞产生环节,同时也缩小了次生数据品质问题;针对全域数据一站式地治理主、元数据、数据规范、数据架构与模型,大幅升高数据治理的复杂度;同时,云原生的数据资产服务也使业务变得更加麻利,适应市场的瞬息万变,一直迭代数据资产,从而达成数字化转型。
目前,HashData 作为国内当先的云原生数据平台,已在金融、电信、政务、能源、交通等泛滥畛域实现大规模商用,帮忙企业高效、便捷地发展全域数据治理工作。
图 4 HashData 在国有大行生产落地实例
以某国有大行为例,应用 HashData 云原生数据平台整合了所有 P9 剖析平台,将全域数据依照主题域进行划分,实现了数据集中管控,数据架构交融对立。
同时,上收所有分公司的数据平台,对立提供全域数据与计算资源。基于共享存储管理着全行对立的、面向剖析的企业级数据视图,按利用场景的不同建设多个计算集群,任意计算集群在受权后均可访问共享存储中的任意数据,以实现业务加工计算或在线查问剖析。
因为数据平台对立,能够在全行内应用对立的数据模型最佳实际,防止不同技术栈产生的模型差别,缩小了次生数据品质问题和元数据操作,大幅升高了数据管理老本。
将来咱们期待为各行各业带来最新的云原生技术实际,赋能企业实现 OneData,轻装上阵开释数据价值!