共计 3710 个字符,预计需要花费 10 分钟才能阅读完成。
近日,由 MobTech 袤博科技主办的【CoderPark】第二季数智有为第 2 期——数据治理技术体系建设与实际顺利举办。大数据架构专家陈远光在直播中具体分享了构建数据治理体系的思路与实际成绩,助力中小企业实现降本增效。以下为注释内容:
本次分享聚焦中小型数据公司的数据治理体系构建,从四个维度开展,包含数据治理背景与挑战、数据治理体系与方法论、数据治理在 MobTech 袤博科技的实际,以及对于数据治理将来倒退的瞻望。通过这四大主题的剖析,中小型数据公司将在如何取舍数据,如何构建适宜本人,属于本人的数据治理体系等问题上取得一些启发。
数据治理的背景与挑战
目前数据治理曾经成为大数据公司的惯例操作伎俩,但因为公司的数据规模、业务场景、老本计量、技术能力等差别,各公司的数据治理力度有所不同。一般而言,公司数据规模越大,业务场景越简单,资产老本越高,数据治理的颗粒度也就越细,产生的价值也就越直观。对于领有海量数据的公司而言,数据治理是必要的。然而,局部企业对数据治理的概念了解还是比拟含糊,往往只关注数据治理的局部环节,没有造成零碎闭环,造成公司数据治理老本高,成果差。
数据治理的终级目标次要波及两个方面,即老本问题和数据品质问题。就升高经营老本而言,数据存储规模达到百 PB 的企业,数据治理每升高计算存储 1%,就能够节俭上百万的资金投入(包含如服务器硬件、网络、机房、人力老本等)。国内很多大型互联网公司的数据存储曾经达到 EB 级别,数据治理的成绩十分乐观,能够节俭千万级别老本。因而,数据治理对升高大型互联网公司的经营老本有着不凡的意义。
另一方面,进步数据品质对企业也有着现实意义,它能解决企业中零碎林立、数据孤岛、数据无奈买通共享、缩小数据冗余等问题。但要实现这一目标,要着手重点解决数据治理短少对立利用规范、数据不残缺、指标设计口径不统一、指标难以共享等现状窘境和问题。同时,应建立健全数据管理机制,防止因不足布局造成数据复用率低和数据不平安等问题。
数据治理体系构建方法论
数据治理不可欲速不达实现,是一项繁冗而长期的工作。企业数据治理须要在撑持以后业务的状况下循序渐进,逐渐迭代。具体而言,企业数据治理能够分为前中后三个阶段。数据治理后期,须要先对企业数据资产进行盘点,解决资产负责人对数据不可知的问题,并梳理企业数据资产的现状,如老本一直增大,但不晓得哪个业务域消耗老本高、数据流程凌乱、数据信息碎片化、资产不全等问题。而后再梳理资产,比方整顿业务规定、业务流程、对立数据定义、对立数据标准等。总而言之,数据治理后期阶段,须要让数据资产变得洁净。
中期阶段开始,须要联合企业理论布局指标体系,对立数据利用规范和数据开发标准等。本阶段须要从新组织数据,欠缺数仓体系,同时从多个维度进行数据治理,逐渐进行数据治理体系的建设与欠缺。前期阶段,更多的是将后期的工作固化、机制化、长久化。本阶段包含通过组织架构的建设、规章制度的欠缺等,保障数据治理常态化,进步团队合作能力,并通过培训等晋升团队成员数据治理意识。数据治理动作随同着整个数据的生命周期,理论数据治理能够从数据的链路动手,实现数据的层层规整化解决,比方从数据采集,数据存储,数据分析,到最初的数据服务,构建全链路全域的数据资产体系,也能够从数据安全,数据标准,数据管理,数据品质四大维度进行每一链路的数据治理与治理。
大数据企业数据治理体系建设
1. 数据组织架构治理模块
很多人认为数据治理就是信息化部门的事件,如大数据数仓部门,和业务部门无关。其实不然,无效进行数据治理须要从整个组织思考,并建设业余的数据治理组织体系,再进行数据资产确实权。企业数据资产的生产与应用应该有明确的责任部门,明确相应的治理制度和规范。数据治理并不是一个部门的事件,不能在企业的繁多部门失去解决,应该造就整个企业组织的数据治理意识,能力达到成果最大化。在 MobTech 袤博科技外部,数据治理委员会由各个事业部、大数据集群运维架构部、数仓部门、PAAS 平台等外围人员独特组成。各部门明确相应数据治理职责,数据治理考核机制,独特反对合作,从而为数据治理的机制化奠定了根基。
2. 数据规范治理模块
数据标准化是数据治理过程中的外围环节。过来各业务零碎的数据规范都不雷同,导致计量口径不统一、数据规范认知偏差、跨部门沟通老本较大、效率低下等问题。数据治理的规范体系是多层次的,蕴含国家标准、行业标准、企业规范等。这些规范的建设与施行,须要企业在后期投入大量的人力进行布局、迭代、落地、监督利用治理。而数据治理的功效,很大水平上取决于数据规范的合理性和对立施行的水平。MobTech 袤博科技的数据规范治理涵盖了元数据规范、主数据规范、模型规范,数据指标规范,数据安全规范、数据利用规范等。目前公司已退出中国信通院大数据技术标准推动委员会,积极参与数据安全与治理实际等多个重要我的项目,心愿能够为推动数据智能行业的继续倒退奉献本人的力量。
3. 数据品质治理模块
高质量的数据是企业进行剖析决策和业务倒退布局的重要根底。只有建设残缺的数据质量体系,能力晋升企业整体的数据品质。在技术层面上,企业应该残缺全面地定义数据品质的评估维度,包含完整性、时效性,一致性等,依照已定义的维度,在零碎建设的各个阶段,依据规范进行数据品质检测和标准监测,并对数据进行及时治理,防止预先的数据荡涤工作。MobTech 袤博科技外部建设的 QC 管理系统,能够定义数据质量检验规定、执行数据品质检核、生产数据品质报告。同时布局了一整套独立的数据品质解决、治理流程与相干标准制度。通过数据品质解决流程能够实现从发现问题到解决问题的闭环治理,从而促成数据品质的一直晋升。
4. 主数据管理
主数据就是企业的外围数据,主数据的治理是数据治理的外围。企业能够通过使用相干的流程、技术和解决方案,对企业外围数据进行无效治理。MobTech 袤博科技外部通过一系列标准规范、平台工具和治理流程实现主数据管理,如严格标准主数据的新增、变更、审核等流程,实现对各类主数据的全生命周期治理;可通过手工新增、导入、接口传输等多种形式会集主数据,并提供全方位质量检查,保障主数据品质;同时提供可视化的资产治理界面,全链路、多维度监控主数据整体建设、应用、品质状况等,清晰地展示了主数据的运作轨迹,让主数据管理尽在掌控中。
5. 元数据管理
元数据管理包含业务元数据、技术元数据、治理元数据等,次要是通过系列的标准规范,如缩小业务术语歧义,进步元数据的高可用性和安全性。公司外部对于元数据的治理,次要从元数据的采集、元数据的存储以及元数据的剖析三大模块构建。元数据的采集,依照元数据的分类分为主动采集和手动采集。主动采集次要通过定时工作,为元数据的采集提供自动化的、周期性的,或指定某个工夫触发的机制。手动采集次要针对特定业务场景的元数据,以手工形式实时采集保留。
元数据采集实现后,按照元数据管理制度及要求,依据规定进行元数据分类,后续再依据每类元数据定义,实现元数据的分类管理存储。如存储在数据库或者数据仓库中,以撑持后续元数据统计、查问、血统剖析、影响性剖析、数据资产地图、元数据备份等元数据利用。公司在该模块建设了图形化的元数据根底剖析以及高级利用剖析 web 零碎。
6. 数据生命周期治理
大数据的生命周期针对大数据范畴,确定大数据采集、存储、整合、出现与应用、剖析与利用、归档与销毁的流程,并依据数据和利用的情况,对该流程进行继续优化。MobTech 袤博科技外部的生命周期管理系统联合血统剖析、调用剖析、数据的价值剖析等维度,对所有数据进行了生命周期全链路管理,并反对事业部和技术部的小伙伴对所属资产进行资产生命周期配置、变更、删除治理等操作。数据生命周期治理能够大幅升高企业低价值密度数据的老本,包含数据冷热离开存储等,进而晋升高价值数据的查问效率等。
7. 数据利用与服务治理模块
数据利用与服务治理模块是数据中台的最初一公里。正当的数据服务体系有助于企业进步数据共享水平和数据流转时效,同时保障数据安全。公司外部对于数据交换服务制订了一系列规定,比方对接口的应用标准、文件的内容审批、替换规定,以及对立的数据交换零碎,履行分级审批。
8. 数据安全治理
数据安全治理包含建立健全企业数据安全管理制度、设定数据安全规范(如存储,传输,利用等维度)、造就企业员工的数据安全意识等。当然平安与效率始终是一个矛盾体,数据安全管控越严格,数据的利用就可能越受限,企业须要在平安、效率之间找到平衡点。数据治理既须要组建架构、规章制度,也须要工具平台、施行流程、考核治理。前者提供了实践根底,后者提供了技术撑持,两者独特促成数据治理体系的建设。
就地取材实现数据治理
随着数字化时代的到来,企业积淀的数据越来越丰盛,为升高经营老本并晋升数据品质,泛滥企业开始尝试数据治理建设。尽管欠缺的数据治理体系内容全面、功能丰富,然而这种全面的数据治理体系并不一定适宜每一家企业。因而,企业不能生吞活剥大厂教训,而是要择其善者而从之,抉择适宜本人的办法体系,去建设适宜本人的数据治理体系,能力真正帮忙企业实现降本增效。