大家好,我是独孤风,一位已经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。
在最近的两年的工夫里,因为公司的需要,还有大数据的发展趋势所在,我开始学习数据治理的相干常识。
随着互联网热潮的退去,互联网开始由生产互联网向产业互联网转移。这也让大数据开始在传统企业发挥作用。目前数据治理的相干岗位曾经越来越多了。而有肯定 大数据技术根底,数据分析根底 也更容易从事数据治理的相干岗位工作,待遇也是会进步很多。而 数据相干从业人员 也是数据治理的从业人员的次要起源,因为目前也没有间接大学毕业就从事数据治理工作的,也都是通过学习转过去的。
这是某大厂对于数据治理的岗位要求,大家能够简略看一下。而且目前很多公司对于数据架构师的要求,也蕴含了数据治理的相干能力要求。数据架构师始终都是将来一段时间高薪的岗位之一。
数据治理是什么?
当今数字化时代,数据扮演着至关重要的角色,因而数据治理变得越来越重要。数据治理能够了解为一套标准和流程,用于治理和保护组织内的数据资产。
数据治理的目标是确保数据的准确性、完整性、一致性和可靠性。它涵盖了数据的收集、存储、解决、共享和应用等方方面面。通过数据治理,组织可能标准数据的定义、命名和分类,确保数据的标准化和一致性。此外,数据治理还关注数据的品质,包含数据的准确性、完整性和可靠性,通过数据荡涤和验证等措施,确保数据的高质量。同时,数据治理还波及数据的平安和隐衷爱护,确保数据的机密性和合规性,避免数据泄露和滥用。
数据治理的重要性体现在几个方面。首先,数据是组织的重要资产,对于决策制定和业务经营至关重要。良好的数据治理能够确保数据的准确性和一致性,进步决策的可靠性和准确性。数据驱动的决策可能帮忙组织更好地应答市场变动、优化经营和翻新倒退。其次,随着数据规模和复杂性的减少,数据的合规性和安全性成为关键问题。数据治理能够帮忙组织确保数据的合规性,恪守相干法规和行业标准,缩小数据泄露和危险。同时,数据治理还能晋升组织的数据安全性,确保敏感数据的机密性和保密性。
此外,数据治理还能够促成数据共享和合作。在一个组织外部,不同部门和团队可能会应用不同的数据源和定义,导致数据不统一和抵触。通过数据治理,能够建设共享的数据字典和标准,促成数据的对立和合作。这有助于跨部门的沟通和合作,防止数据孤岛和信息孤立,进步组织的效率和创新能力。
数据治理是一种要害的实际,用于治理和保护组织内的数据资产。它不仅关注数据的准确性、一致性和可靠性,还关注数据的安全性和合规性。通过良好的数据治理,组织能够确保数据的品质和可靠性,反对决策制定和业务经营,提高效率和创新能力。在当今数据驱动的时代,数据治理的重要性不可漠视,它对于组织的胜利和竞争劣势具备重要的意义。
举个例子
让咱们以一个跨国批发企业为例来阐明数据治理的概念。
假如该跨国批发企业在多个国家经营,领有在线商店和实体店面。该企业收集大量的数据,包含销售数据、顾客数据、库存数据等。在这种状况下,数据治理是确保数据管理和应用的一致性和可靠性的要害实际。
首先,数据治理包含规定数据定义和规范。在这个例子中,数据治理会明确定义不同类型的数据,如销售数据、顾客数据和产品数据等。例如,销售数据可能包含订单号、日期、销售金额等字段。这些定义和规范确保了不同团队和零碎之间对数据的统一了解,防止了混同和谬误。
其次,数据治理关注数据品质和数据荡涤。这意味着对数据进行验证、校验和荡涤,以确保数据的准确性和完整性。在这个例子中,数据治理能够辨认并纠正错误的销售记录,革除反复或不残缺的顾客数据,以进步数据品质并防止基于不精确数据做出谬误的决策。
此外,数据治理还波及数据安全和隐衷爱护。对于跨国批发企业来说,数据治理须要确保顾客数据的机密性和合规性。这可能波及采取安全措施来避免数据泄露和未经受权的拜访,同时恪守实用的隐衷法规和法律。
另外,数据治理还波及数据拜访和共享的管制。在这个例子中,数据治理能够确保只有通过受权的员工可能拜访特定类型的数据,并设置拜访权限和角色。此外,数据治理还能够建设数据共享的规定和流程,以便不同团队或部门之间能够平安地共享数据,促成单干和决策制定。
数据治理在这个跨国批发企业中起到关键作用。它确保数据的一致性、准确性和完整性,进步数据品质和可靠性。数据治理还确保数据安全和隐衷爱护,恪守相干法规和合规要求。通过数据治理,这个企业可能更好地治理和利用数据资产,反对决策制定、优化经营,并在竞争强烈的市场中取得成功。
如何入门呢?
入门数据治理并不容易,咱们须要做大量工作,比方:
- 理解数据治理的基本概念:开始学习数据治理之前,理解数据治理的定义、指标和根本准则是很重要的。能够浏览相干的书籍、文章或在线资源,获取对数据治理的根本了解。
- 学习数据治理的最佳实际:钻研数据治理的最佳实际和行业标准,理解胜利的数据治理框架和办法。理解数据治理的要害组件,例如数据品质治理、元数据管理、平安与隐衷爱护等。
- 评估组织的现状:理解您所在组织的数据管理状况,评估现有的数据管理流程、数据品质和安全性等方面的情况。辨认数据治理的痛点和机会,以确定改良的重点。
- 制订数据治理策略:基于组织的需要和指标,制订适宜组织的数据治理策略和打算。这包含明确数据治理的指标、范畴、流程和责任调配等方面。
- 建设数据治理团队:组建跨职能的数据治理团队,包含业务代表、数据管理专家和技术人员。确保团队具备数据治理所需的技能和常识,并负责推动数据治理打算的执行。
- 确定数据治理流程:制订数据治理的流程和标准,包含数据收集、存储、荡涤、共享和平安等方面。确保数据流程合乎数据治理策略和最佳实际。
- 施行数据品质治理:建设数据品质管理机制,包含数据品质评估、数据荡涤和纠正、数据监控和报告等。确保数据的准确性、一致性和完整性。
- 采纳元数据管理:建设元数据管理系统,记录和治理数据的定义、构造、关系和用处等信息。元数据管理有助于更好地了解和利用数据,并反对数据治理流程。
- 增强数据安全与隐衷爱护:制订数据安全策略和措施,确保数据的机密性、完整性和可用性。同时,恪守相干法规和合规要求,爱护用户的隐衷。
- 继续监控和改良:数据治理是一个继续的过程。建设监控机制,定期评估数据治理的绩效,并依据评估后果进行改良和优化。
可见数据治理要学习的货色十分多。所以学习 数据治理应该实践与实际并行。
实践上,国内上,支流的数据治理框架次要有 ISO 数据治理规范、DGI 数据治理框架、DAMA 数据管理框架 等。对国内支流数据治理框架的了解有助于咱们建设合乎企业本身业务需要的数据治理体系。
DAMA(国内数据管理协会)是一个由全球性数据管理和业务业余的意愿人士组成的非营利协会,致力于数据管理的钻研和实际。其出版的《DAMA 数据管理常识体系指南》(简称 DAMA-DMBOK)一书被业界奉为“数据管理的圣经”,目前已出版第 2 版,即 DAMA-DMBOK2。
国内数据治理在数据治理框架和规范体系的钻研方面,国内起步绝对较晚,目前次要有 GB/T 34960 和 DCMM 两个规范。
GB/T 36073—2018《数据管理能力成熟度评估模型》(Data Management Capability Maturity Assessment Model,DCMM)是在国家标准化治理委员会领导下,由全国信息技术标准化技术委员会编制的一份国家标准,于 2018 年公布并施行。
DCMM 依照组织、制度、流程、技术对数据管理能力进行了剖析和总结,提炼出组织数据管理的 8 个过程域,即数据策略、数据治理、数据架构、数据利用、数据安全、数据品质、数据规范、数据生存周期。
DCMM 将组织的数据能力成熟度划分为初始级、受治理级、持重级、量化治理级和优化级共 5 个倒退等级,以帮忙组织进行数据管理能力成熟度的评估。
目前最权威,也最接地气的,还是DAMA 数据管理体系,这也是大家在学习数据治理的时候,为什么会频繁的听到 DAMA 相干词汇的起因。
作为最权限的数据治理框架,咱们只有把握了 DAMA 相干常识,最联合实际。做到数据治理的最根本入门是没有问题的,在通过几年企业中的积攒,您也能够成为数据治理专家。
实践学习
实践学习方面倡议加入 CDMP 国内数据治理认证考试,有一个证书的确对于证实你在数据治理相干畛域的业余度很有帮忙。
其实当初对于数据治理的认证很多,我之前也分享过一些。比方某数据治理认证、某某数据管理师认证等等。
因为目前咱们国家工信部还没有出大数据或者数据治理的业余资格认证,相似于注册 ** 工程师这种,所以当初比拟权威的数据治理认证还是国内的数据治理认证,这个国外国内都是比拟认可的。
DAMA 数据管理业余认证 CDMP
也请大家肯定要记住这个拼写 CDMP, 这个才是国内业余的数据治理认证。
一共分为四级,当然大部分公司对于等级没有要求,拿到 A 级就是很高的程度了。
这四级的区别如下:
目前招聘企业对于 CDMP 的认证也逐步增多了起来,其中对 CDMP 证书有了间接的要求。
证书长成这样:
通过考试的形式推动本人学习,在拿证的同时,学会相干理论知识也是十分重要的。
实际学习
如何发展数据治理要走顶层开始,从业务端动手。但对于老手,更应该关注的是数据治理的理论工作。
元数据管理是数据治理的终点。
简略地说,元数据管理是为了对数据资产进行无效的组织。
它应用元数据来帮忙治理他们的数据。它还能够帮忙数据业余人员收集、组织、拜访和丰盛元数据,以反对数据治理。
三十年前,数据资产可能是 Oracle 数据库中的一张表。然而,在古代企业中,咱们领有一系列令人目迷五色的不同类型的数据资产。可能是关系数据库或 NoSQL 存储中的表、实时流数据、AI 零碎中的性能、指标平台中的指标,数据可视化工具中的仪表板。古代元数据管理应蕴含所有这些类型的数据资产,并使数据工作者可能更高效地应用这些资产实现工 作。
所以,元数据管理应具备的性能如下:
- 搜寻和发现:数据表、字段、标签、应用信息
- 访问控制:访问控制组、用户、策略
- 数据血统:管道执行、查问
- 合规性:数据隐衷 / 合规性正文类型的分类
- 数据管理:数据源配置、摄取配置、保留配置、数据革除策略
- AI 可解释性、再现性:特色定义、模型定义、训练运行执行、问题陈说
- 数据操作:管道执行、解决的数据分区、数据统计
- 数据品质:数据品质规定定义、规定执行后果、数据统计
目前支流的元数据管理平台,包含 Atlas,Datahub 等等。以下是性能比照。
这方面的学习要以实际为主,多入手能力更纯熟的把握。
当然目前各种数据治理的开源框架层出不穷,我也始终在放弃关注。