什么是数据治理, 数据治理蕴含哪些方面?大数据时代的到来,给了咱们很多的时机,也有很多的挑战。最根底的调整也是大数据的计算和治理,数据治理是一个特地重要的大数据根底,他保障着数据是否被最好的利用,保障着数据的平安,治理等。那么数据治理到底能治什么,怎么治?
数据治理次要蕴含七个方面。
主数据管理
即数据自身的治理,对于数据自身,基于数据仓库,咱们做了数据的分层、数据域的划分、基于维度建模的架构、命名标准、对须要共享的数据建设对立视图和集中管理等,这些都是属于这个主数据管理的范畴。
元数据管理
元数据,即数据的数据。蕴含两个个方面,技术元数据、业务元数据。用于买通了源数据、数据仓库、数据利用,记录了数据从产生到生产的全过程。元数据次要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的工作运行状态。
在数据仓库零碎中,元数据能够帮忙数据仓库管理员和开发人员十分不便地找到他们所关怀的数据,用于领导其进行数据管理和开发工作,进步工作效率。
- 技术元数据
技术元数据是存储对于数据仓库零碎技术细节的数据,是用于开发和治理数据仓库应用的数据。
- 数据自身技术元数据有:表、列、分区等信息。记录了表的表名。分区信息、责任人信息、文件大小、表类型,生命周期,以及列的字段名、字段类型、字段备注、是否是分区等信息。
- 分布式计算零碎运行元数据,如集群上所有作业运行信息,相似于 Hive Job 日志,包含作业类型、实例名称、输入输出、SQL、运行参数、执行工夫、最细粒度的 Instance 执行信息等。数据同步、计算工作、任务调度等信息,包含数据同步的输入输出表和字段,以及同步工作自身的节点信息,计算工作次要有输入输出、工作自身的节点信息,任务调度次要有工作的依赖类型、依赖关系等,以及不同类型调度工作的运行日志等。
- 数据品质和运维相干元数据,如工作监控、运维报警、数据品质、故障等信息,包含工作监控运行日志、告警配置及运行日志、故障信息等。
- 业务元数据
业务元数据从业务角度形容了数据仓库中的数据,它提供了介于使用者和理论零碎之间的语义层,使得不懂计算机技术的业务人员也可能懂”数据仓库中的数据。
- 企业业务元数据,有维度及属性、业务过程、指标等的规范化定义,用于更好地治理和应用数据。
- 数据利用元数据,如数据报表、数据产品等的配置和运行元数据。
数据规范
数据规范建设提供全面残缺的数据规范治理流程及方法,用于决定和建设繁多、精确、权威的事实起源,实现大数据平台数据的完整性、有效性、一致性、规范性、开放性和共享性治理,并为数据质量检查、数据安全治理提供规范根据。比方,“客户类型”是一个数据项,应该有对立的业务含意,将客户归类为大客户、个别客户的规定是什么,数据项的取值是几位长度,有哪些有效值(如 01,02,03)等。这方面有国际标准能够参考,如 ISO11179,国内很多行业也制订了行业数据规范,如电子政务数据元、金融行业统计数据元等等。独特的问题是,规范定义进去之后,执行的状况怎么样?是否真正落实到 IT 零碎了,谁为数据的管理者等。
这里次要蕴含三个方面,技术定义、业务定义以及数据管理定义。
数据品质治理
数据品质治理,蕴含五个局部,数据的唯一性、完整性、准确性、一致性、有效性。数据品质治理,就是通过特定的规定对数据的五个方面进行测试,查看,监控和告警。
- 唯一性:不存在无意义的反复数据
- 完整性:数据残缺且间断
- 一致性:数据在多数据源中意义统一
- 有效性:这里次要指数据在剖析的工夫点是无效,而非过期或生效数据
- 准确性:数据正当、精确,并合乎数据类型的规范
数据安全治理
数据安全治理贯通于数据治理全过程,提供对隐衷数据的加密、脱敏、模糊化解决、数据库受权监控等多种数据安全治理措施,全方位保障数据的平安运作。
数据计算治理
对大数据集群每天存储资源、计算资源耗费等进行治理、监控、优化。如何升高计算资源的耗费,进步工作执行的性能,晋升工作产出的工夫。个别从系统优化和工作优化两个方面进行计算优化。
数据存储管理
在大数据时代,对于数据爆炸式的增长,存储管理也将面临着一系列挑战。如何无效地升高存储资源的耗费,节俭存储老本,也是数据治理的一个指标。对于数据存储,目前业界的一些次要的解决形式,包含数据压缩、数据重散布、数据垃圾检测和清理、数据生命周期治理等。
须要数据仓库材料能够点击这个支付数据仓库 (13) 大数据数仓经典最值得浏览书籍举荐
参考文章:[数据仓库 (11) 什么是大数据治理,数据治理的范畴是哪些
](https://zhuanlan.zhihu.com/p/467433967)