共计 1540 个字符,预计需要花费 4 分钟才能阅读完成。
这边文章聊聊本人对数据治理开发实际的一些思路,就是聊聊怎么开始去做数据治理这件事件。说起数据治理,有时候尽管看了很多文章,看了很多的介绍,理解数据治理的实践,然而实际上须要咱们去搞的时候,就会踩很多的坑。这里记一下本人做数据治理的一些思路,做做笔记,也分享给须要的同学。
当然,想要做数据治理,想要学习理解,一下数据治理的范畴,实践等,最好能够看看他人怎么做的,理解数据治理能够参考:数据仓库 (11) 什么是大数据治理,数据治理的范畴是哪些。
那接下来就持续说说数据治理的一些思路心得。
接到数据治理的工作?要怎么做?
- 梳理目前数据集群,以及业务的总体状况
这个,其实没有什么好说,做事件之前,必定是要先理解,咱们要做的货色是怎么样的,评估可能会遇到的问题,这样能力进一步做进去好的数据品质计划。
- 对数据治理进行分类
理解了咱们面对的数据集群之后,就要理解对咱们须要治理的方向,进行分类了,这个对咱们后续的方案设计和组件的选取、革新会有很大的影响,不一样的分类,咱们要解决问题的范畴,是不一样的。
那要怎么分类?首先是大的方向。
- 主数据管理
- 元数据管理
- 数据规范
- 数据品质治理
- 数据安全治理
- 数据计算治理
- 数据存储管理
大的方向确定了,当其实还是太大了,还是须要进一步的进行切割。
像是数据品质治理,能够进一步切分为
1 唯一性校验:不存在无意义的反复数据
2 完整性校验:数据残缺且间断
3 一致性校验:数据在多数据源中意义统一
4 有效性校验:这里次要指数据在剖析的工夫点是无效,而非过期或生效数据
5 准确性校验:数据正当、精确,并合乎数据类型的规范
元数据管理,要划分为技术元数据和业务元数据等,具体的划分粒度,应该须要到具体的,可实现的,不容易混同,以及偏于当前数据的治理和应用。毕竟这个货色后续要给开发,给数据 bi 等人应用的。当然,咱们可能不能已下载就划分好一个最好的分类,咱们应该循环迭代,做出一个更加符合实际进去。
数据管理这个,如果说技术能力,开发人力无限,那其实往往更加简略的形式更好,也便于推广,应该说一个可用的计划好过于一个全面,但用起来不不便的计划。
- 针对某个类别的数据,进行具体设计,开发,并进一步成标准
下面,咱们曾经大略梳理好了咱们数据治理的范畴和分类,进一步的,咱们就须要落地了。这个时候,咱们就要进一步的针对,咱们的划分的问题,提出,咱们的计划,并实现他。
如果,下面说的数据品质治理中的准确性校验,这个时候,咱们就面临了一个问题,怎么样的数据,合乎数据正当、精确,并合乎数据类型的规范这样的数据标准?咱们会怎么去验证这个货色呢?失常状况下,开发人员是怎么去验证这个货色的?
所以,这个时候,咱们就须要形象出这些具体的操作,拼通过适合的计划实现他。
如果,准确性校验,开发人员个别是通过写 sql,通过肯定的数据规定判断的,比方数据的稳定,数据值的范畴等。那么咱们做这个的时候,是不是就能够做这样的一个零碎,能够配置 sql,或者一些比拟通过的逻辑,定时比对数据,失去咱们的一个后果,实现这样的一个性能?当然这个必定不是最好的计划,然而一个可用的计划好过于一个全面,但用起来不不便的计划。而后不停的迭代优化,欠缺。
当然,这个时候也要放过来思考咱们下面的划分是不是,正当,比方数据品质治理,是不是能够应用同一个思路去做?争取事倍功半。
- 执行标准
做好下面的事件,接下来,就是考验执行了的时候了,任何计划在,最终如果不能很好的执行,那就是事倍功半。
啰里啰唆,写了这一点点心得,逻辑可能不是很通顺,心愿能够给到各个在数据治理挣扎的同学,一点思路,这个也是我的集体笔记,后续有新的想法,再更新。
须要数据仓库材料能够点击这个支付数据仓库 (13) 大数据数仓经典最值得浏览书籍举荐
参考文章:数据仓库 (12) 数据治理之数仓数据管理实际心得