共计 1620 个字符,预计需要花费 5 分钟才能阅读完成。
明天给大家分享一下如何进行数据治理。数据治理包含很多方面,咱明天聊聊数据品质应该如何评估。“数据品质的治理,是数据治理的次要内容之一。数据品质的全面评估,是数据品质治理的原则。”
为什么要进行品质评估?可能很多敌人之前都没怎么关注过针对数据品质的内容。然而如果你常常与数据打交道,以下场景应该不生疏:
场景一:作为分析师,要统计近 7 天用户的购买状况,后果从数仓统计完后发现,很多数据产生了重复记录的状况;
场景二:作为业务员去看报表,发现某一天成交的 gmv 暴涨,通过排查发现是当天的数据缺失。
以上就是随便举了两个例子。其实咱们在工作中,很多时候数据呈现问题这都是属于数据品质的领域内。数据品质差,会导致业务剖析后果不精确、决策失误以及外部不统一等等状况。晋升数据品质是数据治理的重中之中,也是数据施展价值的根底。没有品质的数据,还不如没有数据。
对于如何晋升数据品质,咱们前面再来分享。在这之前,首先要晓得,咱们说的数据品质好或者数据品质差,到底是好在哪、差在哪。这也就是数据品质的评估。只有晓得如何评估数据品质,能力对症下药,有针对性的晋升数据品质。
对于数据品质差,咱们如何进行数据品质的评估呢?数据品质的评估,次要围绕着以下 6 个方面进行。
(1)数据完整性
数字完整性这个其实比拟好了解,艰深上来说就是咱们常说的数据全不全,齐全字面意思。但如何用指标来掂量呢?这个咱们通常是去看一份数据的总记录数是否失常。比方成交记录是 1 万条,但数据表只有 9000 条,这就是不残缺的。再细一些,咱们能够去看表中具体字段。比方总条数是 1 万,然而用户 ID 字段有 2000 是空的,这也是不残缺的。
(2)数据唯一性
数据的唯一性也比拟容易了解,就是讲数字是没有反复的。数字唯一性与数据完整性是绝对的。完整性看的是数据少没少,而唯一性看的是数据多没多。咱们还是拿下面的例子,比方实在成交 1 万条,但数据表有 3000 反复了,成了 1.3 万条成交记录,这就不合乎数据唯一性的评估。
(3)数据有效性
数据有效性次要是看数据是否合乎公司业务的真实情况。比方手机号字段,取值是 32988,显著是脏数据。这里列举了几个方面:
代码值域束缚:比方 ** 类型的代码值要蕴含在数据规范的公共代码中
长度束缚:比方束缚身份证字段长度要等于 18 位
取值范畴束缚:比方要求字段值不能是正数
标记取值束缚:比方要求字段取值只能是 1、2、3
通过以上方面,能够掂量数据内容的品质是否达标
(4)数据一致性
数据一致性的含意是通过不同形式取出来的数据,不能是抵触的。这里强调的是多个表或者起源,只有多个比照,才有不统一的概念。数据一致性其实就是咱们在做穿插验证时的内容,常常会说的一句话:“这数对不上啊!”通常分为以下三个方面:
等值一致性:一个核验对象的数据取值必须与另外一个或多个核验对象在肯定规定下相等。比方,“进出口经营权许可证号”长度 13 位,后 9 位应该与“组织机构代码证”统一
存在一致性:一个核验对象的数据值必须在另一个核验对象满足某一条件时存在。比方,“登录状态”是已登录,“登录日期”不能为空
逻辑一致性:一个核验对象上的数值必须与另一个核验对象的数据值满足某种逻辑关系。比方,“支票起号”小于等于“支票止号”
(5)数据准确性
数据准确性就是多个表有不统一的概念,单个数据表呢?这就是数据准确性了。比方用户的理论地址是青岛市,但数据表存的是烟台市。个别原始数据不准的状况不多,都是统计表、汇总表容易呈现数据不准的状况。比方统计用户最近 30 天的成交金额呈现偏差。另外值得注意的是,准确性强调数据是否与真实世界值统一。这个校验有时候不容易进行。
(6)数据及时性
数据及时性次要是满足时效性的。这里也划分到了数据品质的领域。比方一份数据是统计离线 T - 1 日的,后果都是第二天下午甚至第三天能力统计完,这种数据的利用价值就会大打折扣了。
数据品质的评估维度,就先分享到这里。前面会针对如何落实数据品质的治理、晋升数据品质,进行具体分享。