乐趣区

关于oushudb-hawq:OushuDB-小课堂丨如何评估现代数据管道的数据质量准备情况

对于具备增长意识的组织而言,有效应对市场条件、竞争压力和客户冀望的能力取决于一项要害资产:数据。但仅仅领有海量数据是不够的。真正数据驱动的要害是可能拜访精确、残缺和牢靠的数据。事实上,Gartner 最近发现,组织认为数据品质差是造成均匀 每年损失 1500 万美元 – 一个能够减弱大多数公司的数字。可怜的是,确保和保护数据品质可能十分艰难。组织的数据架构抉择加剧了这种状况。遗留架构通常不足扩大能力来反对一直增长的实时数据量并导致数据孤岛这减缓了整个组织从中受害所需的必要数据民主化。

当初比以往任何时候都更重要的是,最高品质和牢靠的数据驱动业务决策。但确保这一点的最佳办法是什么?您是否须要改良数据品质施行?您应该从哪里开始,应该关注哪些质量指标?这个由两局部组成的博客系列提供了一个分步指南,可帮忙您从数据品质筹备的角度自行决定您的组织所处的地位。

理解不良数据的外围症状
重要的是要理解并非所有数据都是平等的。组织收集的数据中有多达 85% 是通过各种计算机网络操作(例如日志文件)获取的数据,但未以任何形式用于获取见解或决策。

对于许多组织来说,剩下的 12-15% 的数据对业务至关重要并且踊跃用于做出理智的决策,或者能够货币化,这才是最重要的。这些数据的品质和可靠性至关重要。以下是一些常见的业务场景数据品质差:

触发合规处罚的数据谬误
导致谬误决策的不精确危险评估(例如,批准不良信用)
行为不当的欺诈检测模型会导致适度危险或拒绝服务
高管埋怨不正确的 BI 仪表板和报告
谬误数据导致的定价谬误导致支出损失
您的数据合作伙伴埋怨您向他们提供不良数据
您的数据团队破费太多工夫来修复损坏的数据
这些听起来很相熟吗?

如果您遇到这些问题,很可能是您在数据品质笼罩和筹备方面存在差距。当初让咱们看看如何评估您的数据品质。

评估数据品质筹备状况的注意事项
首先,重要的是要形容您的组织正在踊跃应用的数据量,以帮忙取得洞察力。数据量越大,数据品质成为问题的机会就越大。相同,如果您解决的数据量无限或较小,则任何低质量数据对业务的间接影响就越大。变量越少,任何集体或类型的数据品质问题对洞察力的影响就越大。无论您须要对大量数据进行根本查看,还是须要对一小组数据元素进行深刻查看,数据量都会显着影响您的数据品质办法。

其次,理解数据管道的行为很有帮忙,包含数据的起源、数据的转换和优化形式、数据更新的频率;并且,它是否处于能够剖析和用于开发牢靠业务洞察力的状态。这会告诉您数据最有可能显示缺点的地位。

最初,理解数据环境中的这些元素如何协同工作很重要。晓得要留神什么以及应该监控哪些数据质量指标 (DQI) 以确保维持数据品质,以便您的剖析、决策反对仪表板或报告前端提供精确、可操作的信息。

一旦您对环境有了更宽泛的理解,并且在操作数据管道时,您应该查看有助于进步数据品质的最低服务级别。

这些包含:

依据预期的更新节奏(例如,每小时、每天)按时更新
在每个数据实体的每次更新中获取预期的新数据量
确保新值填充有数据并且不会为空或缺失
确信增加到实体的新值合乎预期的模式或数据类型
确认新值合乎预期的数据分布并且不是有效的
证实实体中的新值与数据管道中的参考点(例如摄取点)统一
这不是一份详尽的数据质量检查列表,但它列出了人们能够在间断运行的数据管道上做出的最常见断言。这些是根本查看,如果查看失败,应收回警报。

如果您在数据品质笼罩方面遇到问题,请不要感觉只有您一个人——许多组织都没有正确解决他们的数据品质问题。在本系列的第二局部中,咱们将理解如何 量化 数据品质健康状况。

欢送大家欢送关注 OushuDB 小课堂

退出移动版