共计 1430 个字符,预计需要花费 4 分钟才能阅读完成。
前言
数据从生产到利用,会经验 5 大环节,数万张数据表。面对不同产品线的简单数据品质场景,数据品质平台如何满足多样的需要?
MobTech 袤博科技作为一家领有数据源到数据利用全链路数据处理能力及算力的科技智能公司,如何解决大数据场景下数据链路长、数据体量大、数据逻辑简单等一系列痛点难题?本文将通过线下数据保障、线上数据保障、自动化测试 3 大环节来分析各环节数据品质保障措施,帮忙你在理论的工作中,摸索和积淀出可复制的 0 到 1 数据品质保障办法。
背景
数据即资产,有了数据 + 模型 + 算力,便有了继续将数据利用于业务场景的能力。而数万张库表是否每日按时生成、生成的数据字段是否残缺、生成数据的逻辑是否正确、生成数据分布是否正当、生成数据是否统一都会影响业务应用,而这些便是数据品质的领域。
数据从生产到利用,次要经验数据源、数据荡涤、数据计算、数据中间件再到数据利用 5 大环节。用户直观感触的数据,都在数据应用层。前 4 个环节都是为了得出最初 1 层的数据后果。
一、整体计划
二、线下数据,如何保障?
数据生产前的数据验证,是保障数据品质的重要阶段,也是提前躲避问题的次要环节。做好数据验证,数据验证蕴含数据梳理、数据测试、过程治理 3 个方面。
1. 数据梳理
2. 数据测试
数据测试,次要包含性能需要了解、剖析计划梳理、数据流向梳理、开发代码走查、数据表验证几个环节。以数据表验证为例,别离从以下维度验证:
3. 过程治理
次要包含数据测试领导标准、准入准出规范、Bug 定级、提测模板、报告模板、知识库积攒。
三、线上品质,如何保障?
1. 数据监控
定级监控:零碎定期清理库表,即便每日按规定清理后,总库表量也在数万以上。兼顾广度及深度,通过库表定级,按等级监控。
监控后果:
1)规定设定
按不同表及监控维度,增加监控指标。
2)监控后果查看
收到告警,查看详情,剖析告警内容。
2. 调度监控
从数据源到数据利用,就像是一条逐渐细分的河流,而这一条条通道就像是调度零碎中每日 task。河流流速是否失常,分支是否阻塞。在生产过程中,能够通过调度告警来发现。外围调度辨认,调度告警链路笼罩。
1)依据外围表和外围标签对应的表
2) 梳理出外围调度
3) 调度工作增加告警机制
四、自动化测试
自动化测试的目标是将简单的内容,用工具简单化。将重复性高的事项,用工具自动化。依照不同的业务方向,将自动化分为以下 6 个模块。
1. 数据迭代自动化测试
利用场景:当已有表的新逻辑上线前,须要从各个维度比照测试表数据和线上表数据,保证数据变动合理性。
2. 数据 EDA 摸索
利用场景:当有新需要提测时,能够通过智能自动化测试形式,疾速晓得一张表的具体情况,如字段空值率、数据唯一性等。
3. 批量数据自动化测试
利用场景:在对多表执行其共有测试用例时应用,从而晋升效率。
4. 可视化报表
利用场景:针对具体业务需要,实现数据工夫序列趋势图等,直观感触数据稳定。
5. 数据安全扫描
利用场景:每周定期扫描数万张库表,智能发现潜在安全隐患。
6. 数据字段定级
利用场景:数十万字段等级评定。
五、总结
团队目前针对数万张库表定级,数千张库表监控、数千个指标监控笼罩。数万张库表定期平安扫描,数十万字段等级评定。但在整体数据品质保障中仍有晋升空间待实现,如:
- 监控维度,针对业务场景定制监控维度不够
- 业务层面,须要和业务搭档总结业务规定,加强业务层面验证
- 自动化待平台化,数据验证平台一体化
- 通用数据验证智能化,自动识别字段并生成自动化验证用例
- 监控增加智能化,依据历史周期及字段,智能生成监控规定
- …