应用袋鼠云数栈的某教育行业客户,在之前的信息化过程中建设了多个零碎,曾经意识到本身数据孤立的现状,面对 TB 级的数据量,须要更高效的形式进行数据治理和剖析,为业务方提供高质量数据。
其实,数据治理不仅仅是教育行业用户的痛点,同样也是其余行业进行大数据平台建设和数据利用,最亟需解决的难题。
针对这一问题,袋鼠云数栈基于十年实践经验积淀的多种校验规定,打造了残缺的全流程数据品质闭环管理机制,同时反对数据迁徙 & 逻辑变更的双表逐行校验场景。
相似以下问题,袋鼠云数栈都能通通搞定!
Q1:
有很多 ETL 工作,工作运行失常,因为数据源有变动,或开发批改了代码,测试不充沛,导致数据常常出问题。最初还是业务方发现后,才反馈给开发排查起因。
An:
应用数栈可对要害工作配置数据品质校验规定,工作跑完产出数据,并通过品质校验通过后,才流入到上游,给到数据需求方。
Q2:
开发人员保护 ETL 工作,因为业务规定的变更或者新需要的迭代,须要常常批改 ETL 工作逻辑。每次批改后比对数据,消耗大量的工夫。
An:
应用数栈通过数据品质产品的双表校验性能,主动比对批改前,批改后的数据,输入比对后果,无需人工干预。
Q3:
须要把在某平台运行的工作迁徙到另外一个平台,同时保障迁徙前后数据的一致性。以往则须要人工或写程序进行校验,真的是费时费力。
An:
应用数栈通过数据品质产品的双表校验性能,主动比对迁徙前后的两个平台的数据,输入比对后果。
Q4:
在数据抽取的过程中,数栈是否对数据的正确性进行判断?
An:
对这个问题,数栈能够提供 2 个解决办法:一种是在数据同步环节就进行脏数据相干的配置;还有一种是在数据加工全流程环节进行数据品质监控的配置;
也就是说,从数据的同步到整个数据加工全流程,袋鼠云数栈都非常重视数据品质和数据治理,保障用户数字化建设过程数据资产的高质量。
解法一:脏数据配置
在数据同步执行的过程中可能会呈现因主键抵触、格局转换谬误等各种起因造成局部数据无奈失常写入,不能被失常写入的数据即被视为“脏数据”。
脏数据配置在数据同步配置模块中,在数据同步工作的通道管制步骤中,可配置是否须要记录脏数据,并可指定存储脏数据的表名、生命周期。
那么如何查看脏数据,对数据品质做到成竹在胸?
在数栈 - 工作治理 - 脏数据管理模块中能够查看脏数据的产生趋势、产生脏数据最多的工作,以及每一张产生脏数据表的状况:
脏数据产生趋势
选中某个工作后,能够查看此工作在最近一段时间产生脏数据的数量,反对最近 3 天、7 天、30 天、60 天的数据查看。
脏数据产生 TOP30 工作
通过观察产生脏数据数量较大的工作,能够针对性的排查此工作的配置信息、源数据库的数据品质等问题,及时解决问题。
解法二:数据品质配置
作为数据资产治理的一部分,数据品质的保障与晋升是一个大数据平台所需的必备性能。通常含意的数据品质包含及时性、完整性、一致性、有效性、准确性。
数据品质模块能够依据不同的业务场景,针对数据表提供表行数、空值数、空值率、反复数、反复率等二十余种统计函数,校验办法反对固定值检测、1 天稳定检测、7 天稳定值变化检测、30 天稳定值检测、7 天均匀稳定检测、30 天均匀稳定检测,告警阀值反对灵便的自定义。
那么如何应用数栈创立品质监控工作?
创立品质监控工作分为以下 3 个步骤:
Step1:抉择数据源,抉择须要校验的表
点击顶部菜单的规定配置 - 新建监控规定,进入配置页面,抉择须要进行检测的数据表(表名为 muyun_test),点击下一步。
Step2:针对全表、每个字段配置校验规定
进入监控规定步骤,点击增加字段规定,并选中 id 字段,统计函数抉择空值数,校验办法为固定值,阈值配置为 =0,点击保留,并点击下一步。
Step3:调度周期配置
抉择调度周期为天,其余参数无需批改,点击新建,即可实现配置。
数栈数据品质模块反对 MySQL,Oracle,SQL Server,PostgreSQL,Hive,MaxCompute 等多种数据源,满足大多数场景下的品质校验需要。
基于阿里数据生产的实战经验,数栈内置 20 余种校验规定,反对表级、字段级 2 类规定,并提供字段级、表级校验报告,具备历史数据统计性能,辅助用户定位数据品质的问题本源。
数栈是云原生—站式数据中台 PaaS,咱们在 github 和 gitee 上有一个乏味的开源我的项目:FlinkX,FlinkX 是一个基于 Flink 的批流对立的数据同步工具,既能够采集动态的数据,也能够采集实时变动的数据,是全域、异构、批流一体的数据同步引擎。大家喜爱的话请给咱们点个 star!star!star!
github 开源我的项目:https://github.com/DTStack/fl…
gitee 开源我的项目:https://gitee.com/dtstack_dev…