共计 1129 个字符,预计需要花费 3 分钟才能阅读完成。
更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群
在日常数据处理工作中,产品、经营、研发或数据分析师常常会面临数据量大且凌乱、品质参差不齐的问题,须要破费大量工夫和精力校验表数据是否残缺、是否有空值,表数据是否有异样、主键是否反复等。
这种校验工作也被称为“数据探查”,即数据负责人在上线前对数据进行测试,保证数据合乎业务预期,防止上游用户因为数据谬误导致决策失误;或者数据使用者在启用数据表时,对表中数据的品质进行核查,尽早发现缺点并解决,增强数据品质保障。
一般来说,数据从业者会通过写 SQL 的形式来进行数据探查。
但作为数据库查问语句,SQL 具备肯定业余门槛,并且反复操作、破费工夫。
火山引擎 Dataleap 推出的“数据探查”性能,可一举解决以上问题,帮忙数据从业者校验数据量、主键、空值、枚举值等数值。用户只有进行简略的勾选操作,就能轻松取得具体、精确的可视化校验报告,极大节约工夫老本,晋升工作效率。
具体来说,用户从 DataLeap 进入「数据品质」即可找到「数据探查」模块,从这一界面中点击「确定」按钮即可创立校验。除此之外,用户在 DataLeap 中创立 EMR/LAS SQL 相干类型工作之后,也能够通过工作面板上的「数据校验」button 进入「数据探查」模块。
第一步:抉择数据源 依据引擎侧抉择探查对象,用户可在页面中抉择表和库,并设置分区,和对应的探查设置,随后提交确认。
第二步:抉择校验内容 如下图所示,在随后的具体设置页面中,使用者对表 NULL 值、0 值、数值散布、字段枚举值、字段空值等须要校验的我的项目进行勾选。
第三步:高级参数设置 在参数设置中,反对以传参形式设置探查滤条件,点击确定,即可实现。
治理探查后果数据探查创立胜利后,能够执行查看探查报告、搜寻探查后果、查看运行日志等操作,点击探查后果列表前的折叠图标或点击全副开展按钮,开展列表信息
校验报告一览最初,用户通过「数据探查」可能失去什么信息呢?DataLeap 将表中的数据信息以概览和图表的形式进行出现。
①题目及概览
用户能够高深莫测看到校验的基本参数:如谁发动的校验、探查实现工夫、分区字段及过滤条件等。
在校验概览中,用户能够看到整张表的探查规定上行数的枚举值散布,主键反复的行数,呈现空值的字段数。
②字段枚举值
左侧可抉择用户指定的枚举字段,右侧以列表展现该枚举字段下的所有枚举值及其呈现次数,以及在各个分组取值下的枚举值数量。
除了数据探查能力之外,作为大数据研发治理套件,DataLeap 还能够提供数据集成、开发、运维、治理、资产、平安等能力,帮忙用户晋升数据研发效率、升高治理老本,减速推动企业的数字化转型。
点击跳转 大数据研发治理 DataLeap 理解更多