更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群
通过近年倒退,抖音电商的体量和规模曾经相当可观。基于数据驱动思路,在数仓建设、数据管理等层面的工作,推动抖音电商能精确剖析和测量数据,做出以数据为根据的决策,从而推动业务疾速倒退。
其中,数据有效性、及时性、准确性关系到 C 端用户体验和 B 端商家决策,在数据体量宏大的状况下,难以避免数据缺失、纬度谬误、产出延时等问题,这与数据品质治理非亲非故。
本文对话抖音电商团队,为你揭秘宏大数据体量下的数据品质治理最佳实际。据抖音电商数据团队介绍,目前数据品质问题集中体现在:历史数据繁多,导致无奈精确定位异样数据;不足正当的监控规定;补齐表监控规定工夫、人力老本低等。
为了高效、便捷实现数据品质监控,抖音电商数据团队引入火山引擎 DataLeap 数据品质平台,通过数据稳定监控、异样报警、数据内容探查及差别比照工具等性能,保证数据在生产及应用流程中的可靠性和合理性,防止因为数据品质导致的数据失信、决策失误等事变。
抖音电商数据团队次要介绍了数据品质监控、数据异样治理两个场景。在数据品质监控上,抖音电商通过火山引擎 DataLeap 对抖音 APP 存量数据品质配置监控,并积淀正当的监控规定,不便监控工作的配置状况及把关数据品质。
火山引擎 DataLeap 数据品质平台首先,在监控范畴上,通过数据品质平台实现 ToB、ToC 工作笼罩全量监控,及时躲避数据品质危险;其次,在推动机制上,因为 ToC 链路上游多且监控工作带来过多计算资源耗费,抖音电商团队优先从外围数据链路发展数据品质监控;最初,在落地执行上,通过确立指标、Owner 和进度,实现表行数、反复值、空值、表字段、异样值的梳理。最终实现抖音电商数据品质治理全链路标准化,即由牵头人发动配置事项,通过火山引擎 DataLeap 数据品质平台实现监控配置,并跟踪实现状况,最初相干数据被推送至看板,不便相干数据研发人员查看和复盘。
对于数据异常情况,抖音电商团队次要通过火山引擎 DataLeap 表探查的能力来解决。数仓中较多数据表字段存在异样值、空值,在应用前无奈感知,导致在数据应用时才发现品质问题,再由业务方反馈,解决效率较低。
火山引擎 DataLeap 具备制订对立的监控标准与开发标准能力,反对检测历史数据异样以及空值等状况,并默认解决、标注数据属性,确保无数据品质问题,才推动表上线流程。
除数据品质治理外,火山引擎 DataLeap 还具备数据集成、开发、运维、资产、平安等全套数据中台建设能力,无效晋升数据研发效率、升高治理老本,目前曾经利用于泛互联网、制作、新批发、汽车等畛域。
点击跳转 大数据研发治理套件 DataLeap 理解更多