更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群
近期,火山引擎 DataLeap 上线“动静探查”能力,为用户提供全局数据视角、欠缺的抽样策略,进步数据探查的灵便度以及响应速率。
传统的数据探查是基于库表的全量探查,由后端引擎执行,通过自动化检查数据成分、关系、格局等,以报告模式展现探查后列的统计散布后果,防止数据品质导致我的项目开发、上线呈现问题,次要利用于元数据管理、数据研发、数仓开发以及数据治理等环节,满足使用者对数据品质初探的需要。
但在数据量级大、用户须要探查数据明细或须要数据预处理操作时,因为传统的数据探查要对全量表进行检测,导致无奈实时产出报告、等待时间变长,灵便度低,且无奈跟踪数据明细。
针对上述痛点,火山引擎 DataLeap 在传统数据探查根底能力上,进一步加强了动静探查能力。其特点在于:
- 基于大数据预览探查,反对对数据进行函数级别预处理。
- 数据探查后果秒级更新、实时响应。
- 与数据监控联动,无效买通数据探查到品质剖析闭环。
据介绍,DataLeap 动静探查的对象是抽样数据,反对间断抽样(依照默认程序间断抽样前 x 条数据)、过滤抽样(应用 where 过滤语句过滤)、随机抽样(随机抽样 x 条数据)3 种模式,用户可对数据进行预处理,实时、动静取得统计散布后果,具备灵便度高、实效性强的特点。
火山引擎 DataLeap 动静探查应用流程除此之外,DataLeap 动静探查具备对探查后果根底剖析能力,蕴含列删除、过滤、排序等。用户对探查后果的每一次操作都会被记作一次操作,屡次操作串联成操作栈,DataLeap 反对用户自在批改或删减操作栈里的步骤,并实时查看最新后果。
火山引擎 DataLeap 动静探查操作栈
火山引擎 DataLeap 数据探查报告
目前,DataLeap 动静探查能够利用在以下三个场景中:
- 场景 1:用于剖析型探查场景,用户可利用 hive 根本函数,如 get_json_object,将列进行数据提取。
- 场景 2:与探查报告买通,用户点击探查报告中的统计值,即可跳转到数据表格,并利用具体行过滤函数。
- 场景 3:用于数据过滤后的探查场景,用户通过过滤和分组条件进行写条件探查,例如校验 status=0 时 current_price 为 0 的占比。
DataLeap 是火山引擎数智平台旗下产品,提供数据集成、开发、运维、治理、资产、平安等能力,帮忙用户晋升数据研发效率、升高治理老本,减速推动企业的数字化转型,目前曾经利用于泛互联网、制作、新批发、汽车等畛域。
点击跳转火山引擎 DataLeap 理解更多