更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群
日前,火山引擎数智平台 VeDI 直播流动「超话数据」在线举办,来自火山引擎 DataLeap 数据产品专家从数据治理与治理,企业数智化降级等角度,分享了 DataLeap 在字节跳动内的治理教训和实际。
DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮忙企业疾速实现数据集成、开发、运维、治理、资产、平安等全套数据中台建设,晋升数据研发效率、升高治理老本,自 2022 年推出至今,DataLeap 提供的数据研发治理能力已陆续被多个行业企业所采纳。
本次分享次要围绕以下几个方向开展:
- 数据治理是数据中台外围能力之一
- 一站式数据治理赋能企业数字化转型
- 基于字节教训的数据治理解决方案
- 以「在线教育」场景为例,解读数据治理实际
企业数字化降级业务场景及痛点
1、数据孤岛
一种状况是海量数据扩散在各处且形态各异,造成集成艰难;另一种状况则是批量数据和实时数据的集成技术不同,导致集成难度。
2、需要响应慢
通常数据开发的需要是反对业务,但个别一个需要从提出到到沟通到交付,周期是 2 周以上,甚至更长,会影响到业务的一些麻利度。其次数据的需要不好复用,也会波及到像反复开发以及浪费资源的状况。
3、数据品质差
第三个痛点是数据品质差,因为数据的杂质比拟多、品质不好,荡涤难度大,当呈现口径不统一的时,会影响到数据产出的时效。
4、资产共享难
最初一个是数据资产的共享难,个别企业有让数据资产可能积淀,可能共享的诉求。如果是遇到源数据不欠缺,用户无奈找到数据,同时短少无效的常识体系的一些积淀,对数据价值的开掘也是一个难点。
火山引擎数据中台解决方案
一站式大数据研发治理平台
火山引擎目前提供的数据中台解决方案由两局部组成:一站式的大数据研发治理平台 + 大数据的平台。一站式的研发治理平台,它次要解决的包含数据的整合,反对多元异构的数据的接入。
其次是数据的全链路研发治理,包含反对多引擎以及对接各种各样的 DATA、OPS、CICD 的能力。第三层是全生命周期的治理,包含到品质基线、SLA 等等。一站式的大数据研发治理平台第四层是数据安全共享,提供向细粒度的数据权限管控和审批。
大数据平台
大数据平台是一个底座,提供的是数据的存储和计算能力,反对像 TB 到 PB 级的离线,实时检索各种场景。它有两个引擎,一是基于开源 Hadoop 生态的 EMR,反对数据湖场景,二是火山引擎自研的湖沧一体剖析服务 LAS,兼容开源生态,反对数据仓库 & 数据湖场景。
大数据研发治理套件 DataLeap 产品架构
全链路的数据研发
全链路的数据研发,涵盖数据源、数据集成、数据处理、数据服务等全流程。为了进步数据开发效率,DataLeap 还提供反对数仓标准建模、代码审查的公布核心,以及反对工作运维、数据回溯的运维监控。
全域治理
全域治理,包含治理布局、进度管控到治理收益反馈全流程能力,反对用户实现 SLA 治理、数据品质、数据安全、老本治理以及报警治理等工作。
资产地图
资产地图,次要是反对数据资产积淀、数据共享以及数据复用。
要害能力 1:一站式数据研发全链路管理
一站式的数据研发全链路管理,次要面向研发场景,笼罩从需要设计到开发、测试、公布、验收、运维等全副流程。
首先能提供稳固、平安、高效的数据集成服务,反对 20 + 以上多元异构数据集成;其次能提供一站式、全栈数据研发服务,兼容 Spark、Flink 等多种计算引擎,提供 HSQL、Spark、Python、Flink、SQL、Notebook 等 10+ 数据开发能力;最初是全面的运维能力,丰盛的批、流工作监控规定,归类业务运维治理,监控全链路工作运行。
要害能力 2:数据全生命周期治理 - 分布式数据自治
第二个要害能力是全生命周期的数据治理,也可称为“分布式数据自治”。分布式数据自治场景涵盖稳定性、品质、平安、老本优化等内容。
在产品层面,火山引擎 DataLeap 提供布局式治理、治理诊断以及治理之后的指标验收和复盘,还具备 SLA 数据安全资源优化等性能。
要害能力 3:数据资产发现及细粒度权限管控
第三个要害能力是数据资产发现以及细粒度权限管控,它次要是提供了痊愈的数据采集,基于血统可能展现进去所有的元数据,可能开掘数据价值,可能找数、用数等。数据资产提供了弱小的检索能力。并且 DataLeap 有很丰盛的元数据的详情信息,联合数据血统,帮忙用户可能全面地摸索和了解各种各样的数据内容。
DataLeap 提供事先、事中、预先这种全方位的数据安全保障,做到最小受权准则,同时提供弱小的数据审计能力,包含权限审计、行为审计等等。
外围劣势
第一是 DataLeap 是可能和多云多引擎开源兼容的一个大数据治理平台的软件产品,方才提到的像 EMR、LAS 这种平台。从产品状态上来看,DataLeap 提供私有云的 SaaS 以及私有化多云部署的能力。在研发上,实现了研发全链路笼罩,这是一整套欠缺的能力。第三是字节特色的分布式数据自治,SLA 细粒度的权限管控,事中事先、事中预先的全生命周期的数据治理的能力。第四个劣势是数据资产、地图共享,提供数据专题,指标平台、数据血统链路追踪、数据服务,帮忙搭建企业级数据资产体系和数据共享。
客户案例分享
以失去 APP 为例,失去面临业务数据不稳固、数仓欠缺规范性等治理问题。
通过引入数据 BP 机制,联合专家征询,火山引擎 DataLeap 帮客户搭建可继续的治理体系。在提效方面,帮忙失去举荐以及落地数据品质和 SLA 达成率,解决了产出提早和脏数据的问题,显著的晋升了数据故障的解决效率,即从 3 天降为 1 天。同时,DataLeap 帮失去积淀出一个规范化数仓,构建出八个业务域,使得数据地图的残缺度晋升,并进步了找数、用数效率。
从施行成果上来讲,失去团队实现从 0 到 1 的数据治理体系搭建,最终实现数据研发提效 50%,使得 4 人数仓团队治理超过 3000 个数据工作,数仓易用性也晋升 60%。
点击跳转 大数据研发治理套件 DataLeap 理解更多