关于大数据:火山引擎-DataLeap一个易用高效的数据目录是如何搭建的

32次阅读

共计 1534 个字符,预计需要花费 4 分钟才能阅读完成。

企业如何找到数据、理解数据以及应用数据?

这离不开数据目录的能力。数据目录有着相似于“字典”的作用,可能帮忙数据生产者和使用者疾速定位数据、解释数据、找到数据,并从中提取业务价值。

对以研发人员为代表的数据生产者来说,他们利用数据目录来组织、梳理各类元数据。例如,数据生产者会将元数据以目录等模式编排到一起,不便保护,并通过打业务标签、增加利用场景形容、字段解释等丰盛业务相干属性。

对以数据分析师、产品、经营等数据使用者来说,他们通过数据目录来查找和了解数据,例如通过关键字检索,或目录浏览,来查找业务场景数据,并浏览详情介绍、字段形容、产出关系等,进一步了解并利用数据决策。

在字节跳动,也有这么一套被外部宽泛应用的数据目录零碎。目前,该零碎已通过火山引擎 DataLeap 数据地图平台对外输入。内部用户也能够在 DataLeap 数据地图平台,收集、组织、拜访和补充元数据信息,为本身数据建设和治理提供反对。

火山引擎 DataLeap 数据地图平台 - 数据目录要构建一套扩展性强、易保护且易用的数据目录零碎并非易事。在大数据畛域,各类计算和存储系统百花齐放,概念和原理又千差万别,对于元数据的采集、组织、了解、信赖等,都带来了很大挑战。

在调研各个开源软件及技术体系根底上,火山引擎 DataLeap 抉择基于 Apache Atlas 革新,而这套数据目录零碎次要依赖五大关键技术:

第一,数据模型对立。一方面,DataLeap 通过充沛复用各种元数据类型间的类似能力,取得数据模型定制灵活性;另一方面,DataLeap 将数据源关联的能力进行收敛到一起,以升高后续的保护老本。

第二,数据接入标准化。当用户接入新的元数据时,只须要从新编写 Source 和 Diff Operator,而其余组件可间接复用,以标准化的 connector 节俭接入和运维老本。

第三,搜寻优化。在数据目录中,搜寻是用户最宽泛应用的性能,也是用户找数次要的伎俩。搜寻优化可分为离线局部和在线局部。离线局部负责会集各类与搜寻相干的数据,实现数据荡涤或者模型训练,再依据不同的用处,写入不同的存储,供应在线搜寻模块应用。在线局部则分为搜寻了解、召回、精排三个次要阶段,步骤和概念与通用搜索引擎对齐。

第四,血统能力。齐备的血统能力,既能够帮忙数据生产者梳理、组织元数据,也能够帮忙数据消费者找数、了解数据上下文。火山引擎 DataLeap 在设计上充分考虑血统链路的多样性和复杂性,并在血统品质上,通过定义无效的血统准确率、覆盖率和时效性,确保血统信息精确、全面和实时性。

第五,存储层优化。当业务中有越来越多的元数据接入数据目录,图存储中的点和边将别离达到百万和千万量级,造成读写性能呈现问题。在读优化和写优化层面,火山引擎 DataLeap 别离通过开启 MutilPreFetch 能力、去除 Guid 全局唯一性查看,最终实现小表性能小于 100ms、中表性能 2~5s、大表性能 0.5~1min。

据介绍,火山引擎 DataLeap 能帮忙企业疾速实现数据集成、开发、运维、治理、资产、平安等全套数据中台建设,其中数据目录能力次要涵盖在数据地图平台,该平台通过提供数据检索、元数据详情查看、数据了解等性能,解决找数难、了解数据难的痛点,同时反对数据专题、血统图谱、数据发现、库表治理等特色性能。

目前,火山引擎 DataLeap 的数据地图平台已接入全链路外围元数据,包含 LAS、MySQL、ByteHouse CE、ByteHouse CDW、TOS、LasFS、EMR hive 等,提供可视化的血缘关系展现能力,帮忙用户全面的探查理解数据,反对表、字段级别血统可视化查问,以及按层级、范畴筛选展现,可依据用户需要灵便适配。

立刻跳转火山引擎 DataLeap 理解详情

正文完
 0