关于大数据:火山引擎-DataLeap一个易用高效的数据目录是如何搭建的

企业如何找到数据、理解数据以及应用数据？

这离不开数据目录的能力。数据目录有着相似于“字典”的作用，可能帮忙数据生产者和使用者疾速定位数据、解释数据、找到数据，并从中提取业务价值。

对以研发人员为代表的数据生产者来说，他们利用数据目录来组织、梳理各类元数据。例如，数据生产者会将元数据以目录等模式编排到一起，不便保护，并通过打业务标签、增加利用场景形容、字段解释等丰盛业务相干属性。

对以数据分析师、产品、经营等数据使用者来说，他们通过数据目录来查找和了解数据，例如通过关键字检索，或目录浏览，来查找业务场景数据，并浏览详情介绍、字段形容、产出关系等，进一步了解并利用数据决策。

在字节跳动，也有这么一套被外部宽泛应用的数据目录零碎。目前，该零碎已通过火山引擎 DataLeap 数据地图平台对外输入。内部用户也能够在 DataLeap 数据地图平台，收集、组织、拜访和补充元数据信息，为本身数据建设和治理提供反对。

火山引擎 DataLeap 数据地图平台 - 数据目录要构建一套扩展性强、易保护且易用的数据目录零碎并非易事。在大数据畛域，各类计算和存储系统百花齐放，概念和原理又千差万别，对于元数据的采集、组织、了解、信赖等，都带来了很大挑战。

在调研各个开源软件及技术体系根底上，火山引擎 DataLeap 抉择基于 Apache Atlas 革新，而这套数据目录零碎次要依赖五大关键技术：

第一，数据模型对立。一方面，DataLeap 通过充沛复用各种元数据类型间的类似能力，取得数据模型定制灵活性；另一方面，DataLeap 将数据源关联的能力进行收敛到一起，以升高后续的保护老本。

第二，数据接入标准化。当用户接入新的元数据时，只须要从新编写 Source 和 Diff Operator，而其余组件可间接复用，以标准化的 connector 节俭接入和运维老本。

第三，搜寻优化。在数据目录中，搜寻是用户最宽泛应用的性能，也是用户找数次要的伎俩。搜寻优化可分为离线局部和在线局部。离线局部负责会集各类与搜寻相干的数据，实现数据荡涤或者模型训练，再依据不同的用处，写入不同的存储，供应在线搜寻模块应用。在线局部则分为搜寻了解、召回、精排三个次要阶段，步骤和概念与通用搜索引擎对齐。

第四，血统能力。齐备的血统能力，既能够帮忙数据生产者梳理、组织元数据，也能够帮忙数据消费者找数、了解数据上下文。火山引擎 DataLeap 在设计上充分考虑血统链路的多样性和复杂性，并在血统品质上，通过定义无效的血统准确率、覆盖率和时效性，确保血统信息精确、全面和实时性。

第五，存储层优化。当业务中有越来越多的元数据接入数据目录，图存储中的点和边将别离达到百万和千万量级，造成读写性能呈现问题。在读优化和写优化层面，火山引擎 DataLeap 别离通过开启 MutilPreFetch 能力、去除 Guid 全局唯一性查看，最终实现小表性能小于 100ms、中表性能 2~5s、大表性能 0.5~1min。

据介绍，火山引擎 DataLeap 能帮忙企业疾速实现数据集成、开发、运维、治理、资产、平安等全套数据中台建设，其中数据目录能力次要涵盖在数据地图平台，该平台通过提供数据检索、元数据详情查看、数据了解等性能，解决找数难、了解数据难的痛点，同时反对数据专题、血统图谱、数据发现、库表治理等特色性能。

目前，火山引擎 DataLeap 的数据地图平台已接入全链路外围元数据，包含 LAS、MySQL、ByteHouse CE、ByteHouse CDW、TOS、LasFS、EMR hive 等，提供可视化的血缘关系展现能力，帮忙用户全面的探查理解数据，反对表、字段级别血统可视化查问，以及按层级、范畴筛选展现，可依据用户需要灵便适配。

立刻跳转火山引擎 DataLeap 理解详情