关于字节跳动:火山引擎-DataLeap-构建Data-Catalog系统的实践二技术与产品概览

技术与产品概览
架构设计

元数据的接入

元数据接入反对T+1和近实时两种形式
上游零碎：包含各类存储系统（比方Hive、 Clickhouse等）和业务零碎（比方数据开发平台、数据品质平台等）
中间层：
- ETL Bridge：T+1形式运行，通常是从内部零碎拉取最新元数据，与以后Catalog零碎的元数据做比照，并更新差别的局部
- MQ：用于暂存各类元数据增量音讯，供Catalog零碎近实时生产
- 与上游零碎打交道的各类Clients，封装了操作底层资源的能力
  外围服务层
  零碎的外围服务，依据职责的不同，细拆为以下子服务：
Catalog Service：反对元数据的搜寻、详情、批改等外围服务
Ingestion Service：承受内部零碎调用，写入元数据，或被动从MQ中生产增量元数据
Resource Control Plane：通过各类Clients，与底层的存储或业务零碎交互，操作底层资源，比方建库建表，能力可插拔
Q&A Service：问答零碎相干能力，反对对元数据的字段含意、应用场景等发问和答复，能力可插拔
ML Service：负责封装与机器学习相干的能力，能力可插拔
API Layer：以RESTful API的模式整合系统中的各类能力
存储层
针对不同场景，选用的不同的存储：
Meta Store：寄存全量元数据和血缘关系，以后应用的是HBase
Index Store：寄存用于减速查问，反对全文索引等场景的索引，以后应用的是ElasticSearch
Model Store：寄存举荐、打标等的算法模型信息，应用HDFS，当ML Service启用时应用
元数据的生产
数据的生产者和消费者，通过Data Catalog的前端与零碎交互
上游在线服务可通过OpenAPI拜访元数据，与零碎交互
Metadata Outputs Layer：提供除了API之外的另外一种上游生产形式
- MQ：用于暂存各类元数据变更音讯，格局由Catalog零碎官网定义
- Data warehouse：以数仓表的模式出现的全量元数据
  产品性能降级
  产品能力上的降级迭代，大抵分为以下几个阶段：
根底能力建设（2017-2019）：数据源次要是离线数仓Hive，反对了Hive相干库表创立、元数据搜寻与详情展现、表之间血统，以及将相干表组织成业务视角的数据专题等
中阶能力建设（2019-2020年中）：数据源扩大了Clickhouse与Kafka，反对了Hive列血统，Q&A问答零碎等
架构降级（2020年中-2021年初）：产品能力迭代放缓，基于新设计降级架构
能力晋升与疾速迭代（2021年至今）：数据源扩大为蕴含离线、近实时、业务等端到端系统，搜寻和血统能力有明显增强，摸索机器学习能力，产品状态更成熟稳固。另外咱们还具备了ToB售卖的能力。

点击跳转https://www.volcengine.com/product/dataleap/?utm_source=sifou… 理解更多

关于字节跳动:火山引擎-DataLeap-构建Data-Catalog系统的实践二技术与产品概览

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于字节跳动:火山引擎-DataLeap-构建Data-Catalog系统的实践二技术与产品概览

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复