关于字节跳动:火山引擎-DataLeap-构建Data-Catalog系统的实践二技术与产品概览

60次阅读

共计 1204 个字符,预计需要花费 4 分钟才能阅读完成。

技术与产品概览
架构设计

元数据的接入

  • 元数据接入反对 T + 1 和近实时两种形式
  • 上游零碎:包含各类存储系统(比方 Hive、Clickhouse 等)和业务零碎(比方数据开发平台、数据品质平台等)
  • 中间层:

    • ETL Bridge:T+ 1 形式运行,通常是从内部零碎拉取最新元数据,与以后 Catalog 零碎的元数据做比照,并更新差别的局部
    • MQ:用于暂存各类元数据增量音讯,供 Catalog 零碎近实时生产
    • 与上游零碎打交道的各类 Clients,封装了操作底层资源的能力
      外围服务层
      零碎的外围服务,依据职责的不同,细拆为以下子服务:
  • Catalog Service:反对元数据的搜寻、详情、批改等外围服务
  • Ingestion Service:承受内部零碎调用,写入元数据,或被动从 MQ 中生产增量元数据
  • Resource Control Plane:通过各类 Clients,与底层的存储或业务零碎交互,操作底层资源,比方建库建表,能力可插拔
  • Q&A Service:问答零碎相干能力,反对对元数据的字段含意、应用场景等发问和答复,能力可插拔
  • ML Service:负责封装与机器学习相干的能力,能力可插拔
  • API Layer:以 RESTful API 的模式整合系统中的各类能力
    存储层
    针对不同场景,选用的不同的存储:
  • Meta Store:寄存全量元数据和血缘关系,以后应用的是 HBase
  • Index Store:寄存用于减速查问,反对全文索引等场景的索引,以后应用的是 ElasticSearch
  • Model Store:寄存举荐、打标等的算法模型信息,应用 HDFS,当 ML Service 启用时应用
    元数据的生产
  • 数据的生产者和消费者,通过 Data Catalog 的前端与零碎交互
  • 上游在线服务可通过 OpenAPI 拜访元数据,与零碎交互
  • Metadata Outputs Layer:提供除了 API 之外的另外一种上游生产形式

    • MQ:用于暂存各类元数据变更音讯,格局由 Catalog 零碎官网定义
    • Data warehouse:以数仓表的模式出现的全量元数据
      产品性能降级

      产品能力上的降级迭代,大抵分为以下几个阶段:

  • 根底能力建设(2017-2019):数据源次要是离线数仓 Hive,反对了 Hive 相干库表创立、元数据搜寻与详情展现、表之间血统,以及将相干表组织成业务视角的数据专题等
  • 中阶能力建设(2019-2020 年中):数据源扩大了 Clickhouse 与 Kafka,反对了 Hive 列血统,Q&A 问答零碎等
  • 架构降级(2020 年中 -2021 年初):产品能力迭代放缓,基于新设计降级架构
  • 能力晋升与疾速迭代(2021 年至今):数据源扩大为蕴含离线、近实时、业务等端到端系统,搜寻和血统能力有明显增强,摸索机器学习能力,产品状态更成熟稳固。另外咱们还具备了 ToB 售卖的能力。

点击跳转 https://www.volcengine.com/product/dataleap/?utm_source=sifou… 理解更多

正文完
 0