共计 1204 个字符,预计需要花费 4 分钟才能阅读完成。
技术与产品概览
架构设计
元数据的接入
- 元数据接入反对 T + 1 和近实时两种形式
- 上游零碎:包含各类存储系统(比方 Hive、Clickhouse 等)和业务零碎(比方数据开发平台、数据品质平台等)
中间层:
- ETL Bridge:T+ 1 形式运行,通常是从内部零碎拉取最新元数据,与以后 Catalog 零碎的元数据做比照,并更新差别的局部
- MQ:用于暂存各类元数据增量音讯,供 Catalog 零碎近实时生产
- 与上游零碎打交道的各类 Clients,封装了操作底层资源的能力
外围服务层
零碎的外围服务,依据职责的不同,细拆为以下子服务:
- Catalog Service:反对元数据的搜寻、详情、批改等外围服务
- Ingestion Service:承受内部零碎调用,写入元数据,或被动从 MQ 中生产增量元数据
- Resource Control Plane:通过各类 Clients,与底层的存储或业务零碎交互,操作底层资源,比方建库建表,能力可插拔
- Q&A Service:问答零碎相干能力,反对对元数据的字段含意、应用场景等发问和答复,能力可插拔
- ML Service:负责封装与机器学习相干的能力,能力可插拔
- API Layer:以 RESTful API 的模式整合系统中的各类能力
存储层
针对不同场景,选用的不同的存储: - Meta Store:寄存全量元数据和血缘关系,以后应用的是 HBase
- Index Store:寄存用于减速查问,反对全文索引等场景的索引,以后应用的是 ElasticSearch
- Model Store:寄存举荐、打标等的算法模型信息,应用 HDFS,当 ML Service 启用时应用
元数据的生产 - 数据的生产者和消费者,通过 Data Catalog 的前端与零碎交互
- 上游在线服务可通过 OpenAPI 拜访元数据,与零碎交互
Metadata Outputs Layer:提供除了 API 之外的另外一种上游生产形式
- MQ:用于暂存各类元数据变更音讯,格局由 Catalog 零碎官网定义
- Data warehouse:以数仓表的模式出现的全量元数据
产品性能降级产品能力上的降级迭代,大抵分为以下几个阶段:
- 根底能力建设(2017-2019):数据源次要是离线数仓 Hive,反对了 Hive 相干库表创立、元数据搜寻与详情展现、表之间血统,以及将相干表组织成业务视角的数据专题等
- 中阶能力建设(2019-2020 年中):数据源扩大了 Clickhouse 与 Kafka,反对了 Hive 列血统,Q&A 问答零碎等
- 架构降级(2020 年中 -2021 年初):产品能力迭代放缓,基于新设计降级架构
- 能力晋升与疾速迭代(2021 年至今):数据源扩大为蕴含离线、近实时、业务等端到端系统,搜寻和血统能力有明显增强,摸索机器学习能力,产品状态更成熟稳固。另外咱们还具备了 ToB 售卖的能力。
点击跳转 https://www.volcengine.com/product/dataleap/?utm_source=sifou… 理解更多
正文完