关于字节跳动:火山引擎-DataLeap-构建Data-Catalog系统的实践二技术与产品概览
技术与产品概览架构设计元数据的接入 元数据接入反对T+1和近实时两种形式上游零碎:包含各类存储系统(比方Hive、 Clickhouse等)和业务零碎(比方数据开发平台、数据品质平台等)中间层: ETL Bridge:T+1形式运行,通常是从内部零碎拉取最新元数据,与以后Catalog零碎的元数据做比照,并更新差别的局部MQ:用于暂存各类元数据增量音讯,供Catalog零碎近实时生产与上游零碎打交道的各类Clients,封装了操作底层资源的能力外围服务层零碎的外围服务,依据职责的不同,细拆为以下子服务:Catalog Service:反对元数据的搜寻、详情、批改等外围服务Ingestion Service:承受内部零碎调用,写入元数据,或被动从MQ中生产增量元数据Resource Control Plane:通过各类Clients,与底层的存储或业务零碎交互,操作底层资源,比方建库建表,能力可插拔Q&A Service:问答零碎相干能力,反对对元数据的字段含意、应用场景等发问和答复,能力可插拔ML Service:负责封装与机器学习相干的能力,能力可插拔API Layer:以RESTful API的模式整合系统中的各类能力存储层针对不同场景,选用的不同的存储:Meta Store:寄存全量元数据和血缘关系,以后应用的是HBaseIndex Store:寄存用于减速查问,反对全文索引等场景的索引,以后应用的是ElasticSearchModel Store:寄存举荐、打标等的算法模型信息,应用HDFS,当ML Service启用时应用元数据的生产数据的生产者和消费者,通过Data Catalog的前端与零碎交互上游在线服务可通过OpenAPI拜访元数据,与零碎交互Metadata Outputs Layer:提供除了API之外的另外一种上游生产形式 MQ:用于暂存各类元数据变更音讯,格局由Catalog零碎官网定义Data warehouse:以数仓表的模式出现的全量元数据产品性能降级产品能力上的降级迭代,大抵分为以下几个阶段:根底能力建设(2017-2019):数据源次要是离线数仓Hive,反对了Hive相干库表创立、元数据搜寻与详情展现、表之间血统,以及将相干表组织成业务视角的数据专题等中阶能力建设(2019-2020年中):数据源扩大了Clickhouse与Kafka,反对了Hive列血统,Q&A问答零碎等架构降级(2020年中-2021年初):产品能力迭代放缓,基于新设计降级架构能力晋升与疾速迭代(2021年至今):数据源扩大为蕴含离线、近实时、业务等端到端系统,搜寻和血统能力有明显增强,摸索机器学习能力,产品状态更成熟稳固。另外咱们还具备了ToB售卖的能力。点击跳转https://www.volcengine.com/product/dataleap/?utm_source=sifou... 理解更多