关于运维:聊点技术-架构瘦身让Bonree-ONE跑得更轻

1次阅读

共计 2490 个字符,预计需要花费 7 分钟才能阅读完成。

4 月 21 日,博睿数据 ONE 有引力 2023 秋季产品发布会圆满闭幕,一体化智能可观测平台 Bonree ONE 2023 秋季正式版正式公布,这一次公布的版本更轻、更强、更智能。

Bonree ONE 在上一版根底上削减 50% 组件数量,下架两大高耗能组件,单机节俭 20G+ 内存,安装时间放慢 30%,磁盘耗费缩减 80%;实现能力的 5 倍晋升,单台 16C 32G 服务器稳固撑持 100 APM 探针数据接入或 2 万日活用户会话,帮忙用户大幅升高配置老本。

架构瘦身,让 Bonree ONE 跑得更轻

本文作者

背景

在数据分析畛域,OLAP 引擎是整个服务的底座,是整个产品性能的发动机。它须要强悍的数据写入性能,用来撑持高时效的数据价值,同时也须要强悍的数据读取性能,满足咱们在 OLAP 场景中的高效查问需要。高性能个别会随同着更多资源需求量的产生。如果咱们能在等同的数据量下,能够用更少的资源来满足需要,无疑会给产品带来更大的空间。咱们从历史 Druid 沉重引擎切换到了更轻量级的 Clickhouse。

同时,Bonree ONE 作为弱小当先的一体化智能可观测平台,交融了 RUM、APM、数据分析、ETL、Alert 告警、自适应 AI 等诸多微利用能力。起初泛滥组件整合在一起时,整体须要 38 个组件,组件多,资源占用多,保护老本高,十分沉重。每次 POC 须要单机 64G 内存的机器能力部署,且性能十分无限。基于这些痛点,须要对 Bonree ONE 架构体系做整体梳理,制订瘦身技术计划。

架构(四通一合)

首先,要解决架构问题,好的架构能够少走弯路。Bonree ONE 架构体系考究化繁为简,即四通一合:

● 对象通:采集。对立的对象采集能力,OneAgent 能够对立采集多端、多源、多种类型对象,并且 SmartGate 提供了采集数据的汇聚、路由、压缩、缓存、批传、负载平衡、平安治理等智能化性能,让用户数据采的安心、用的舒心。
● 数据通:数据。OneData 作为对立的数据平台,能够集成指标、调用链、拓扑、事件、日志等多种可观测性类型数据;OneService 作为对立数据服务,自研对立的 BPL 语句,能够同时计算和查问多源异构的数据集,让数据真正的交融关联用起来,解决传统割裂数据拼凑的问题。
● 模型通:模型。基于数据标准化建模、AI 多模态的湖仓一体化,反对开箱即用和 AI 自适应的在线模型。
● 利用通:规范。多个利用遵循一套 OneAPI 规范,通过 OneFramework 能够让微利用插件相互通信,相互赋能。利用也做到了插件化,微利用能够各自独自跑,也能够合并一起跑。能力凋谢,能够集成与被集成。
● 中交融:ONE 架构也到了真正意义的交融。一套体系化的数据、服务、模型都是互通互联,能轻便反对下层业务场景须要的简单数据模型形象和计算。

OneData 底座

架构轻

劣势显著
● 数据平台组件较少,OLAP 引擎只有 Clickhouse 单个组件,在写入和元数据协同上各有一个组件,且都反对高可用。
● 在 POC 场景下,Clickhouse 精简部署,写入效率齐全达到业务须要。
● 在小型集群的场景下,Clickhouse 只须要单 shard 部署,在满足性能的前提下,反对高可用。
● 在晚回数据场景下,Clickhouse 人造反对分区,在历史数据和实时数据上,没有区别对待,效率上是等同的。
● 在 clickhouse 上,通过物化视图和多粒度表的反对,较大范畴工夫的查问效率同样能够在毫秒级别实现,且是稳固的。

Feature 开发

● 写入资源均衡。
● 表粒度入库攒批管制。
● 多租户的反对。
● 数据自治理。
● 简单数据类型上查问效率的改良。
● 继续优化读写性能,和资源瘦身。
● 数据重散布个性,针对数据扩容状况下的数据分布改良。
● 扩大 DDL 能力,能够在线反对针对物化视图、projection 的动静加减列。
● 轻量级运维能力建设。

成果

相比瘦身之前,ONE 技术优化成果:

  1. 整体组件从 38 个缩小到 19 个。
  2. 从内存看:
    1) POC 配置规格从单机 64G 降到 32G,单机能够反对运行 100 探针,运行时内存耗费在 23G 左右;
    2) 业务各团队做全链路组件瘦身,POC 版瘦身去掉所有 hadoop、kafka、brfs、zookeeper 等重组件;
    3) 指标存储底座从 Druid 切换到 Clickhouse,内存资源降了 60%(集群版和 POC 版都实用);
    4) SwiftAI 重构架构,所有服务合并到一个过程组件(集群版和 POC 版都实用);
    5) OneService 作为新一代联邦数据服务,代替了传统较重的 Presto 大数据组件汇合;
    6) OneAPI 和 OneView 反对微利用插件合并,也能够独自部署,代替了传统的 SSO 和 Cloud 组件(集群版和 POC 版都实用)。
  3. 从磁盘看,APM 的磁盘占用存储降到了 1 /5(日增 100G->20G):
    1) POC 版去 kafka 会大量缩小磁盘占用;
    2) trace 也做了写入压缩优化(集群版和 POC 版都实用);
    3) Clickhouse 没有 Druid 的二级 hadoop 存储占用(集群版和 POC 版都实用);
    4) Clickhouse 自身较 Druid 压缩比会好些,各业务表的压缩比在 8 到 20 倍(集群版和 POC 版都实用);
    5) AI 通过 Iceberg 湖仓一体和数据治理,按开箱默认指标两个月只须要 40G 的磁盘空间(集群版和 POC 版都实用)。
  4. 从性能看,拿私有云统计性能数据,基于 Clickhouse 的 OneData 底座 P99 查问性能比历史 Druid 架构进步了 6 倍以上,均匀耗时从秒级降到了毫秒级。同时在晚回数据场景,稳定性和效率比 Druid 体现的更加优良,保护老本为 0。
  5. 从性能看,ONE 较之前秋季版产品减少了一些性能,比方默认会开启 AI 和会话,AI 和会话不再独自追加资源(集群版和 POC 版都实用)。
  6. 从利用框架看,引入弱小的插件容器框架 OneFramework,提供了运行环境和根底通用能力反对(依赖治理、网关服务、连接池封装、common 工具类、会话共享等)。OneFramework 能够让业务只关注本人的业务代码开发,并且各自能够独立开发和部署,大大提高了开发迭代和公布效率。一套框架能够灵便应答私有云和私有化不同的环境场景。
正文完
 0