关于大数据:让快更快火山引擎ByteHouse为ClickHouse提速

70次阅读

共计 1712 个字符,预计需要花费 5 分钟才能阅读完成。

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群

近日,火山引擎数智平台 VeDI 与 DataFun 联结举办以“OLAP 计算引擎”为主题的直播流动,来自火山引擎数智平台 VeDI 的产品专家从技术选型、能力剖析、性能优化以及利用场景落地多个角度,介绍火山引擎 ByteHouse 如何基于 ClickHouse 实现实时计算能力降级。

据介绍,火山引擎 ByteHouse 来源于字节跳动多年外部积淀。因为场景越来越丰盛以及数据分析需要增长,业务对于实时数仓的要求也越来越高。首先是数据体量大以及一直增长的问题。早在 2019 年,字节外部每天新增的数据量就达到了 100TB。其次,在海量数据根底上,因为数据类型多样(包含批式数据和流式数据)、查问需要多样、交互式剖析简单,数据引擎须要具备灵活性。目前,行业 Redis、SparkSQL 等开源计划能够从不同角度满足上述两个需要,然而保护多个开源数据库将导致老本高,抉择一款能够防止老本有限扩大的计算引擎成为字节数据研发首要思考的问题。

ClickHouse 性能高、灵活性强,且次要依赖磁盘、老本绝对可控,成为字节跳动外部计算引擎的首选。但原生 ClickHouse 能力难以反对 upset、实时数据更新等一些场景,在很多层面有局限性,例如:

  • 单表性能强劲,但多表能力局限,且对规范 SQL 兼容性低。
  • 不足成熟运维管理工具,运维复杂程度高。
  • ClickHouse 为 MPP 架构(存算一体架构),性能强,但横向扩容老本十分高、数据隔离性差。

ByteHouse 产品专家在直播中介绍到,“为了解决以上问题,咱们次要从 4 个方向进行优化,让 OLAP 引擎能力、性能、运维、架构进一步降级。”

第一,丰盛的自研表引擎,实现 OLAP 引擎能力进化。ByteHouse 补救了 ClickHouse 表引擎的有余,并衍生出全新的表引擎,包含使高可用表引擎、实时数据引擎、Unique 引擎、Bitmap 引擎。以 Unique 引擎为例,它解决了社区版 ReplacingMergeTree 实时更新提早问题,真正做到实时 upset。

第二,新增优化器、字典、索引反对能力,实现 OLAP 引擎性能进化。ClickHouse 在多表场景中性能存在缺点,而 ByteHouse 通过自研 CBO 和 RBO(基于代价和基于规定的优化器),反对了多层嵌套的下推、Join 子查问的下推、Join-Reorder、Bucket Join、Runtime Filter 等优化器个性,做到 TPC-DS 的性能能够达到 99 条 sql100% 笼罩,极大晋升多表场景下的性能。另外,ByteHouse 还反对了全局字典以及更多索引,如 Bitmap index,让查问效率更快。

第三,自动化、可视化,实现 OLAP 引擎运维进化。ByteHouse 提供标准化运维、集群衰弱度检测、问题产生时的诊断工具,帮忙运维人员提高效率。例如,集群衰弱度的检测工具,相似于集群的实时巡检,可能报告以后集群状态、呈现了什么问题、问题如何解决,最大水平把问题前置化,升高运维危险。从成果上看,18000 个节点只须要不到 10 个运维人员来反对。

第四,存算拆散,实现 OLAP 引擎架构进化。ByteHouse 推出了 MPP 2. 0 即存算拆散架构。一方面,存算拆散能够更好实现资源隔离,每一个计算工作都会提交到不同的计算资源中,做到用户之间互不影响,还能灵便扩容、缩容存储计算资源;另一方面,存算拆散能做到真正云原生(Cloud native),ByteHouse 存储层既反对 HDFS,也反对 S3 对象或者其余的对象存储,实现云原生部署。

目前,ByteHouse 曾经在行为剖析、精准营销、实时监控等业务场景中落地。以实时监控为例,很多互联网 APP 有线上经营流动、直播电商等业务,数据实时性分外重要。数据从生产到展示在大屏上,提早往往要管制在分钟级甚至秒级以内。而 ByteHouse 高吞吐性能、查问性能,使数据从输出端到输入端的流程达到秒级。在数据保障层面,ByteHouse 也能精密到 Exactly Once 的语义,保证数据不失落、不反复,最终达到数据是高效存储、精确查问。

点击跳转火山引擎 ByteHouse 理解更多

正文完
 0