关于大数据:火山引擎-ByteHouse两个关键技术揭秘-OLAP-引擎中的数据导入技术

114次阅读

共计 1235 个字符,预计需要花费 4 分钟才能阅读完成。

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群

数据导入是掂量 OLAP 引擎性能及易用性的重要规范之一,高效的数据导入能力可能减速数据实时处理和剖析的效率。

作为一款 OLAP 引擎,火山引擎云原生数据仓库 ByteHouse 源于开源 ClickHouse,在字节跳动多年打磨下,提供更丰盛的能力和更强性能,能为用户带来极速剖析体验,撑持实时数据分析和海量离线数据分析,具备便捷的弹性扩缩容能力,极致的剖析性能和丰盛的企业级个性。

随着 ByteHouse 内外部用户规模不断扩大,越来越多用户对数据导入提出更高的要求,这也为 ByteHouse 的数据导入能力带来了更大的挑战。

从字节跳动外部来看,ByteHouse 次要还是以 Kafka 为实时导入的次要数据源。对于大部分外部用户而言,其数据体量偏大,用户更看重数据导入的性能、服务的稳定性以及导入能力的可扩展性。

在数据延时性方面,用户的需要个别为秒级左右。基于以上场景和需要,ByteHouse 也进行了一系列定制性优化,次要包含两个方面,第一为 MaterializedMySQL 加强;第二个是 HaKafka 引擎。

社区版 ClickHouse 推出了 MaterializedMySQL 数据库引擎,用于将 MySQL 中的表映射到 ClickHouse 中。ClickHouse 服务作为 MySQL 正本,读取 Binlog 并执行 DDL 和 DML 申请,实现了基于 MySQL Binlog 机制的业务数据库实时同步性能。这样不依赖其余数据同步工具,就能将 MySQL 整库数据实时同步到 ClickHouse,从而能基于 ClickHouse 构建实时数据仓库。

而 HaKafka 引擎则是 ByteHouse 推出的一种非凡的表引擎,次要基于 ClickHouse 社区的 Kafka engine 进行了优化。用户能够通过一个 Kafka 生产表、分布式存储表、物化视图表,三元组实现数据生产、数据转换、数据写入性能。

9 月 16 日 14:00,火山引擎开发者社区与超话数据联结举办的线下沙龙,将邀请到火山引擎 ByteHouse 产品专家围绕《基于 ByteHouse 引擎的增强型数据导入技术实际》开展分享,为大家揭秘 MaterializedMySQL 和 HaKafka 的设计原理和技术实现,教你如何更好在 OLAP 引擎中实现高性能、高易用性的数据导入。

演讲主题:《基于 ByteHouse 引擎的增强型数据导入技术实际》

次要内容:

  • ByteHouse 数据库架构演进
  • 加强 HaKafka 引擎实现计划
  • 加强 MaterializedMySQL 实现计划
  • 案例实际与将来瞻望

听众受害:理解 Bytehouse 基于引擎层数据导入能力 MaterializedMySQL 和 HaKafka 在业务中的实际

立刻报名,赢取好礼:https://developer.volcengine.com/activities/72690172952537334…

点击跳转 火山引擎云原生数据仓库 ByteHouse 理解更多

正文完
 0