共计 1254 个字符,预计需要花费 4 分钟才能阅读完成。
6 月 11 日,2023 凋谢原子寰球开源峰会在北京亦创国内会展中心举办,在开源数据库分论坛上,华为云数据库翻新实验室主任张文亮受邀做主题技术分享《openGemini:开源分布式时序数据库技术摸索与实际》。
趁势而动
张文亮主任讲到,随着 5G、物联网、云计算等技术的疾速倒退,各行业数据量出现爆发式增长。每天要存储数百 GB 甚至 TB 级遥测数据,并能疾速响应下层的数据分析业务,这不是轻易一种数据库都能够做到的。时序数据库是一种针对时序数据特点和业务特点专门优化的垂直畛域数据库,是一种更优的抉择。
遥测数据及其业务特点决定了传统的数据库或大数据解决方案无奈满足业务对数据的存储剖析诉求,并且在根底软件国产化的浪潮推动之下,openGemini 趁势开源,专一于海量遥测数据存储与剖析,提供高性能、高扩大、低成本的开源解决方案。
蓄势而发
做根底软件,如同铸剑,一旦从剑尖开始打磨,你就会缓缓看出藏在灰暗后的光耀。现在 openGemini 优异的性能体现,得益于华为云外部业务的长期一直打磨。
数据库技术倒退了几十年,分布式架构和整体解决流程根本不会有大的变动,已很难获得更大的冲破。openGemini 写入和查问的过程看起来比拟传统,但这并不意味着性能也到了天花板。
因为各个开源产品的定位和在读写流程中应用的技术和优化措施不同,造就了不同的性能和产品差异化竞争力。openGemini 的定位是高性能、分布式时序数据库,专一于海量遥测数据的存储和剖析,意味着 openGemini 须要在架构和技术上实现大并发和高吞吐能力。
在架构设计方面,采纳经典的 MPP 架构,可通过横向扩大来加大并发解决。在数据查问方面,把 OLAP 的技术引入进来,比方向量化执行,用于减速查问的数据处理效率。在写数据方面,采纳 LSM Tree 数据结构,将随机写转为程序写以晋升写入性能。
此外,在联合遥测数据和剖析业务特点所做的工程优化方面,openGemini 也做得比拟有特色,例如通过数据的后聚合,把最罕用的一些统计指标(First、Last、Min、Max …)提前计算并存储在数据文件头中,防止剖析时大量反复计算的工作;再比方对 Index 的优化,放弃 HashMap,应用 MergSet 数据结构,索引构建工夫更短,查问性能更优,反对工夫线更多,占用内存资源更少。
总结
目前 openGemini 已在华为云 SRE、IoT 服务产品部、计算产品线、终端等多个产品线的 10+ 业务中应用,其中华为云 SRE 在全网共部署了超过 25 套集群,最大集群规模为 70 节点,反对每秒 4000 万条数据写入,每秒 5 万次并发查问,日存储数据 20TB。
openGemini 尽管开源工夫不长,但已受到业界的宽泛关注,目前曾经领有了首批 5 家社区用户正在进行基于 openGemini 业务革新和适配,10+ 家正在针对 openGemini 进行性能测试,陆续将会有社区用户案例公布。
欢送大家试用和反馈
开源地址:https://github.com/openGemini
官网:http://opengemini.org