关于数据库:StarRocks-社区从初生到两周年的进化之路

4次阅读

共计 3789 个字符,预计需要花费 10 分钟才能阅读完成。

2021 年 9 月 8 日,StarRocks 开源社区诞生。从第一天开始,咱们怀揣着“打造世界一流的数据分析产品”的幻想,踏上了星辰大海的征途。
两年间,StarRocks 在 GitHub 上播种了 5.4K Stars,产品共迭代公布了 90 余个版本,288 家市值超过 10 亿美元的头部用户在生产环境中上线运行。“不止步于极速”,StarRocks 更是在短短一年内实现了从全场景 OLAP 剖析进化到云原生湖仓剖析的进化。

StarRocks 突飞猛进的倒退都要得力于社区用户的应用反馈和开发者们一直地帮 StarRocks 添砖加瓦,使其生态体系更加欠缺。在过来一年内,StarRocks 公布了 v2.5、v3.0、v3.1 三个重大的里程碑版本,其中存算拆散、湖仓剖析、物化视图等重量级个性,为极速对立湖仓剖析新范式的落地奠定了坚实基础。

进化,永不止步

从诞生之初,StarRocks 就一直在摸索对于“极速对立”之道。全面向量化引擎、CBO 查问优化器、实时更新数据模型、Pipeline 执行引擎相继公布,将 OLAP 剖析性能晋升到了新的高度,也引领了以后大数据分析的发展趋势。
随着各项重要性能历经 2 年、近 300 家各行业头部用户在生产环境中的打磨与欠缺,StarRocks 实现从 OLAP 到云原生湖仓的疾速进化,通过湖仓一体让企业能基于一份数据,满足 BI 报表、多维分析、Ad-hoc 查问、实时剖析等不同场景的数据分析需要,StarRocks 往 “One data,all analytics” 的指标一直前行。

湖仓一体化极速查问引擎

Presto/Trino/Impala 始终以来都是行业最好的数据湖(Hive/Hudi/Iceberg/Deltalake 等)查问引擎。然而其性能无奈和将数据导入到 ClickHouse 或是 StarRocks 此类极速 OLAP 数据库 / 数仓相媲美,用户通常会组合应用,运维和应用都会比较复杂,StarRocks 冀望彻底改变这种“组合”模式,推出更一体化的计划。StarRocks 的湖仓一体化极速查问引擎的理念是能够同时极速查问数据湖数据和 StarRocks 本地数据。从 StarRocks 2.0 到 StarRocks 3.0 版本,通过一年半的工夫和 7 个大版本的继续打磨,StarRocks 终于公布了业内第一个成熟欠缺的湖仓一体化极速查问引擎,让数据湖查问和本地数据查问根本持平,并且数据湖查问达到了 Presto/Trino/Impala 等零碎的 3-6 倍以上的性能程度。

基于物化视图(MV)的轻量化数据建模

以后数据工程师进行数据建模时,须要通过事后构建大量 ETL 工作来生成 ODS/DWD/DWS/ADS 数据表。这种数据建模办法比拟重,周期长,而且会存在很多无用 ETL。StarRocks 基于 MV 的轻量化数据建模办法提供了全新模式,将逻辑建模与物理建模拆散:

  1. 无需事后大量 ETL,只须要用 view 来建设各层数据模型,疾速交付 view 给业务查问应用
  2. 在业务查问应用中,随需创立多表 / 单表 MV 实现通明查问减速

业内 Clickhouse、Doris、Snowflake 等打造了比拟好的单表 MV,不足欠缺的多表 MV 反对,不足以反对轻量级数据建模办法的落地。StarRocks 在 2.4 版本公布了多表 MV,之后通过 12 个月的工夫和三个版本—— StarRocks 2.5、StarRocks 3.0 和 StarRocks 3.1 版本的打磨,曾经成为业内第一个能够同时反对简单查问、数据湖表面和异步构建的多表 MV,能够很好的反对轻量化建模办法落地,成为用户针对数据建模和 ETL 进行降本增效的大杀器。

此外,物化视图也成为 StarRocks 3.0 的外围性能,物化视图通过申明式的形式升高了传统 ETL 中 Transform 的复杂度,通过表面物化视图能够无缝连贯湖仓,通过查问改写能够通明减速,通过 spill 和分区增量刷新能够进行稳固的物化视图构建和细粒度的物化视图刷新策略。帮忙用户的湖仓建模更容易。

极简存算拆散架构

Snowflake 打造出了寰球最好的存算拆散架构,让很多云服务用户受益匪浅。然而其架构组件简单,无奈简略部署到用户的各类私有化环境。StarRocks 在存算拆散上的翻新初心是突破这种限度,让任何社区用户都能够将存算拆散架构轻松部署到各类公有环境,获取更多降本增效的收益。StarRocks 3.0 版本公布的全新极简存算拆散架构,基于原创的云原生操作系统 StarOS,整个新架构只有 FE 和 CN 两个模块,无需任何内部组件依赖,部署运维和非存算拆散版本一样简略,性能一样杰出。用户能够随时随地部署应用 StarRocks 存算拆散架构,实现降本增效。

更加引人注目的是,3.0 版本的存算拆散架构不仅学习了 Snowflake 的长处,通过内置的 StarOS,StarRocks 实现了齐全无需内部组件的部署,大大简化了用户的操作。让用户在各种云上云下的环境都能够通过存算拆散架构来接口存储介质,晋升更好的弹性能力,实现多 AZ 甚至多云的高可用能力。大量用户的实际也证实了 StarRocks 存算拆散架构曾经走向成熟,将逐步变成 StarRocks 的默认架构。

产品能力进化工夫线

一文理解 StarRocks 物化视图、湖仓剖析和存算拆散:
从新定义物化视图,你必须领有的极速湖仓神器!
当打造一款极速湖剖析产品时,咱们在想些什么
兼顾降本与增效,咱们对存算拆散的设计与思考

进化,不止代码

创立一个衰弱的开源我的项目须要整个社区的独特合作,在开源生态系统中,每个参与者都有机会塑造和改良软件,用户能够辨认所需性能并奉献代码或用户案例。只有当整个社区和相干社区积极参与时,一个开源我的项目能力胜利倒退为一个凋敝的生态系统,这包含代码贡献者、用户、文档编写者、软件和平台供应商以及集成者等各方。

StarRocks 社区始终置信凋谢合作的力量,崇奉“Code is power. Community is strength. And Openness is everything.”。代码是扭转世界的力量,社区给了咱们有限的可能,而这所有都只有通过凋谢能力实现。StarRocks 社区的价值观具体体现在:

  • 对极速对立的云原生湖仓一体技术的继续摸索:用户能更快、更低成本且更简略地在海量数据中开掘数据的价值,助力业务胜利。
  • 与用户独特成长,彼此成就:建设产品文档、老手教程、产品个性解析、FAQ、最佳实际和丰盛的用户案例知识库,并且通过 StarRocks 城市行、开源集市、线上线下会议和微信 /Slack/GitHub 等渠道与用户零距离交换。
  • 凋谢生态,无缝连接上下游组件:2022 年底,StarRocks 我的项目正式募捐给 Linux 基金会,更加中立、凋谢;并与凋谢的数据生态产品,如 Apache Flink、Apache SeaTunnel、Apache Paimon、Apache Hudi、Apache Icerberg 等社区共建古代数据栈。

蓬勃发展的用户社区

StarRocks 倒退至今已有超过 288 家估值超过 10 亿美元的行业头部用户。这些用户遍布各行业,许多用户也在应用 StarRocks 后踊跃向社区分享了应用场景和实践经验。以下是一些具备代表性的用户案例:

互联网:芒果 TV、滴滴、万物新生、贝壳、同程旅行、得物、小红书、携程、美团餐饮 SaaS、360、微信
物流:顺丰、逾越速运、京东物流、达达
金融:中信建投、中欧财产、众安保险、中原银行、信也科技
游戏:波克城市、37 手游、腾讯游戏、游族网络
汽车:现实汽车、蔚来汽车、、吉利汽车、首汽约车、汽车之家
制作 / 批发:大润发、华润万家、TCL、华米科技、百草味

残缺的用户案例合集请见 StarRocks 公众号“StarRocks 用户案例合集”和 StarRocks B 站!

深度参加社区共建的搭档

StarRocks 各个代码仓库下已有超过 300 名贡献者,其中有许多人奉献了文档、函数、connector、周边生态等性能。咱们由衷感谢每一位为 StarRocks 贡献力量的敌人们。特地要感激以下深度参加社区的搭档们,他们为 StarRocks 提供了备受用户欢送的重要个性。

最初,感激每一位为 StarRocks 添砖加瓦的小伙伴们:https://github.com/StarRocks/starrocks/graphs/contributors

总结与瞻望

过来的一年对于 StarRocks 来说是至关重要的一年,咱们在产品、用户规模和社区治理模式方面一直进化,获得了飞跃式的成长。

  • 产品:从本来的 OLAP 剖析引擎到当初的湖仓一体,再从存算一体到存算拆散,StarRocks 已倒退成为极速对立云原生湖仓剖析的新范式
  • 用户规模:通过短短一年的工夫,咱们从千人规模的社区成长为超过万人的社区,领有来自世界各地的泛滥出名用户积极参与并反对 StarRocks
  • 社区治理:StarRocks 的社区治理也越来越凋谢,更多开发者能通过不同的兴趣小组(SIG)参加研发工作,专家们能退出技术领导委员会(TSC, Technical Steering Committee)参加 StarRocks Roadmap 的制订和造就社区优秀人才

将来,StarRocks 社区也将放弃着单干、凋谢、共赢的信念,与用户们一起摸索新一代的云原生湖仓,独特打造极速对立湖仓剖析的新范式!让咱们期待更加精彩的下一周年!

本文由 mdnice 多平台公布

正文完
 0