关于数据库:开源大数据热力报告StarRocks摘得数据查询与分析方向增速第一

40次阅读

共计 2807 个字符,预计需要花费 8 分钟才能阅读完成。

近日,由凋谢原子开源基金会、X-lab 凋谢实验室和阿里巴巴开源委员会联结出品的《2022 开源大数据热力报告》(以下简称“报告”)在云栖大会颁布。StarRocks 荣登报告 Top 30,并作为数据查问与剖析方向增速第一的我的项目缺席了 11 月 17 日的报告圆桌讨论会。

报告钻研了“后 Hadoop 时代”最沉闷的 102 个开源大数据我的项目,基于 2015 年至今的相干公开数据进行关联剖析,次要考查我的项目关注度、奉献活跃度、合作关联度和可继续倒退的衰弱度,得出每个我的项目的热力值。热力值次要基于开源我的项目的每年新增 Star 数量、新增 Issue 数量、OpenRank 值 等 3 个要害指标加权计算而来。 在解决用户痛点、继续关注开发者体验等外围竞争力上的卓越体现,是促使 StarRocks 以仅一岁多的社区年龄就火速上榜的次要起因。

报告调研的开源大数据我的项目笼罩 8 个类别,其中数据查问与剖析间断 8 年位于热力值榜首。这一畛域是大数据兵家多争之地,竞争带来的生态凋敝也促使 StarRocks 等我的项目取得了更多的技术热度。

(数据查问与剖析畛域的热力增速排行)

#01

解决用户痛点、继续关注开发者体验是热力外围

把解决用户痛点作为外围竞争力、继续关注开发者体验,是 StarRocks 等上榜 TOP30 开源我的项目的独特特色,这些特色保障我的项目与时俱进,成为热力趋势中的“常青树”或“黑马”。

过来的一年多工夫里,StarRocks 共公布了超过 50 个大小版本,维持着两个月一大版本,每周一小版本的速度疾速迭代。每一次的产品更新与迭代,均来自用户、社区开发者和 PMC 们独特的打磨和助力。

以存算拆散这一痛点为例,StarRocks PMC 赵恒谈到,在与行业用户的深度交互中发现,以后的云原生数据仓库大多没有很好解决实时的问题,StarRocks 的云原生架构在传统的设计根底上联合本身高性能的实时更新存储引擎,实现了实时数据分析和 Lakehouse 的对立。

(热力值 TOP30 开源我的项目)

在圆桌中,赵恒从社区治理和社区经营的两个维度分享了 StarRocks“极速”晋升热力值的心得办法。

从社区治理的角度:

一是治理模型和规定应该简略,简略能力长久地推动,StarRocks 只专一在几个大方向。个别贡献者参加社区会关注两个外围问题:一是他们能为社区做什么,再来是他们怎么能力做到想做的事。因而分明定义社区中的角色,像是 Contributor、Committer、PMC 等角色和降职规定,让开发者晓得通过哪些致力能力取得更大的社区影响力很重要。

二是降级参加门槛:保护良好的文档、创立新人辅导机制等都是让老手能疾速退出社区的要害。StarRocks 社区之前也举办过好几期面向老手的 StarRocks 极客营流动,流动中会有负责导师带着入门,很多开发者都是借由这系列的流动第一次接触到数据库的开发工作。

三是吸引更多的高手:社区里有不拘一格的开发者,为了让开发者能在本人感兴趣的畛域奉献价值和晋升本身的技术能力,StarRocks 创立了 DLA(数据湖剖析)、Cloud Native、MV(物化视图)等兴趣小组,吸引畛域高手和对此畛域有非凡趣味的人来退出奉献。

四是多样的奉献形式:社区不止于代码,一个社区健康成长须要多样的共建搭档,因而 StarRocks 也激励成员积极参与探讨、帮忙新用户更好地应用 StarRocks 或是参加对外宣讲等,并会对作出踊跃奉献的成员授予社区大使头衔。

从社区经营的角度:

尽管治理模型和规定应该简略,然而社区经营和推广应该越丰盛越好。针对用户进行不同维度的赋能,包含产品、案例、技术、最佳技术实际的分享;与上下游合作伙伴做兼容适配,联结推广实际,引发越来越多的关注和应用;而后越来越多的用户自发提 Issue,自发举荐给其余用户。目前 StarRocks 上千个用户里,有很多都是口口相传吸引而来。

基于本身的深度社区教训,StarRocks Active Contributor、Apache Hudi Contributor、华米科技高级大数据工程师徐昱分享了对活跃度的认识:“技术自身是为业务服务的。在没有毁坏整体我的项目设计准则的根底上,活跃度偏低的社区能够更踊跃地反馈用户 Issue、投入一些正当的 PR 等,这都能无效进步社区开发者的奉献激情。”

#02

技术周期减速缩短,极速对立 3.0 时代降临

报告发现,每隔 40 个月,热力值会晋升 1 倍,开源大数据实现一轮技术迭代降级,而且技术周期在减速缩短。在 8 年工夫内,产生了多轮热力变迁,反映出各项技术的更新换代趋势。

“增速代表的是趋势,阐明它是在演绎将来。比方数据湖热力值增速高,背地的趋势是存储一体化;云原生数据集成逐年翻倍,背地是云原生正在大规模重构开源技术栈。”赵恒示意,就像 StarRocks 所处的数据查问与剖析板块,过来是流批一体,现在是湖仓一体,技术和产业的独特演进下,StarRocks 极速对立 3.0 的重点就是欠缺湖仓交融。

“极速对立”是 StarRocks 基于企业级数据分析市场需求提出的范式。咱们认为,构建新一代企业数据驱动体系的外围是:用一套对立的体系来满足企业多种数据分析场景的需要,让更多的企业成员可能同时更快、更灵便、更实时地剖析数据。IDC 预测,2024 年寰球数仓的市场规模将达到 297 亿美元,2019-2024 年的年复合增长率将达到 12%;2024 年,中国数仓市场的规模是 168.5 亿元,中国大数据平台软件市场规模总体为 352.9 亿元,中国剖析型数据库的整体市场将达到 521.4 亿元,复合增长率为 27.7%。

面对技术周期和市场规模的双重增速,为了给用户提供更快、更灵便、更实时的剖析体验,StarRocks 在往年 9 月的年度社区峰会上公布极速对立 3.0,以使得用户可能在 StarRocks 上同时进行极速剖析与极速数据湖剖析。极速数据湖剖析,即为用户提供性能堪比数据仓库的数据湖剖析。

“咱们针对表面查问性能做了优化,反对查问 Parquet 格式文件时提早物化,晋升小范畴过滤场景下的数据湖查问性能。查问数据湖时,反对通过合并小型 I/O 以升高存储系统的拜访提早,进而晋升表面查问性能。这些都是和社区用户共同开发打磨进去的。”赵恒分享道。

对于 StarRocks

StarRocks 创建两年多来,始终专一打造世界顶级的新一代极速全场景 MPP 数据库,帮忙企业建设“极速对立”的数据分析新范式,助力企业全面数字化经营。

以后曾经帮忙腾讯、携程、顺丰、Airbnb、滴滴、京东、众安保险等超过 170 家大型用户构建了全新的数据分析能力,生产环境中稳固运行的 StarRocks 服务器数目达数千台。

2021 年 9 月,StarRocks 源代码凋谢,在 GitHub 上的星数已超过 3600 个。StarRocks 的寰球社区飞速成长,至今已有超百位贡献者,社群用户冲破 7000 人,吸引几十家国内外行业头部企业参加共建。

正文完
 0