乐趣区

关于数据库:StarRocks被-Databricks-CEO-提及的数据库

Databricks 介绍
Databricks 是一家美国的大数据独角兽公司,由 Apache Spark 的创建者所创建。Databricks 开源了 Delta Lake– 基于 Apache Spark 的下一代数据湖存储引擎。Delta Lake 是目前市面上支流的数据湖存储引擎之一,与 Apache Hudi 和 Apache Iceberg 并称为数据湖三剑客。

在最近完结的 Databricks Data + AI Summit 上,Databricks CEO Ali Ghodsi 公布了 Delta Lake 3.0。这个新版本引入了一种名为通用格局(UniForm)的凋谢表格局,可读写三种风行的数据表格局,包含 Delta Lake、Apache Iceberg 和 Apache Hudi。这体现了 Databricks 拥抱凋谢数据生态的信心。

凋谢表格局通过提供一个规范和对立的形式来拜访大数据集,而表格局的一统能够帮忙用户升高多种格局共存的技术老本。能够说,这个理念与 StarRocks 冀望构建的基于凋谢生态的,极速对立的湖仓剖析新范式不约而同!

Ali Ghodsi 在主题演讲中提及了 StarRocks

StarRocks– 极速对立的湖仓新范式

01 StarRocks 的极致查问性能

MPP 分布式执行
Pipeline 并行执行框架
向量化执行引擎
CBO 优化器
Global Runtime Filter
Metadata Cache
Local Data Cache
Materialized View

对于 StarRocks 的极致性能曾经有很多材料介绍了,这里就不多加开展。大家能够通过文末文章链接理解更多细节。

02 利用 StarRocks 的 “House” 能力进一步晋升性能

StarRocks 不仅仅是一个查问引擎,同时也领有一个弱小的存储引擎,如果你心愿进一步晋升查问性能或者查问并发能力,你能够将数据导入到 StarRocks 中,StarRocks 的本地存储领有丰盛的索引能力、实时更新能力和多表 colocate join 能力。

数据导入 StarRocks 中有两种形式:手动导入数据和 MV 主动导入数据。

StarRocks 反对对数据湖上的表创立物化视图,并且反对主动数据同步和主动查问改写。

03 StarRocks 反对冷热拆散 + 主动查问改写

大多数状况下,咱们心愿最近一周或者一个月的热数据领有更好的查问性能,在 StarRocks 中,MV(物化视图)能够不便且高效地实现这一指标:

如上图所示,StarRocks 的 MV 能够只保留最近一个月的数据,当你查问 Data Lake 上的数据时,StarRocks 会帮你主动改写,最新的数据从 StarRocks 查问,而历史数据则从 Data Lake 查问,而后主动进行 Union 操作,将两局部数据合并返回给你。

04 StarRocks 反对实时更新

因为 StarRocks 同时反对实时高效更新和写出到 Iceberg,所以咱们能够基于 StarRocks 构建实时更新的 Lakehouse。当你同时须要实时更新、极致查问性能和凋谢的 Table Format,StarRocks 便是你的惟一抉择。

05 简略易用的 Catalog 元数据管理

StarRocks 提供了一键同步内部数据库中的所有表元数据的性能,并且能够疾速同步各种 Data Lake 数据源。

06 可弹性伸缩

StarRocks 用于数据湖剖析的计算节点是无状态的,能够联合 K8s 进行疾速弹性伸缩。

在后面的内容中,咱们总结了 StarRocks 数据湖的卓越能力。而在将来,咱们的承诺仍然是让数据处理变得更简略(对立)、更疾速无效(极速)。咱们期待进一步利用 Delta UniForm 的能力,使用户可能更轻松地在各种凋谢数据格式上进行亚秒级剖析。这种生态上的交融可能将亚秒级剖析的性能范畴扩大到更宽泛的用户群体,使数据分析比以往任何时候都更加容易!

想要再深刻理解更多对于 StarRocks 湖仓剖析的个性吗?欢送利用以下资源:
当打造一款极速湖剖析产品时,咱们在想些什么
StarRocks 3.0 极速对立的湖仓新范式
技术底细 | StarRocks 反对 Apache Hudi 原理解析
StarRocks 湖仓交融的四种范式

💬 退出 StarRocks 的 Lakehouse 用户小组,开启你与 StarRocks 的极速湖仓剖析之旅!
点击链接填写完问卷后即可取得入群形式:https://tl-tx.dustess.com/0kGIuI4VTZ

退出移动版