自 Apache Doris 1.1.0 版本公布距今曾经有数月之久,在这一期间,咱们从新思考并确立了社区新版本公布的流程,正式引入了 LTS(Long-Term Support,长周期反对)版本的概念,在 1.1.x 系列版本中不再引入大的性能 Feature、仅提供问题修复和稳定性改良,力求满足更多社区用户在稳定性方面的高要求。值得快乐的是,这一口头曾经有了显著的功效,目前 1.1.x 系列最新版本的稳定性禁受了泛滥用户生产环境的考验。
而在综合思考版本迭代节奏和用户需要后,咱们决定将泛滥新个性在 1.2 版本中公布,这其中既蕴含了在性能方面的优化改良,也蕴含了诸多社区用户期待已久的性能。经验了漫长的开发、测试、调优等工作后,咱们很快乐地通知大家,Apache Doris 1.2.0 版本曾经进入最初的发版筹备阶段,预期将于 12 月的第一周与大家见面。
对于社区用户最为关怀的性能方面的晋升,咱们基于 1.2.0 RC(Release Candidate,候选公布版本)进行了多个规范测试集的测试,同时抉择了 1.1.3 版本和 0.15.0 版本作为比照参照项。
经测,1.2.0 RC 版本在 SSB-Flat 宽表场景上绝对 1.1.3 版本整体性能 晋升了近 4 倍 、绝对于 0.15.0 版本性能 晋升了近 10 倍 ,在 TPC-H 多表关联场景上较 1.1.3 版本上有 近 3 倍的晋升 、较 0.15.0 版本性能 晋升了 11 倍 以上,多个场景性能失去飞跃性晋升。
与此同时,咱们将 1.2.0 RC 版本的测试数据提交到了寰球出名的数据库测试排行榜 ClickBench,在最新的排行榜中,Apache Doris 以亮眼的性能体现登上榜单前列,获得了寰球同类产品导入性能综合排名第一、通用机型(c6a.4xlarge, 500gb gp2)下查问性能 Cold Run 第二和 Hot Run 第三的问题!
对于 ClickBench
ClickBench 是由出名剖析型数据库 ClickHouse 发动的性能测试排行榜,在 ClickBench 性能排行榜中,测试数据均取自实在生产环境、涵盖数据类型多样、笼罩了即席查问和统计报表等典型场景,能实在反映各大数据库在生产环境中的性能,因而吸引了 Snowflake、Redshift、Athena、Greenplum、Druid 等国内出名数据库的参加。所评测的指标为特定机型下导入雷同数据集的工夫、所占用的存储空间大小以及执行 SQL 的耗时长短,别离用以掂量 数据导入性能、数据压缩比以及查问性能。所有测试后果中体现最优的一条会成为基线,雷同测试项的指标会与基线数据进行比照并得出比值,通过这一比值来体现与行业最优的差距。当有新的测试后果超过原有的基线后,将主动成为新的基线。
就查问性能而言,会别离对每条 SQL 执行 Hot Run 和 Cold Run 来统计时长,即反复执行 3 次 SQL 并取其中耗时最短的一次以及启动并清理内存后间接执行,最终对所有 SQL 的执行耗时与基线的比值进行几何平均,即为最终测试后果。因而 ClickBench 更关注的是数据库在所有测试场景下都有着优异的体现,而非某一个或某几个场景,这使得数据库须要全方位的能力晋升。
在本次提交的测试后果中,查问性能方面 ,Apache Doris 在未进行任何调优的状况下,Cold Run 获得同机型所有产品第二名的优异成绩,Hot Run 位列同机型所有产品第三,共有 8 个 SQL 刷新榜单最佳问题、成为新的性能标杆。 导入性能方面 ,Apache Doris 数据写入效率在同机型所有产品中位列第一 ,压缩前 70G 数据写入 仅耗时 415s、单节点写入 速度超过 170 MB/s,在实现极致查问性能的同时也保障了高效的写入效率!
图 1 Cold Run
图 2 Hot Run
图 3 Load Time
点击链接 :https://benchmark.clickhouse.com 返回查看
对于 SSB
Star Schema Benchmark(SSB) 是一个轻量级的数仓场景下的性能测试集。SSB 基于 TPC-H 提供了一个简化版的星型模型数据集,次要用于测试在星型模型下多表关联查问的性能体现。另外,业界内通常也会将 SSB 打平为宽表模型(以下简称:SSB-Flat),来测试查问引擎的性能。
在 SSB-Flat 宽表模型全副 13 个查问上,Apache Doris 1.2.0 均优于之前版本、未产生性能回退的状况,整体性能较 1.1.3 版本有 近 4 倍的晋升 ,较 0.15.0 版本有 近 10 倍的晋升 、单个 SQL 性能最高 晋升近 13 倍 。与此同时,在 SSB 星型模型下,Apache Doris 1.2.0 整体性能较 1.1.3 版本 晋升近 2 倍 、较 0.15.0 版本 晋升近 31 倍 ,单个 SQL 最高 晋升近 60 倍,出现巨幅的性能进化。
图 4 SSB-Flat 宽表模型
图 5 SSB 星型模型
(点击链接 https://doris.apache.org/blog… 返回查看)
对于 TPC-H
TPC-H 是一个决策反对基准(Decision Support Benchmark),它由一套面向业务的特地查问和并发数据批改组成,查问和填充数据库的数据具备宽泛的行业相关性。这个基准测试演示了查看大量数据、执行高度简单的查问并答复要害业务问题的决策支持系统。TPC- H 报告的性能指标称为 TPC- H 每小时复合查问性能指标(QphH@Size),反映了零碎解决查问能力的多个方面。这些方面包含执行查问时所抉择的数据库大小,由单个流提交查问时的查询处理能力,以及由多个并发用户提交查问时的查问吞吐量。
在 TPC-H 规范测试数据集上的 22 个查问上,Apache Doris 1.2.0 版本整体性能绝对 1.1.3 版本晋升了将近 3 倍,绝对于 0.15.0 版本晋升了超 11 倍,其中单个 SQL 最高晋升近 70 倍!
图 6 TPCH-100 性能测试比照
(点击链接 https://doris.apache.org/blog… 返回查看)
通过以上性能测试后果能够看出,毫无疑问 1.2 版本已成为自 Apache Doris 开源以来性能体现最佳的版本,这同样也使得 Apache Doris 成为寰球 OLAP 数据库性能的新标杆。这一问题的背地离不开所有社区开发者的付出和所有用户的信赖,正是因为有整体社区成员的致力才有了 Apache Doris 的飞速提高,在此也要向所有社区开发者和用户示意最衷心的感谢。
诚然,性能不止是数据库谋求的全副。在 1.2 新版本中,还有更多的最新个性期待揭晓,残缺性能敬请期待后续公布的 Release Note,置信会给每一位期盼已久的用户以惊喜。最初,期待能有更多开发者与开源爱好者可能一起退出 Apache Doris 社区,共襄盛举,将国人开源的优良我的项目推广到寰球,成为古代数据分析技术的新基石。
# 互动时刻 #
Doris Summit 2022 曾经正式起航,在 Summit 上将会同步 Apache Doris 最新的开发进展与 RoadMap。在此诚挚向整体社区公开征集演讲议题,如果您有好的 idea、包含但不限于业务最佳实际、技术深度解析、行业趋势解读、数据生态计划等,欢迎您提交议题参加分享,与社区各领域专家深入探讨和交换。
议题征集链接:https://docs.qq.com/form/page…
— END —
最初,欢送更多的开源技术爱好者退出 Apache Doris 社区,携手成长,共建社区生态。Apache Doris 社区以后已包容了上万名开发者和使用者,承载了 30+ 交换社群,如果你也是 Apache Doris 的爱好者,扫码退出 Apache Doris 社区用户交换群,在这里你能够取得:
- 业余全职团队技术支持
- 间接和社区专家交换,获取收费且业余回复
- 意识不同行业的开发者,播种常识以及单干机会
- Apache Doris 最新版本优先体验权
- 获取一手干货和资讯以及流动优先参与权