关于数据库:TPCH-基准测试Databend-Cloud-与-Snowflake-对比

4次阅读

共计 2460 个字符,预计需要花费 7 分钟才能阅读完成。

疾速概览

TPC-H

TPC-H 基准测试是评估决策支持系统的规范,专一于简单查问和数据保护。在这项剖析中,咱们应用 TPC-H SF100(SF1 = 600 万行)数据集比拟了 Databend Cloud 和 Snowflake,该数据集蕴含 100GB 数据和大概 6 亿行,逾越 22 个查问。

免责申明

TPC 基准测试™ 和 TPC-H™ 是交易解决性能委员会(TPC)的商标。咱们的基准测试尽管受到 TPC-H 的启发,但与官网 TPC-H 后果不间接可比。

Snowflake 和 Databend Cloud

  • Snowflake:Snowflake 因其先进的性能而闻名,例如拆散存储和计算、按需可扩大计算、数据共享和克隆能力。
  • Databend Cloud:Databend Cloud 提供与 Snowflake 相似的性能,是一个云原生数据仓库,也将存储与计算拆散,并依据须要提供可扩大的计算能力。它是从开源 Databend 我的项目倒退而来,定位为 Snowflake 的现代化、高性价比替代品,特地适宜大规模剖析。

性能和老本比拟

  • 在数据加载方面,Databend 的老本比 Snowflake 低约 67%。
  • 在查问执行方面,Databend 比 Snowflake 约高出 60% 的老本效率。

留神

基准测试中没有进行调优。后果基于 Snowflake 和 Databend Cloud 的默认设置。记住,不要只是置信咱们的话 —— 咱们激励您本人运行并验证这些后果。

数据加载基准测试

表名 Snowflake(695s, 老本 $0.77) Databend Cloud(446s, 老本 $0.25) 行数
customer 18.137 13.436 15,000,000
lineitem 477.740 305.812 600,037,902
nation 1.347 0.708 25
orders 103.088 64.323 150,000,000
part 19.908 12.192 20,000,000
partsupp 67.410 45.346 80,000,000
region 0.743 0.725 5
supplier 3.000 3.687 10,000,000
总工夫 695s 446s
总成本 $0.77 $0.25
存储大小 20.8GB 24.5GB

查问基准测试:冷启动

查问 Snowflake(总计 207s, 老本 $0.23) Databend Cloud(总计 166s, 老本 $0.09)
TPC-H 1 11.703 8.036
TPC-H 2 4.524 3.786
TPC-H 3 8.908 6.040
TPC-H 4 8.108 4.462
TPC-H 5 9.202 7.014
TPC-H 6 1.237 3.234
TPC-H 7 9.082 7.345
TPC-H 8 10.886 8.976
TPC-H 9 18.152 13.340
TPC-H 10 13.525 12.891
TPC-H 11 2.582 2.183
TPC-H 12 10.099 8.839
TPC-H 13 13.458 7.206
TPC-H 14 8.001 4.612
TPC-H 15 8.737 4.621
TPC-H 16 4.864 1.645
TPC-H 17 5.363 14.315
TPC-H 18 19.971 12.058
TPC-H 19 9.893 12.579
TPC-H 20 8.538 8.836
TPC-H 21 16.439 12.270
TPC-H 22 3.744 1.926
总工夫 207s 166s
总成本 $0.23 $0.09

查问基准测试:热启动

查问 Snowflake (总计 138s, 破费 $0.15) Databend Cloud (总计 124s, 破费 $0.07)
TPC-H 1 8.934 7.568
TPC-H 2 3.018 3.125
TPC-H 3 6.089 5.234
TPC-H 4 4.914 3.392
TPC-H 5 5.800 4.857
TPC-H 6 0.891 2.142
TPC-H 7 5.381 4.389
TPC-H 8 5.724 5.887
TPC-H 9 10.283 9.621
TPC-H 10 10.368 8.524
TPC-H 11 1.165 1.364
TPC-H 12 7.052 5.352
TPC-H 13 12.829 6.180
TPC-H 14 3.288 2.725
TPC-H 15 3.475 2.748
TPC-H 16 4.094 1.124
TPC-H 17 4.203 13.757
TPC-H 18 18.583 11.630
TPC-H 19 3.888 7.881
TPC-H 20 6.379 5.797
TPC-H 21 10.287 9.806
TPC-H 22 1.573 1.122
总工夫 138s 124s
总破费 $0.15 $0.07

复现基准测试

您能够依照以下步骤复现基准测试。

基准测试环境

Snowflake 和 Databend Cloud 都在相似条件下进行了测试:

参数 Snowflake Databend Cloud
计算集群大小 小型 小型
vCPU 16 16
价格 $4/ 小时 $2/ 小时
AWS 区域 us-east-2 us-east-2
存储 AWS S3 AWS S3
  • TPC-H SF100 数据集,来源于 Amazon Redshift,曾经加载到 Databend Cloud 和 Snowflake 中,没有进行任何特定的调优。

基准测试方法

咱们对查问执行进行了冷热两轮运行:

  1. 冷运行 :在执行查问之前,数据仓库被挂起并复原。
  2. 热运行 :数据仓库没有被挂起,应用本地磁盘缓存。

先决条件

  • 领有一个 Snowflake 账户
  • 创立一个 Databend Cloud 账户.

数据加载

  1. Snowflake 数据加载

    • 登录您的 Snowflake 账户.
    • 创立对应 TPC-H 架构的表。SQL 脚本.
    • 应用 COPY INTO 命令从 AWS S3 加载数据。SQL 脚本.
  2. Databend Cloud 数据加载

    • 登录您的 Databend Cloud 账户.
    • 创立必要的表,与 TPC-H 架构相符。SQL 脚本.
    • 应用相似 Snowflake 的办法从 AWS S3 加载数据。SQL 脚本.

TPC-H 查问

  1. Snowflake 查问

    • 登录您的 Snowflake 账户.
    • 运行 TPC-H 查问。SQL 脚本.
  2. Databend Cloud 查问

    • 登录您的 Databend Cloud 账户.
    • 运行 TPC-H 查问。SQL 脚本.
正文完
 0