共计 2460 个字符,预计需要花费 7 分钟才能阅读完成。
疾速概览
TPC-H
TPC-H 基准测试是评估决策支持系统的规范,专一于简单查问和数据保护。在这项剖析中,咱们应用 TPC-H SF100(SF1 = 600 万行)数据集比拟了 Databend Cloud 和 Snowflake,该数据集蕴含 100GB 数据和大概 6 亿行,逾越 22 个查问。
免责申明
TPC 基准测试™ 和 TPC-H™ 是交易解决性能委员会(TPC)的商标。咱们的基准测试尽管受到 TPC-H 的启发,但与官网 TPC-H 后果不间接可比。
Snowflake 和 Databend Cloud
- Snowflake:Snowflake 因其先进的性能而闻名,例如拆散存储和计算、按需可扩大计算、数据共享和克隆能力。
- Databend Cloud:Databend Cloud 提供与 Snowflake 相似的性能,是一个云原生数据仓库,也将存储与计算拆散,并依据须要提供可扩大的计算能力。它是从开源 Databend 我的项目倒退而来,定位为 Snowflake 的现代化、高性价比替代品,特地适宜大规模剖析。
性能和老本比拟
- 在数据加载方面,Databend 的老本比 Snowflake 低约 67%。
- 在查问执行方面,Databend 比 Snowflake 约高出 60% 的老本效率。
留神
基准测试中没有进行调优。后果基于 Snowflake 和 Databend Cloud 的默认设置。记住,不要只是置信咱们的话 —— 咱们激励您本人运行并验证这些后果。
数据加载基准测试
表名 | Snowflake(695s, 老本 $0.77) | Databend Cloud(446s, 老本 $0.25) | 行数 |
---|---|---|---|
customer | 18.137 | 13.436 | 15,000,000 |
lineitem | 477.740 | 305.812 | 600,037,902 |
nation | 1.347 | 0.708 | 25 |
orders | 103.088 | 64.323 | 150,000,000 |
part | 19.908 | 12.192 | 20,000,000 |
partsupp | 67.410 | 45.346 | 80,000,000 |
region | 0.743 | 0.725 | 5 |
supplier | 3.000 | 3.687 | 10,000,000 |
总工夫 | 695s | 446s | |
总成本 | $0.77 | $0.25 | |
存储大小 | 20.8GB | 24.5GB |
查问基准测试:冷启动
查问 | Snowflake(总计 207s, 老本 $0.23) | Databend Cloud(总计 166s, 老本 $0.09) |
---|---|---|
TPC-H 1 | 11.703 | 8.036 |
TPC-H 2 | 4.524 | 3.786 |
TPC-H 3 | 8.908 | 6.040 |
TPC-H 4 | 8.108 | 4.462 |
TPC-H 5 | 9.202 | 7.014 |
TPC-H 6 | 1.237 | 3.234 |
TPC-H 7 | 9.082 | 7.345 |
TPC-H 8 | 10.886 | 8.976 |
TPC-H 9 | 18.152 | 13.340 |
TPC-H 10 | 13.525 | 12.891 |
TPC-H 11 | 2.582 | 2.183 |
TPC-H 12 | 10.099 | 8.839 |
TPC-H 13 | 13.458 | 7.206 |
TPC-H 14 | 8.001 | 4.612 |
TPC-H 15 | 8.737 | 4.621 |
TPC-H 16 | 4.864 | 1.645 |
TPC-H 17 | 5.363 | 14.315 |
TPC-H 18 | 19.971 | 12.058 |
TPC-H 19 | 9.893 | 12.579 |
TPC-H 20 | 8.538 | 8.836 |
TPC-H 21 | 16.439 | 12.270 |
TPC-H 22 | 3.744 | 1.926 |
总工夫 | 207s | 166s |
总成本 | $0.23 | $0.09 |
查问基准测试:热启动
查问 | Snowflake (总计 138s, 破费 $0.15) | Databend Cloud (总计 124s, 破费 $0.07) |
---|---|---|
TPC-H 1 | 8.934 | 7.568 |
TPC-H 2 | 3.018 | 3.125 |
TPC-H 3 | 6.089 | 5.234 |
TPC-H 4 | 4.914 | 3.392 |
TPC-H 5 | 5.800 | 4.857 |
TPC-H 6 | 0.891 | 2.142 |
TPC-H 7 | 5.381 | 4.389 |
TPC-H 8 | 5.724 | 5.887 |
TPC-H 9 | 10.283 | 9.621 |
TPC-H 10 | 10.368 | 8.524 |
TPC-H 11 | 1.165 | 1.364 |
TPC-H 12 | 7.052 | 5.352 |
TPC-H 13 | 12.829 | 6.180 |
TPC-H 14 | 3.288 | 2.725 |
TPC-H 15 | 3.475 | 2.748 |
TPC-H 16 | 4.094 | 1.124 |
TPC-H 17 | 4.203 | 13.757 |
TPC-H 18 | 18.583 | 11.630 |
TPC-H 19 | 3.888 | 7.881 |
TPC-H 20 | 6.379 | 5.797 |
TPC-H 21 | 10.287 | 9.806 |
TPC-H 22 | 1.573 | 1.122 |
总工夫 | 138s | 124s |
总破费 | $0.15 | $0.07 |
复现基准测试
您能够依照以下步骤复现基准测试。
基准测试环境
Snowflake 和 Databend Cloud 都在相似条件下进行了测试:
参数 | Snowflake | Databend Cloud |
---|---|---|
计算集群大小 | 小型 | 小型 |
vCPU | 16 | 16 |
价格 | $4/ 小时 | $2/ 小时 |
AWS 区域 | us-east-2 | us-east-2 |
存储 | AWS S3 | AWS S3 |
- TPC-H SF100 数据集,来源于 Amazon Redshift,曾经加载到 Databend Cloud 和 Snowflake 中,没有进行任何特定的调优。
基准测试方法
咱们对查问执行进行了冷热两轮运行:
- 冷运行 :在执行查问之前,数据仓库被挂起并复原。
- 热运行 :数据仓库没有被挂起,应用本地磁盘缓存。
先决条件
- 领有一个 Snowflake 账户
- 创立一个 Databend Cloud 账户.
数据加载
Snowflake 数据加载 :
- 登录您的 Snowflake 账户.
- 创立对应 TPC-H 架构的表。SQL 脚本.
- 应用
COPY INTO
命令从 AWS S3 加载数据。SQL 脚本.
Databend Cloud 数据加载 :
- 登录您的 Databend Cloud 账户.
- 创立必要的表,与 TPC-H 架构相符。SQL 脚本.
- 应用相似 Snowflake 的办法从 AWS S3 加载数据。SQL 脚本.
TPC-H 查问
Snowflake 查问 :
- 登录您的 Snowflake 账户.
- 运行 TPC-H 查问。SQL 脚本.
Databend Cloud 查问 :
- 登录您的 Databend Cloud 账户.
- 运行 TPC-H 查问。SQL 脚本.
正文完