内容简介:
随着数字化一直倒退,各行各业数据出现海量增长的趋势。存算拆散将存储系统和计算框架拆分为独立的模块,Alluxio作为现在支流云数据编排软件之一,为计算型利用(如 Apache Spark、Presto)和存储系统(如 Amazon S3、Alibaba OSS)的数据拜访构建了桥梁。
本文应用亚马逊云、阿里云服务商产品,对Presto、Hive等计算框架与不同UFS直连时的要害性能指标进行测评,同时给出集成Alluxio组件后的性能评估,得出以下论断:
√ Alluxio 可缩小工作运行工夫(低带宽状况下甚至能够缩小一个数量级)和 CPU工夫;这表明 Alluxio 肯定水平上能够节俭带宽并加重服务器运算压力。
√ Alluxio 可更好地兼容泛滥底层存储系统,这表明在不损失性能的前提下,抉择价格更为低廉的对象存储系统(如Alibaba OSS, Amazon S3)。
简而言之,集成数据驱动软件 Alluxio 既能晋升性能,又能升高经营老本。
实验设计
本试验采纳 TPC-DS 生成的 1GB 数据集,抉择19条SQL作为该试验工作负载。[1]
咱们将原始数据存到底层存储系统中,应用Hive治理原始数据和元数据,将Presto作为计算利用,造成 Presto → Hive → (Alluxio →) HDFS/OSS/S3 的连贯模式,并进行Presto间接读UFS和Presto通过Alluxio缓存读UFS两种比照测试。咱们采纳挂钟工夫(WallTime,执行查问破费的总工夫)和CPU工夫(ProcessCpuTime,解决查问所破费的总CPU工夫)两组测量指标进行比照测试。
试验后果与意义
试验后果剖析
通过TPC-DS测试的比照后,可得出以下几点论断:
(1)Alluxio 可缩小挂钟工夫,在低带宽下尤为显著。
√ 下图是在AWS上,应用HDFS作为存储系统,统计挂钟工夫均值(AWS实例带宽最高可达10G/s,性能小幅度晋升):
√下图是在阿里云上,应用HDFS作为存储系统,统计挂钟工夫均值(抉择阿里云按量付费最高带宽200M/s):
√下图是在阿里云上,应用HDFS作为存储系统,统计挂钟工夫均值(低带宽模式,带宽15M/s),能够看到性能晋升一个数量级。
(2)Alluxio 可节俭带宽。由上图可知,若想在无Alluxio的状况下达到有Alluxio的成果,须要设法进一步晋升公网带宽。
(3)Alluxio 肯定水平上可减轻服务器运算压力,CPU工夫较短。图2-1是在阿里云上应用HDFS作为存储系统,统计CPU工夫。
下图是在AWS上应用S3作为存储系统,统计CPU工夫。
(4)Alluxio 为计算框架和存储系统的数据拜访搭建桥梁,大大降低运行环境配置难度。目前 Presto 对 S3 兼容性较好,但对 OSS 和 COS 兼容性较差,目前尚无Presto间接拜访OSS数据的计划。但用Alluxio则无需思考计算框架和底层存储系统的兼容性问题,因为Presto对Alluxio、Alluxio对OSS兼容性很好,配置环境很容易。
(5)因为无需思考计算框架与底层存储系统兼容性,则可应用价格更为低廉的对象存储系统,其带宽老本与保护老本均比 Hadoop 低。并且由图3-1和图3-2得悉Alluxio缓存读状况下性能差异并不显著,但对象存储系统价格更为低廉,因而对象存储可作为存储系统更好的抉择。
下图为应用AWS服务器,别离对 HDFS 和 S3 进行测试,统计挂钟工夫。
下图为应用阿里云服务器,别离对 HDFS 和 OSS 进行测试,统计挂钟工夫。
对象存储与HDFS存储老本比照
因为云服务产品种类繁冗、应用雷同产品不同的利用场景下开销差别较大。以本试验为例,云服务次要开销由存储、数据传输和云服务器三个局部形成,故咱们仅对本试验应用云服务产品及其他罕用云服务产品进行上述指标的定量分析(疏忽诸如数据申请、对象清单等极低成本服务的指标),扩大服务及其具体价格详情请参考云服务产品价格页面。
亚马逊云
亚马逊服务器应用 S3 和 HDFS 作为存储系统时(HDFS 应用 EBS 存储,因而以美国东部俄亥俄2023年1月6日 S3 Standard 和 EBS 为例),价格比照如下(数据起源:Amazon S3 价格、Amazon EC2 实例价格、Amazon EBS 定价 ):
(1)存储
本试验采纳S3 Standard 、通用型SSD (gp2) 和一张一般快照,S3 每 GB 存储价格仅为 gp2 的 1/7~1/6。即便数据量增大,使得运行环境占用存储忽略不计,在不思考快照的状况下,S3 Standard 数据存储价格仅为 gp2 的1/4~1/3。
(2)数据传输
AWS两者公网流出流量价格统一,公网流入流量均收费。
(3)服务器老本
服务器老本请参考 Amazon EC2 实例价格,S3 并无此项老本,而 EC2 老本很高,以本试验存储系统用到的实例为例(美国东部俄亥俄2023年1月6日 r5a.large 价格)。
阿里云
以2023年1月12日华北1(青岛)区域的 OSS 标准型存储和块存储 (EBS) 为例(数据起源:对象存储OSS 定价详情、块存储定价详情)。
(1)存储
本试验采纳 OSS 规范存储(本地冗余)、ESSD 云盘 PL0 和一个一般快照,可见在 Alluxio 缓存读性能相近状况下,OSS 每 GB 存储价格仅为 EBS 的 1/6~1/5。
(2)数据传输
本试验采纳按量付费带宽。可见 OSS 带宽老本比 HDFS 带宽老本要低一些。假使OSS开启CDN减速,实践上可进一步晋升带宽速度并升高带宽老本。
(3)服务器老本服务器老本请参考 云服务器 ECS,OSS 并无此项老本,而 ECS 老本很高,以本试验存储系统用到的实例为例(华北1青岛2023年1月12日 ecs.r6.large 价格)。
总结综合亚马逊云、阿里云的存储、数据传输和服务器老本,应用对象存储系统的开销要比HDFS低很多,而应用 Alluxio 可非常不便地接入各种存储系统,这无疑意味着可大大降低企业经营老本。
想要理解更多对于Alluxio的干货文章、热门流动、专家分享,可点击进入【Alluxio智库】: