乐趣区

关于大数据:如何借力Alluxio推动大数据产品性能提升与成本优化

内容简介:

随着数字化一直倒退,各行各业数据出现海量增长的趋势。存算拆散将存储系统和计算框架拆分为独立的模块,Alluxio 作为现在支流云数据编排软件之一,为计算型利用(如 Apache Spark、Presto)和存储系统(如 Amazon S3、Alibaba OSS)的数据拜访构建了桥梁。

本文应用亚马逊云、阿里云服务商产品,对 Presto、Hive 等计算框架与不同 UFS 直连时的要害性能指标进行测评,同时给出集成 Alluxio 组件后的性能评估,得出以下论断:

√ Alluxio 可缩小工作运行工夫(低带宽状况下甚至能够缩小一个数量级)和 CPU 工夫;这表明 Alluxio 肯定水平上能够节俭带宽并加重服务器运算压力。

√ Alluxio 可更好地兼容泛滥底层存储系统,这表明在不损失性能的前提下,抉择价格更为低廉的对象存储系统(如 Alibaba OSS, Amazon S3)。

简而言之,集成数据驱动软件 Alluxio 既能晋升性能,又能升高经营老本。

实验设计

本试验采纳 TPC-DS 生成的 1GB 数据集,抉择 19 条 SQL 作为该试验工作负载。[1]

咱们将原始数据存到底层存储系统中,应用 Hive 治理原始数据和元数据,将 Presto 作为计算利用,造成 Presto → Hive → (Alluxio →) HDFS/OSS/S3 的连贯模式,并进行 Presto 间接读 UFS 和 Presto 通过 Alluxio 缓存读 UFS 两种比照测试。咱们采纳挂钟工夫(WallTime,执行查问破费的总工夫)和 CPU 工夫(ProcessCpuTime,解决查问所破费的总 CPU 工夫)两组测量指标进行比照测试。

试验后果与意义

试验后果剖析

通过 TPC-DS 测试的比照后,可得出以下几点论断:
(1)Alluxio 可缩小挂钟工夫,在低带宽下尤为显著。

√ 下图是在 AWS 上,应用 HDFS 作为存储系统,统计挂钟工夫均值(AWS 实例带宽最高可达 10G/s,性能小幅度晋升):

√下图是在阿里云上,应用 HDFS 作为存储系统,统计挂钟工夫均值(抉择阿里云按量付费最高带宽 200M/s):

√下图是在阿里云上,应用 HDFS 作为存储系统,统计挂钟工夫均值(低带宽模式,带宽 15M/s),能够看到性能晋升一个数量级。

(2)Alluxio 可节俭带宽。由上图可知,若想在无 Alluxio 的状况下达到有 Alluxio 的成果,须要设法进一步晋升公网带宽。

(3)Alluxio 肯定水平上可减轻服务器运算压力,CPU 工夫较短。图 2 - 1 是在阿里云上应用 HDFS 作为存储系统,统计 CPU 工夫。

下图是在 AWS 上应用 S3 作为存储系统,统计 CPU 工夫。

(4)Alluxio 为计算框架和存储系统的数据拜访搭建桥梁,大大降低运行环境配置难度。目前 Presto 对 S3 兼容性较好,但对 OSS 和 COS 兼容性较差,目前尚无 Presto 间接拜访 OSS 数据的计划。但用 Alluxio 则无需思考计算框架和底层存储系统的兼容性问题,因为 Presto 对 Alluxio、Alluxio 对 OSS 兼容性很好,配置环境很容易。

(5)因为无需思考计算框架与底层存储系统兼容性,则可应用价格更为低廉的对象存储系统,其带宽老本与保护老本均比 Hadoop 低。并且由图 3 - 1 和图 3 - 2 得悉 Alluxio 缓存读状况下性能差异并不显著,但对象存储系统价格更为低廉,因而对象存储可作为存储系统更好的抉择。

下图为应用 AWS 服务器,别离对 HDFS 和 S3 进行测试,统计挂钟工夫。

下图为应用阿里云服务器,别离对 HDFS 和 OSS 进行测试,统计挂钟工夫。

对象存储与 HDFS 存储老本比照

因为云服务产品种类繁冗、应用雷同产品不同的利用场景下开销差别较大。以本试验为例,云服务次要开销由存储、数据传输和云服务器三个局部形成,故咱们仅对本试验应用云服务产品及其他罕用云服务产品进行上述指标的定量分析(疏忽诸如数据申请、对象清单等极低成本服务的指标),扩大服务及其具体价格详情请参考云服务产品价格页面。

亚马逊云
亚马逊服务器应用 S3 和 HDFS 作为存储系统时(HDFS 应用 EBS 存储,因而以美国东部俄亥俄 2023 年 1 月 6 日 S3 Standard 和 EBS 为例),价格比照如下(数据起源:Amazon S3 价格、Amazon EC2 实例价格、Amazon EBS 定价):

(1)存储

本试验采纳 S3 Standard、通用型 SSD (gp2) 和一张一般快照,S3 每 GB 存储价格仅为 gp2 的 1/7~1/6。即便数据量增大,使得运行环境占用存储忽略不计,在不思考快照的状况下,S3 Standard 数据存储价格仅为 gp2 的 1 /4~1/3。

(2)数据传输

AWS 两者公网流出流量价格统一,公网流入流量均收费。

(3)服务器老本

服务器老本请参考 Amazon EC2 实例价格,S3 并无此项老本,而 EC2 老本很高,以本试验存储系统用到的实例为例(美国东部俄亥俄 2023 年 1 月 6 日 r5a.large 价格)。

阿里云
以 2023 年 1 月 12 日华北 1(青岛)区域的 OSS 标准型存储和块存储 (EBS) 为例(数据起源:对象存储 OSS 定价详情、块存储定价详情)。

(1)存储

本试验采纳 OSS 规范存储(本地冗余)、ESSD 云盘 PL0 和一个一般快照,可见在 Alluxio 缓存读性能相近状况下,OSS 每 GB 存储价格仅为 EBS 的 1/6~1/5。

(2)数据传输

本试验采纳按量付费带宽。可见 OSS 带宽老本比 HDFS 带宽老本要低一些。假使 OSS 开启 CDN 减速,实践上可进一步晋升带宽速度并升高带宽老本。

(3)服务器老本服务器老本请参考 云服务器 ECS,OSS 并无此项老本,而 ECS 老本很高,以本试验存储系统用到的实例为例(华北 1 青岛 2023 年 1 月 12 日 ecs.r6.large 价格)。

总结综合亚马逊云、阿里云的存储、数据传输和服务器老本,应用对象存储系统的开销要比 HDFS 低很多,而应用 Alluxio 可非常不便地接入各种存储系统,这无疑意味着可大大降低企业经营老本。

想要理解更多对于 Alluxio 的干货文章、热门流动、专家分享,可点击进入【Alluxio 智库】:

退出移动版