关于人工智能:云知声-Atlas-超算平台-基于-Fluid-Alluxio-的计算加速实践下

42次阅读

共计 2928 个字符,预计需要花费 8 分钟才能阅读完成。



Fluid + Alluxio 为集群引入了全新的架构,然而在具体场景适配方面咱们还是遇到了一些问题,这些问题咱们第一工夫与社区反馈,社区都第一工夫解决了咱们的需要,这里次要讲下几个比拟重要的个性反对:
hostpath 与 nonroot 的反对

在 Atlas 平台中,咱们对分布式文件系统设置了 nonroot, 客户端的 root 是没有权限操作用户的目录的。如果在 Alluxio 缓存引擎应用 root 用户拜访底层 UFS 会呈现权限问题,Fluid 还提供了 nonroot 反对,反对在缓存引擎与数据集别离设置用户的 UID 与 GID,缓存引擎的用户信息保障 Allluxio 可能胜利读取到底层 UFS 的数据,如果用户在数据集设置雷同的 UID 与 GID 就能够实现工作端数据的读取,如果将数据集的 UID 与 GID 设置成别的用户信息,就能够实现数据集的共享,该个性很好的解决了平台遇到的权限管制相干的问题以及数据存储冗余的问题。
多个挂载点的反对

因为用户的工作的数据通常是由不同的数据集组成,这里的不同数据集能够是同一个存储系统的不同目录或者是不同存储系统。Alluxio 可能为应用程序提供对立命名空间。通过对立命名空间的形象,应用程序能够通过对立命名空间和接口来拜访多个独立的存储系统。相比于连贯每个独立的存储系统进行通信,应用程序能够只连贯到 Alluxio,通过 Alluxiofuse 让用户可能应用 POXIS 接口拜访不同底层存储的缓存数据。

通明命名机制保障了 Alluxio 和底层存储系统命名空间身份一致性。不同的底层存储的目录与文件名都可能在 Alluxio 进行映射。

基于该个性用户的能够同时在同一个训练任务中为 2 个存储系统的数据进行缓存减速。该个性可能防止用户进行大量的数据迁徙工作,在 Atlas 平台中,TB 量级的小文件的压缩打包、迁徙与解压须要消耗几个小时,使用该个性用户只须要更改下工作中数据的存储门路无需批改源代码,即可运行程序。

缓存预热

平台中计算资源往往比存储资源更紧缺,如果用户启动了 TB 量级的小文件训练任务,底层存储系统与缓存零碎之间的元数据同步以及数据的同步须要消耗大量工夫。Alluxio 提供了 loadMetadata 与 loaddata 的性能,Fluid 将 2 个性能进行了集成,用户可能提前将近程存储系统中的数据拉取到凑近计算结点的分布式缓存引擎中,使得生产该数据集的利用可能在首次运行时即可享受到缓存带来的减速成果。该性能可能无效的减少集群的 GPU 利用率,防止在首次缓存时进行元数据同步的时候,造成的耗时,使得程序一开始运行就具备较好的 IO 读取速度,整体的 GPU 利用率回升了。
参数调优

Alluxio 提供了较多的调优参数,平台依据业务的特点进行相应的参数配置与调优,针对简直全是读的场景,进行了一些通用参数的调优以及一些针对不同数据集的调优。

通用参数:
关上 kernel_cache 以及将 alluxio.user.metadata.cache.enabled 设置为 true, 在客户端开启文件及目录元数据缓存。对于全读的场景能够配置 alluxio.user.metadata.cache.max.size 和 alluxio.user.metadata.cache.expiration.time 以调整最多缓存文件及目录元数据缓存量和无效工夫。

通过设置 alluxio.user.file.passive.cache.enabled=false 与 alluxio.user.file.readtype.default=CACHE 来防止频繁逐出(Cache Eviction)造成缓存抖动。


咱们将业务依照数据集的大小分成了 3 种,第一种是小文件,单个文件的大小在 1M 以下的。第二种是中大型数据数据量在几百 G 左右的,第三种是 T 级别大文件。
语音降噪场景

本次测试的模型是基于 Pytorch 框架搭建的 DLSE 模型,数据文件数在 50 万左右 , 数据总大小是 183 GB,采纳内存作为 Alluxio 的缓存介质。
本次试验采纳单机 10 卡的工作,基于 Pytorch 原生的 DDP 框架进行多卡的通信,比照测试了间接从分布式文件系统、从 Alluxio 缓存读取以及进行一轮预热之后再从 Alluxio 的试验。

通过第一轮的工夫能够看出,进行了 warmup 的缓存工作相比于间接从底层文件系统读取或者 Alluxio 的第一轮读取速度有了靠近 10 倍的提速。Alluxio 在第一轮训练的时候因为数据须要做元数据同步与缓存数据,因而在第一轮数据读取的时候缓存的劣势还体现不进去。然而当第二轮读取的时候,因为数据曾经全副落入缓存介质中,这时候考验的就是 Alluxio 自身的缓存命中率,通过下面的试验后果也能够看出,增速非常明显。

数据读取效率晋升之后,整体 GPU 利用率也失去了晋升,通过监控 GPU 的利用率发现采纳 WarmUp 的 Alluxio 缓存,GPU 的利用率根本稳固在 90% 左右,同时咱们看到数据缓存在内存中可能无效的升高底层存储的负载。

本次试验采纳基于 CRNN 的文字辨认模型,采纳 Pytorch 的框架进行模型的构建,数据源采纳的是自采集的 125GB 的图像数据,图像数据转换成了一个 lmdb 的大文件,咱们做了 3 个比照测试,间接从底层文件系统读取、从没有进行预热的 Alluxio 读取以及采纳进行了预热的 Alluxio 读取。

咱们发现采纳预热的 Alluxio 节点的 IO 带宽流量相比于间接从底层分布式存储读取从 1300Mb/s 降为根本为 0,对于咱们的平台收益是十分大的,在不减少底层存储硬件的状况下,这是最快而且绝对便宜的升高存储系统带宽应用的办法。

读取缓存绝对于间接读取底层存储计算节点 GPU 均匀使用率由 69.59% 晋升到 91.46%,表明打消 I/O 瓶颈能够进步大文件训练任务资源应用效率。

通过引入 Fluid + Alluxio 的新架构,平台获得了一系列的收益。

减速模型训练:通过上述的测试后果咱们看到对于工作的提速成果非常明显,可能间接利用本地存储的速度劣势防止因为网络传输与资源竞争,从而无效的减速模型训练过程中数据读取的耗时。

升高底层存储负载:新架构能够通过本地缓存分担底层存储系统的带宽与 IOPS 压力,大幅度缩小底层存储系统的负载,无效的进步了底层存储系统的可用性。

减少集群 GPU 利用率:通过高效的 IO 读取,打消用户程序数据读取的瓶颈,防止了 GPU 空转期待数据的景象,进步了 GPU 的利用率,从而进步了整个集群 GPU 使用率。

防止同节点 IO 竞争:新架构充沛解决了咱们晚期遇到的同节点 IO 资源竞争、存储系统存在带宽瓶颈以及模型的训练效率不高的痛点。

更加高效的缓存治理:采纳新架构以一种更加云原生的形式治理缓存,工程师从之前单纯将数据载内存到当初缓存转变成能够治理与监控的资源,Kubernetes 调度可能感知缓存,进行相应的策略调配,使得工作可能更加高效的运行。

Fluid + Alluxio 为咱们带来了很大的收益,目前咱们也跟社区严密继续单干中,后续咱们将在以下几个方面持续深入研究:

继续反馈测试后果与问题以及提供更丰盛的应用场景给社区,一直的迭代优化 Alluxio 的性能;

总结与测试更多的数据类型,提供参数调优实际反馈给社区;

减少 fluid 缓存智能化调度性能。

正文完
 0