共计 2650 个字符,预计需要花费 7 分钟才能阅读完成。
云知声,是一家专一物联网人工智能服务公司。云知声的 AI 技术栈涵盖了信号、语音、图像、文本的感知和表达能力,常识、了解、剖析、决策等认知技术,并朝着多模态人工智能零碎方向倒退。云知声 Atlas 超算平台作为底层基础架构,反对着公司在 AI 各个领域的模型训练与推理服务的发展。云知声很早就开始布局建设业界当先的 GPU/CPU 异构 Atlas 计算平台和分布式文件存储系统,该计算集群可为 AI 计算提供高性能计算和海量数据的存储拜访能力。云知声团队基于 Kubernetes 开源架构之上,进行了相应的外围性能研发,胜利构建了浮点解决能力超过 10 PFLOPS(一亿亿次/秒)的 AI 超级计算服务平台。该平台反对支流机器学习架构,开发者可能实现语音、语言、大数据、多模态等核心技术的高效研发。平台也凋谢了相应的算力与存储,为中小微企业和院校机构提供定制化计算服务。
Atlas 计算平台采纳是计算与存储拆散的架构,目前整个平台的存储服务器、计算服务器之间以及计算与存储服务器之间的底层网络架构是由 100GB 的 InfiniBand 进行互联。
计算平台的模型训练数据存储系统由多套 PB 量级的高性能分布式文件系统 Lustre 组成。Lustre 分布式文件系统兼容 POSIX 接口,多种深度学习框架可能间接进行数据读取。计算与存储拆散的架构使计算跟存储可能独立进行扩容,整体架构较为灵便。然而之前平台也遇到了数据拜访效率低与底层存储带宽瓶颈等问题:
存储带宽瓶颈
在存储资源绝对固定的状况下,随着平台用户的减少,其带宽、元数据负载以及服务器的负载都出现进去较大的回升。集群存在多个单机工作运行在同一个 GPU 节点,造成 IO 资源的竞争,因为 IO 的竞争导致了整个训练周期拉长了,大大降低了研发影响效率。
海量小文件
第二个问题是模型训练数据集自身的特点问题。在降噪场景中有用户的工作存在靠近 TB 量级的小文件,导致底层分布式文件系统的的元数据服务压力很大。大量的小文件使得程序自身读数据的效率较低,数据读取迟缓造成 GPU 大部分工夫在等数据,整体 GPU 的整体利用率较低,缩短了模型的训练周期。
数据品种多
因为平台反对的业务类型较广,用户的数据类型较多,文件大小类型也不同,很难通过调优一套存储的参数来适配多种业务类型。联合用户的业务类型剖析,咱们发现平台数据次要还是用来做模型训练占的比重比拟大,其余部分次要进行模型的推理与 CPU 密集型数据生成工作。
数据冗余
在平台中存在数据集重叠的问题,同一个组内或者不同组有应用到雷同的数据集,然而却存储了多份,造成了存储空间的节约。
如何通过最小的估算与架构改变来应答存储总带宽的瓶颈以及缩小元数据服务器的压力,云知声 Atlas 也进行一系列的摸索与研发。
带宽限度
思考到大量的并发读取会造成存储带宽达到极限,造成存储卡顿或者存储系统瘫痪。平台通过限度每个计算节点的客户端带宽以及每个用户的 UID/GID 限度带宽,然而该办法存在不够灵便、没方法充分利用 GPU 的计算能力的问题,当有 2 个大 IO 的训练任务分配到了同一个节点,因为节点的带宽限度,2 个训练任务的 IO 都有下限,数据读取的速度限制导致 GPU 没方法充分发挥并行读取的劣势,通过监控发现该类型的 GPU 利用率在 40% 左右,重大节约了硬件资源。
聚合大文件
思考到平台的小文件太多,会对元数据造成较大的压力,咱们进行了相应的措施,首先通过检测每个用户的 inode 数量与存储总量判断用户的小文件数量,限度用户小文件的数量。第二是推广一系列数据聚合的工具,让用户将小文件聚合成 lmdb、tfrecord 之类的大文件格式。
任务调度器重构
为了防止工作都汇集在同一个节点上,咱们通过定制任务调度器插件,减少调度策略,判断节点的计算资源的应用状况,优先将任务调度到闲暇节点,防止多个工作跑在同一个节点造成的 IO 竞争,然而该计划在平台的计算资源呈现满载的状况下还是不可避免。
多级缓存
为了充分利用闲暇的硬件以及加重底层存储系统的压力,在最晚期平台研发了第一版本的缓存计划作做为过渡。该办法可能肯定水平缓解存储的压力,然而其对于数据的治理还是不够自动化, 这只能作为咱们过渡到新架构的一个长期代替解决的计划。
云知声在 2020 年开始调研 Alluxio 并进行了一系列的测试,包含性能的适配与性能测试等,发现 Alluxio 可能满足目前云知声需要,可能较为疾速并且以较低的老本解决咱们存在的几个痛点:
Alluxio Fuse 提供了 POSIX 文件系统接口,用户可能无缝的应用分布式缓存,程序无需做更改;
Alluxio 反对对多种文件系统的反对,包含分布式文件系统、对象存储等,当咱们平台后续引入新的存储,Alluxio 缓存都能很好的进行反对,保障咱们整个缓存架构的稳定性;
Alluxio 提供较好的缓存治理,Alluxio 的层次化存储机制可能充分利用内存、固态硬盘或者磁盘,升高具备弹性扩张个性的数据驱动型利用的老本开销;
反对以 Kubernetes 或者容器的形式部署到平台中,与现有的技术栈较为统一;
Alluxio 提供了 HA 反对,保障了分布式缓存零碎的高可用性
相比早前的计算与存储拆散的架构,Alluxio 在计算与存储之间引入一层 Cache 层,将底层存储的压力转移到各个计算节点的内存或者本地硬盘中,用户的工作能享受本地存储带来的速度晋升劣势,整个平台可能兼容分布式文件系统与本地硬盘两者的劣势。
在应用 Alluxio 进行业务端整合时,咱们遇到了权限管制、以及数据挂载等问题。Fluid 提供了一种更加云原生的形式来应用 Alluxio, 其提供了一种全新的数据集治理形式,缓存数据集跟云原生的资源一样,可能被 kubernetes 进行相应的调配与调度,无效的解决晚期缓存与 kubernetes 应用形式独立的问题。
最终咱们的架构是应用 Alluxio 作为 Fluid 的缓存减速引擎,其负责做底层分布式文件系统到计算节点本地缓存介质的数据迁徙以及缓存的治理,为平台的应用程序提供了数据减速的性能。而 Fluid 负责缓存与利用的编排,基于 Fluid,平台可能感知缓存,将之前须要很多人工的缓存操作,转移到平台层智能化解决。
引入新架构后,咱们在自研的模型训练任务提交工具 atlasctl 将 fluid 性能进行集成,尽可能的为用户屏蔽一些简单的概念,用户通过 atlasctl cache create 并指定增加一些参数信息例如缓存的大小,缓存介质等即可创立缓存数据集。该工具的集成为用户屏蔽了负载的缓存机制信息,让他们更加关注与数据与业务自身。
未完待续