“Alluxio 2.7版本进一步坚固了Alluxio在云上人工智能(AI)、机器学习和深度学习方面的重要位置,”Alluxio创始人兼首席执行官李浩源示意。“随着数据集的增长以及CPU和GPU计算能力的加强,机器学习和深度学习已成为AI支流技术。这些技术的衰亡推动了AI的倒退,但也凸显了数据和存储系统拜访中存在的一些挑战。”

“咱们在1000个节点的集群中部署了Alluxio,用来减速咱们游戏AI平台上模型训练的数据预处理。事实证明Alluxio稳固、可扩大且易于治理。”腾讯大数据平台研发负责人陈鹏示意。“随着越来越多的大数据和AI利用容器化,Alluxio正在成为大型企业和机构的首选,作为减速数据分析和模型训练的中间层。”为了达到这一指标,腾讯Alluxio OTeam的毛宝龙团队与社区严密单干,奉献了一系列重要的性能,包含运行期动静更新配置、CephFS存储反对,修复了超过二十个bug并减少了二十余个零碎指标。

“领有大规模剖析和AI/ML计算框架的数据团队面临着越来越大的压力,须要让日益增长的数据源更易于拜访,同时确保性能的稳固,这须要同时思考数据本地性、网络I/O和老本问题,”ESG分析师 Mike Leone示意。“企业和机构心愿选用更实惠和可扩大的存储,如云对象存储,同时防止低廉的利用程序修改或解决新的性能问题。Alluxio通过形象存储细节并使数据更靠近计算侧来应答这些挑战,尤其是在混合云和多云环境中。”

Alluxio 2.7 版本新增了以下性能:

NVIDIA的数据加载库(DALI)是一个罕用的Python库,反对通过CPU和GPU进行数据加载和预处理从而减速深度学习。在2.7版本中,Alluxio平台进行了优化,能够与DALI一起部署用于减速基于Python的ML利用,其中包含模型训练和推理之前的数据加载和预处理步骤。通过减速I/O密集型工作并容许并行处理后续的计算密集型训练,Alluxio数据平台上的端到端训练与传统解决方案相比实现了显著的性能晋升。对于海量小文件的训练,与其余解决方案相比,该解决方案能够实现横向扩大(scale-out)。

Alluxio的外围定位是数据管理能力,这些能力包含对扩散的数据源进行对立和实现缓存。随着Alluxio越来越多地用于计算和存储跨多个地理位置的场景,Alluxio本身也在一直扩大。本次更新采纳新技术对数据进行批处理,从而加强其可扩展性。批处理通过应用内置执行引擎解决数据加载等工作,缩小了治理控制器对资源的需要,从而缩小了系统配置的工作量,升高了老本。

Alluxio当初反对用于Kubernetes的原生容器存储接口(CSI)驱动,以及用于ML的Kubernetes operator,这使得在容器化环境中的 Alluxio平台上操作 ML工作流比以往任何时候都更加容易。Alluxio的卷类型当初可用于 Kubernetes 环境。敏捷性和易用性是本次新版本关注的重点。

新版本还推出了智能缓存新性能,名为Shadow Cache,可能动态分析缓存大小对响应速度的影响,从而轻松实现高性能和低成本之间的均衡。对于大规模的多租户Presto环境,此新性能通过自助治理显著升高了治理开销。

“在存储与ML计算拆散的状况下,数据平台团队利用 Alluxio 来简化数据预处理和加载阶段,”Alluxio高级产品经理 Adit Madan示意,“这种简化使得Spark ML、Tensorflow 和 PyTorch 等框架能最大限度地利用GPU。Alluxio 解决方案可在 AWS、GCP 和 Azure Cloud 等多个云平台上应用,当初也可在公有数据中心或私有云中的 Kubernetes上应用。”