关于人工智能:27版本发布丨Alluxio数据编排平台进一步深化对人工智能和机器学习工作负载在混合云和多云上的支持

3次阅读

共计 1516 个字符,预计需要花费 4 分钟才能阅读完成。


“Alluxio 2.7 版本进一步坚固了 Alluxio 在云上人工智能(AI)、机器学习和深度学习方面的重要位置,”Alluxio 创始人兼首席执行官李浩源示意。“随着数据集的增长以及 CPU 和 GPU 计算能力的加强,机器学习和深度学习已成为 AI 支流技术。这些技术的衰亡推动了 AI 的倒退,但也凸显了数据和存储系统拜访中存在的一些挑战。”

“咱们在 1000 个节点的集群中部署了 Alluxio,用来减速咱们游戏 AI 平台上模型训练的数据预处理。事实证明 Alluxio 稳固、可扩大且易于治理。”腾讯大数据平台研发负责人陈鹏示意。“随着越来越多的大数据和 AI 利用容器化,Alluxio 正在成为大型企业和机构的首选,作为减速数据分析和模型训练的中间层。”为了达到这一指标,腾讯 Alluxio OTeam 的毛宝龙团队与社区严密单干,奉献了一系列重要的性能,包含运行期动静更新配置、CephFS 存储反对,修复了超过二十个 bug 并减少了二十余个零碎指标。

“领有大规模剖析和 AI/ML 计算框架的数据团队面临着越来越大的压力,须要让日益增长的数据源更易于拜访,同时确保性能的稳固,这须要同时思考数据本地性、网络 I / O 和老本问题,”ESG 分析师 Mike Leone 示意。“企业和机构心愿选用更实惠和可扩大的存储,如云对象存储,同时防止低廉的利用程序修改或解决新的性能问题。Alluxio 通过形象存储细节并使数据更靠近计算侧来应答这些挑战,尤其是在混合云和多云环境中。”

Alluxio 2.7 版本新增了以下性能:

NVIDIA 的数据加载库 (DALI) 是一个罕用的 Python 库,反对通过 CPU 和 GPU 进行数据加载和预处理从而减速深度学习。在 2.7 版本中,Alluxio 平台进行了优化,能够与 DALI 一起部署用于减速基于 Python 的 ML 利用,其中包含模型训练和推理之前的数据加载和预处理步骤。通过减速 I / O 密集型工作并容许并行处理后续的计算密集型训练,Alluxio 数据平台上的端到端训练与传统解决方案相比实现了显著的性能晋升。对于海量小文件的训练,与其余解决方案相比,该解决方案能够实现横向扩大(scale-out)。

Alluxio 的外围定位是数据管理能力,这些能力包含对扩散的数据源进行对立和实现缓存。随着 Alluxio 越来越多地用于计算和存储跨多个地理位置的场景,Alluxio 本身也在一直扩大。本次更新采纳新技术对数据进行批处理,从而加强其可扩展性。批处理通过应用内置执行引擎解决数据加载等工作,缩小了治理控制器对资源的需要,从而缩小了系统配置的工作量,升高了老本。

Alluxio 当初反对用于 Kubernetes 的原生容器存储接口 (CSI) 驱动,以及用于 ML 的 Kubernetes operator,这使得在容器化环境中的 Alluxio 平台上操作 ML 工作流比以往任何时候都更加容易。Alluxio 的卷类型当初可用于 Kubernetes 环境。敏捷性和易用性是本次新版本关注的重点。

新版本还推出了智能缓存新性能,名为 Shadow Cache,可能动态分析缓存大小对响应速度的影响,从而轻松实现高性能和低成本之间的均衡。对于大规模的多租户 Presto 环境,此新性能通过自助治理显著升高了治理开销。

“在存储与 ML 计算拆散的状况下,数据平台团队利用 Alluxio 来简化数据预处理和加载阶段,”Alluxio 高级产品经理 Adit Madan 示意,“这种简化使得 Spark ML、Tensorflow 和 PyTorch 等框架能最大限度地利用 GPU。Alluxio 解决方案可在 AWS、GCP 和 Azure Cloud 等多个云平台上应用,当初也可在公有数据中心或私有云中的 Kubernetes 上应用。”

正文完
 0