关于gpu:阿里云神龙AI加速引擎帮助vivo将训练性能提升3070

2次阅读

共计 1240 个字符,预计需要花费 4 分钟才能阅读完成。

公司简介

vivo 是专一于智能手机畛域的国际化品牌,vivo 谋求乐趣、充满活力、业余音质、极致影像、愉悦体验的智能产品,并将敢于谋求极致、继续发明惊喜作为 vivo 的动摇谋求。2014 年 vivo 品牌的国际化之路全面开启,除中国大陆市场外,vivo 进驻的海内市场蕴含印度、泰国、缅甸、马来西亚、印度尼西亚、越南和菲律宾。

业务痛点

  1. GPU 利用率不高,资源节约显著:VIVO 客户的业务场景中应用的是大规模多模态模型。对该类模型进行分布式训练时,通常应用单步更新的训练模式,即每一次单步训练之后都会进行一次梯度通信,这样会导致短时间内呈现大量的通信申请,造成很大的通信压力。同时,该模型的参数量较大,每次梯度通信的通信量与模型参数量成正比,这进一步的减少了通信压力。另外,该模型的训练过程中也没有对计算和通信进行工夫上的重叠,这也显著的导致了训练过程中的通信时长的减少。整个分布式训练过程中大量的工夫被梯度通信占据,GPU 的计算资源在大多数工夫处于期待状态,无奈完满发挥作用。
  2. 训练工夫长,业务模型迭代周期太长:客户业务模型的更新频率很高,每次模型迭代期间不仅要进行模型的分布式训练,还要进行测试,上线等流程。在这个迭代周期内,分布式训练占据了大量的工夫,导致其它流程不得不精简以保障迭代周期,这也使得客户的业务团队承当不小的压力。

解决方案

对大规模多模态模型进行分布式训练时,因为通信压力微小,相比于单机训练,多机训练取得的性能增益并不多,在双机场景下甚至察看到性能的负增长。于是,阿里云的神龙 AI 减速引擎 AIACC 团队,针对 VIVO 的场景,在底层针对通信、计算、时延和带宽等做了深度优化。因为客户训练集群的网络情况有可能发生变化,AIACC 团队采纳了自适应优化策略,可能实时的依据网络情况对通信优化策略进行调整,从而大大晋升了 GPU 的利用率。
在多种简单的网络条件下,将大规模多模态模型的训练性能晋升了 30%-70%。AIACC 团队帮助 VIVO 客户大大的缩短了的模型训练工夫,减速了模型迭代,助力业务模型疾速上线。

业务价值

  1. 在多种简单的网络条件下,将大规模多模态模型的训练性能晋升了 30%~70%。
  2. 缩短了客户业务模型的迭代周期,为客户的业务团队加重了压力。

相干产品

神龙 AI 减速引擎

神龙 AI 减速引擎是 AIACC 业界首个对立减速 Tensorflow、MXNet、Caffe、PyTorch 等支流深度学习框架的减速引擎,拿下斯坦福深度学习榜单 Dawnbench 图像识别四个世界第一。
更多对于神龙 AI 减速引擎的介绍,参见神龙 AI 减速引擎帮忙文档。

GPU 云服务器

GPU 云服务器(GPU Cloud Computing,GPU)是提供 GPU 算力的弹性计算服务,具备超强的计算能力,服务于深度学习、科学计算、图形可视化、视频解决多种利用场景。阿里云作为亚洲第一的云服务提供商,随时为您提供触手可得的算力,无效缓解计算压力,晋升您的业务效率,助您进步企业竞争力。

更多对于 GPU 服务器的介绍,参见 GPU 服务器产品详情页。

正文完
 0