关于深度学习:龙蜥社区成立DeepRec-SIG开源大规模稀疏模型深度学习引擎

44次阅读

共计 2517 个字符,预计需要花费 7 分钟才能阅读完成。

龙蜥社区(OpenAnolis)(以下简称“龙蜥社区”)正式成立 DeepRec SIG,将携手龙蜥社区开发者一道,致力于保护 Anolis OS 上的 DeepRec 组件,并将稠密模型深度学习引擎引入龙蜥社区。

稠密模型是指在模型构造中离散特色计算逻辑占比拟高的一类深度学习模型的统称,其广泛应用于搜寻、广告、举荐等高价值业务中。当下支流开源深度学习框架,对稠密模型的反对有余。国内外公司在稠密场景应用的计划在系统性和全面性上存在着问题,技术复用上的难度导致无奈大面积推广,制约了不同场景下稠密模型的摸索和倒退。

DeepRec SIG 作为负责龙蜥操作系统上 DeepRec 相干开源软件包的保护,构建搜寻、举荐、广告场景模型的训练及预测生态的利器,现做如下介绍:

DeepRec 介绍

DeepRec(PAI-TF)是阿里巴巴团体对立的大规模稠密模型训练 / 预测引擎,广泛应用于淘宝、天猫、阿里妈妈、高德、淘特、AliExpress、Lazada 等,反对了淘宝搜寻、举荐、广告等外围业务,撑持着千亿特色、万亿样本的超大规模稠密训练。
DeepRec 在分布式、图优化、算子、Runtime 等方面对稠密模型进行了深度性能优化,同时提供了稠密场景下特有的 Embedding 相干性能。

DeepRec 的劣势

DeepRec 是基于 TensorFlow1.15、Intel-TF、NV-TF 构建的稠密模型训练 / 预测引擎,针对稠密模型场景进行了定制深度优化,次要蕴含以下三类性能优化:

1、模型成果

DeepRec 提供了丰盛的稠密性能反对,进步模型成果的同时升高稠密模型的大小,并且优化超大规模 下 Optimizer 的成果。
DeepRec 提供了动静弹性特色、动静弹性维度、自适应弹性特色、多 Hash Embedding、Embedding 多级混合存储、AdamAsyncOptimizer 等性能,在内存占用、性能、模型成果等方面为业务带来理论的帮忙。

2、训练性能

DeepRec 针对稠密模型场景在分布式、图优化、算子、Runtime 等方面进行了深度性能优化。其中:

  • DeepRec 对不同的分布式策略进行了深度的优化,包含异步训练、同步训练、半同步训练等
  • DeepRec 提供了丰盛的针对稠密模型训练的图优化性能,包含主动流水线 SmartStage、结构化特色、主动图 Fusion 等等
  • DeepRec 中优化了稠密模型中数十个常见算子,并且提供了包含 Embedding、Attention 等通用子图的 Fusion 算子
  • DeepRec 中 CPUAllocator 和 GPUAllocator 可能大大降低内存 / 显存的使用量并显著减速 E2E 的训练性能。在线程调度、执行引擎方面针对不同的场景提供了不同的调度引擎策略

3、部署及 Serving

针对搜寻、举荐、广告场景中特有的部署和 Serving 的特点,DeepRec 反对 Online Deep Learning 的残缺链路,包含增量模型的导出、加载,Serving 的模型主动发现等。DeepRec 中反对 Embedding 多级混合存储,使得单机进行超大模型预测时防止分布式 Serving 带来的 latency 增大问题,进步大模型的预测性能的同时降低成本。

SIG 布局

DeepRec 打算每隔 1-2 个月进行版本更新,后续公布的重点性能包含:

Serving:开源残缺的 Online Deep Learning(ODL),并继续优化 DeepRec 的 Serving 性能。

Embedding:优化各个 Embedding 性能的可用性,提供 Embedding 的各种调试工具,并继续优化 Embedding 多级混合存储的性能。

Runtime:提供对立的调度框架,优化多场景下任务调度的性能。继续优化内存、显存、长久化内存分配器性能,并针对不同调配场景提供不同的内存分配器。

分布式:继续优化异步训练、同步训练、半同步训练的性能。

硬件及算子减速:联合编译优化、手动优化等伎俩优化计算性能;针对新的硬件进行继续优化,协同硬件团队推动新型硬件在 DeepRec 落地。

此外 DeepRec 正在和内核团队单干,针对稠密模型的训练 / 预测工作的特点,在内核调度、内存治理上进行针对性的优化。

龙蜥社区心愿通过这个开放平台,和内部开发者发展宽泛单干,进一步推动稠密模型训练 / 预测框架的倒退,为不同业务场景中的搜推广模型训练和预测带来业务成果和性能晋升。

明天 DeepRec 的开源只是咱们迈出的一小步。咱们十分期待失去您的反馈。最初,如果你对 DeepRec 感兴趣,欢送你退出咱们一起共建(文末扫描钉钉入群交换),为咱们的框架奉献一点你的代码和意见,这将是咱们莫大的荣幸。

欢送更多开发者退出 DeepRec SIG:

网址:https://openanolis.cn/sig/dee…

邮件列表:deeprec@lists.openanolis.cn

—— 完 ——

退出龙蜥社群

退出微信群:增加社区助理 - 龙蜥社区小龙(微信:openanolis_assis),备注【龙蜥】与你同在;退出钉钉群:扫描下方钉钉群二维码。欢送开发者 / 用户退出龙蜥社区(OpenAnolis)交换,独特推动龙蜥社区的倒退,一起打造一个沉闷的、衰弱的开源操作系统生态!


对于龙蜥社区

龙蜥社区(OpenAnolis)是由企事业单位、高等院校、科研单位、非营利性组织、集体等在被迫、平等、开源、合作的根底上组成的非盈利性开源社区。龙蜥社区成立于 2020 年 9 月,旨在构建一个开源、中立、凋谢的 Linux 上游发行版社区及翻新平台。

龙蜥社区成立的短期指标是开发龙蜥操作系统 (Anolis OS) 作为 CentOS 停服后的应答计划,构建一个兼容国内 Linux 支流厂商的社区发行版。中长期指标是摸索打造一个面向未来的操作系统,建设对立的开源操作系统生态,孵化翻新开源我的项目,凋敝开源生态。

目前,龙蜥 OS 8.4 已公布,反对 X86_64、Arm64、LoongArch 架构,欠缺适配飞腾、海光、兆芯、鲲鹏、龙芯等芯片,并提供全栈国密反对。

欢送下载:

https://openanolis.cn/download

退出咱们,一起打造面向未来的开源操作系统!

https://openanolis.cn

正文完
 0