关于ai开发:开源之夏-2023欢迎报名-DLRover-社区项目

39次阅读

共计 1867 个字符,预计需要花费 5 分钟才能阅读完成。

开源之夏是由“开源软件供应链点亮打算”发动并长期反对的一项暑期开源流动,旨在激励在校学生积极参与开源软件的开发保护,促成优良开源软件社区的蓬勃发展,造就和挖掘更多优良的开发者。

流动联结国内外各大开源社区,针对重要开源软件的开发与保护提供我的项目工作,并面向寰球高校学生凋谢报名。

2023 年,DLRover 社区 退出中国科学院软件研究所的高校开源流动——“开源之夏 2023”,一共为大家筹备了四个工作,波及 AI、Python、Linux、Kubernetes、Deep learning、Docker、Algorithm 等多个畛域。

DLRover 我的项目介绍

DLRover (Distributed Deep Learning System) 是蚂蚁团体 AI Infra 团队保护的开源社区,是基于云原生技术打造的主动分布式深度学习零碎。DLRover 使得开发人员可能专一于模型架构的设计,而无需解决任何工程方面的细节,例如硬件加速和分布式运行等。目前,DLRover 反对应用 K8s、Ray 进行自动化操作和保护深度学习训练任务。

流动规定

开源之夏官网:

https://summer-ospp.ac.cn/

各位同学能够自由选择我的项目,与社区导师沟通实现计划并撰写我的项目计划书。被选中的学生将在社区导师领导下,按计划实现开发工作,并将成绩奉献给社区。社区评估学生的完成度,主办方依据评估后果发放赞助金额给学生。

DLRover 社区我的项目

我的项目链接:https://m.summer-ospp.ac.cn/org/orgdetail/3dd008dd-3875-4ee1-bd2c-016202e58f86

我的项目社区导师:长凡

mailto:qinlong.wql@antgroup.com

数据并行同步训练主动资源配置算法

项目编号:233dd0048

我的项目难度:根底 /Basic

在同步数据并行训练中,每个 Worker 计算一个 Micro Batch 后会和其余 Worker 通过 Allreduce 同步梯度,而后更新模型参数。Worker 数量会影响 Batch Size 和通信开销。Batch Size 会继而影响模型精度,而通信开销会影响训练吞吐,因而如何为模型寻找适合的 Worker 数量来晋升训练吞吐和精度是比拟难的。现阶段用户须要重复提交作业来寻找最优的配置。DLRover 当初反对数据并行的弹性训练,能够在训练过程中扭转 Worker 数量,从而寻找最优的数量配置。

  • 须要输入代码、文档、实验报告。
  • 须要纯熟应用 Kubernetes、Python。

我的项目社区导师:玄钛

mailto:hanxudong.hxd@antgroup.com

反对 TorchRec 的弹性容错

项目编号:233dd0049

我的项目难度:根底 /Basic

TorchRec 是 PyTorch 反对大规模举荐模型的框架,其训练采纳同步的模型并行加数据并行训练。咱们在星散群上提交 TorchRec 的分布式训练作业时,须要思考容错和弹性。目前,DLRover 实现了数据并行训练和节点的容错与弹性调度,反对了 PyTorch 的 DDP。对于 DeepRec 模型并行训练,节点出错后须要思考两种形式:节点从新拉起来复原训练;节点资源被抢占,须要更新设施上的模型分片。

  • 须要输入代码、文档、实验报告。
  • 须要纯熟应用 Kubernetes、Python、PyTorch。

我的项目社区导师:旧客

mailto:b.sang@antgroup.com

反对 Zero Redundancy Optimizer 分布式训练的弹性容错

项目编号:233dd0050

我的项目难度:根底 /Basic

为了升高大模型数据并行训练时,单个节点的内存需要,Zero Redundancy Optimizer 将模型和优化期状态切分到多个 Worker 节点上,每个 Worker 并不再领有残缺的模型。这种状况下如何实现弹性容错相比简略的数据并行难点更大。在导出 Check Point 时候,每个 Worker 都要参加,在 Worker 数量变动后,模型和优化器的状态分片须要依据以后 Worker 数量进行调整。

  • 须要输入代码、文档、实验报告。
  • 须要纯熟应用 Kubernetes、Python、PyTorch。

申请资格

  • 本流动面向年满 18 周岁在校学生。
  • 暑期行将毕业的学生,只有在申请时学生证处在有效期内,就能够提交申请。
  • 中国籍学生参加流动需提供身份证、学生证、教育部学籍在线验证报告(学信网)或在读证实。
  • 外籍学生参加流动需提供护照,同时提供录取通知书、学生卡、在读证实等文件用于证实学生身份。

流动流程

正文完
 0