关于人工智能:分布式人工智能系统讲习班开始报名｜CCF-ADL

深度学习正以“软件 2.0”的姿势进入到 AIGC、生物制药、新资料以及科学计算等畛域。这些畛域的模型规模越来越大，尤其以 ChatGPT 为代表的大模型层出不穷，但因为算力增速有余、分布式编程门槛高，分布式人工智能零碎成为产学两界独特关注的焦点。

CCF 学科前沿讲习班

The CCF Advanced Disciplines Lectures
CCFADL 第 136 期
主题 分布式人工智能零碎
2023 年 5 月 19 日~21 日北京

本期 CCF 学科前沿讲习班 ADL136《分布式人工智能零碎》，将对分布式人工智能零碎的最新进展进行深入浅出的解说，从 AI 大模型、零碎架构、软件工程、行业利用，以及用户和开发者的不同视角为听众介绍分布式人工智能零碎的关键技术和前沿钻研。置信学员通过本次讲习班，可能深刻理解分布式人工智能零碎的技术详情、次要挑战和将来演进趋势，宽阔科研视线，加强实际能力。

本期 ADL 讲习班邀请了 6 位来自国内外驰名高校与企业科研机构沉闷在前沿畛域的专家学者做主题报告。中国科学技术大学计算机学院 / 国家高性能计算中心（合肥）李诚副教授将介绍大模型分布式并行训练；爱丁堡大学助理传授麦络将解读如何设计高效的大规模机器学习零碎；阿里巴巴 PAI Research Lab 负责人刁岚松将探讨 AI 大模型主动分布式系统开发的底层逻辑；微软亚洲研究院高级研发工程师高彦杰将介绍如何构建更鲁棒、高效和可调试的深度学习开发与零碎；潞晨科技 CTO 卞正达将分享低成本训练 AI 大模型的挑战与实际；光年之外联结创始人袁进辉将基于 OneFlow 探讨从新思考分布式深度学习框架的设计。通过他们的教学，旨在率领学员实现分布式人工智能零碎从根底技术，到前沿科研动静，再到典型利用场景的深刻学习与思考。

学术主任：陈文光清华大学 / 袁进辉光年之外

主办单位：中国计算机学会

本期 ADL 主题《分布式人工智能零碎》由清华大学传授陈文光和光年之外联结创始人袁进辉博士负责学术主任，邀请到李诚（中国科大计算机学院 / 国家高性能计算中心（合肥））、麦络（爱丁堡大学助理传授）、刁岚松（阿里巴巴 PAI Research Lab 负责人）、高彦杰（微软亚洲研究院高级研发工程师）、卞正达（潞晨科技 CTO）做专题讲座。

流动日程：

具体日程将在会前通过邮件告诉给参会者。

2023 年 5 月 19 日（周五）

专题讲座 1: 大模型分布式并行训练

李诚，副教授，中国科大计算机学院 / 国家高性能计算中心（合肥）

专题讲座 2：设计高效的大规模机器学习零碎

麦络，助理传授，爱丁堡大学

2023 年 5 月 20 日（周六）

专题讲座 3: 探索 AI 大模型主动分布式系统开发的底层逻辑

刁岚松，PAI Research Lab 负责人，阿里巴巴

专题讲座 4: 构建更鲁棒、高效和可调试的深度学习开发与零碎

高彦杰，高级研发工程师，微软亚洲研究院

2023 年 5 月 21 日（周日）

专题讲座 5: 低成本训练 AI 大模型的挑战与实际

卞正达，CTO，潞晨科技

专题讲座 6: OneFlow：从新思考分布式深度学习框架的设计

袁进辉，联结创始人，光年之外

特邀讲者：

李诚

副教授，中科大计算机学院 / 国家高性能计算中心（合肥）

讲者简介：李诚，德国马普学会软件系统所 (MPI-SWS) 博士，中国科大计算机学院 / 国家高性能计算中心（合肥）副教授，博导，FCS、CCF THPC 期刊青年编委。聚焦交融高性能计算根底系统软件钻研，在 SOSP、OSDI、EuroSys、ATC、FAST、ASPLOS、SC、HPCA 等计算机系统畛域驰名国内会议上发表论文 40 余篇。2019 年入选 ACM FCA 成员。曾负责第 14 届 / 第 21 届 ChinaSys 程序独特主席、SOSP 2017 学术海报程序独特主席、EuroSys 2021/ACM SIGMETRICS 2023 论文出版独特主席、首届 CCF 计算机系统大会 / 芯片大会宣传主席等，长期参加 SOSP、FAST、Middleware、DSN、ICDCS、SRDS 等零碎畛域驰名国内会议的程序委员会。获 2022 AI 2000 Most Influential Scholar Honorable Mention in Computer Systems、2022 年 CCF 分布式专委杰出青年学者、2021 年 ACM ChinaSys 新星、2021 年 ACM 中国新星提名等科研奖项。主讲《编译原理和技术》课程入选第二批国家级线下一流课程，获安徽省第五届青教赛工科组一等奖、第四届中国计算机教育大会计算机类教学资源建设特等奖（2 项）、全国高校教学翻新大赛安徽省二等奖等教学奖项。

报告题目：大模型分布式并行训练

报告摘要：随着摩尔定律的生效，人工智能和大数据等新兴利用对高性能解决需要的一直减少，计算机系统的设计与部署越来越多地从单机单处理器向多机多处理器的并行与分布式模态演变。并行与分布式系统逐步倒退成为促成互联网、云计算、大数据、人工智能等方向翻新交融的次要撑持技术。然而，以深度学习为代表的新型并行与分布式计算面临重大的“数据墙问题”。随着模型规模的增大、模型构造的复杂化、训练数据体量的一直累积，数据交互已成为分布式并行训练最次要的性能瓶颈。李诚老师的科研工作以新场景和新硬件为驱动，解决异构并行、分布式计算中面临的数据搬运和同步瓶颈，成绩被工业宽泛关注。本报告将以超大规模深度神经网络模型的并行训练为例，介绍最新的科研成果及对将来技术趋势的思考。

麦络

助理传授，爱丁堡大学

讲者简介：麦络，2020 年 7 月退出爱丁堡大学信息学院负责助理传授，领导大规模机器学习零碎实验室。其钻研趣味包含计算机系统、机器学习和数据管理。麦络参加设计多个开源机器学习零碎，包含 Quiver, KungFu 和 TensorLayer 等。其科研成果发表在出名国内会议，包含 OSDI，NSDI，USENIX ATC 和 VLDB。麦络于 2018 年在帝国理工学院取得博士学位，博士期间取得谷歌奖学金赞助。2018-2020 年间，麦络在帝国理工学院负责博士后研究员，同时在微软研究院负责拜访研究员。

报告题目：设计高效的大规模机器学习零碎

报告摘要：在 AI 时代，咱们须要大规模机器学习零碎来实现各类 AI 模型的训练和部署。然而，现有零碎无奈充沛了解 AI 模型独特的数据拜访特色，同时也没有充分利用 AI 服务器上的 GPU-NUMA 架构。因而，时至今日，大规模机器学习仍然须要消耗大量低廉的硬件资源。在本次演讲中，咱们将介绍两个高效的大规模机器学习零碎，Ekko 和 Quiver，它们别离利用 AI 模型的数据拜访个性和 GPU-NUMA 架构来实现了高效的模型训练和推理。Ekko 和 Quiver 都曾经被当先的 AI 实践者采纳，并每天惠及数亿用户。

刁岚松

PAI Research Lab 负责人，阿里巴巴

讲者简介：刁岚松于 2003 年从北京理工大学取得博士学位。博士期间的研究课题是硬件描述语言高层次综合技术。毕业后退出 Cadence 北京研发核心，从事 spice 仿真工具的研发。之后于 2008 年退出北京飘石科技有限公司，主持开发了国内首套商用 RTL 综合工具。起初在 2017 年退出阿里巴巴 PAI 团队。晚期参加开发了 FPGA CNN 加速器软硬件零碎。而后主持开发了 AI 大模型主动分布式系统 TePDist。

报告题目：探索 AI 大模型主动分布式系统开发的底层逻辑

报告摘要：随着 ChatGPT 的大热，以 GPT3/GPT4 为代表的大模型的训练技术最近也受到越来越多人的关注。阿里巴巴 PAI 团队在大模型训练技术上长期投入，通过多年积攒，开发了全自动分布式系统 TePDist。工业界、学术界曾经开发过多款大模型分布式系统，PAI 团队开发的 TePDist 有什么不同？刁岚松博士将介绍 TePDist 的零碎架构，并分析 TePDist 的分布式策略摸索算法，介绍算法抉择背地的底层逻辑。同时，他还将剖析分布式策略摸索依然面临的挑战，以及可能的解决办法。

高彦杰

高级研发工程师，微软亚洲研究院

讲者简介：微软亚洲研究院高级研发工程师。钻研趣味为深度学习平台工具和大数据系统的鲁棒性，效率与可调试性，积极参与人工智能零碎教育。其中多项工作发表在驰名零碎与软件工程会议 ICSE，ESEC/FSE，SoCC，并出版多部技术图书。

报告题目：构建更鲁棒、高效和可调试的深度学习开发与零碎

报告摘要：近年来人工智能特地是深度学习与大语言模型技术失去了飞速发展，这背地离不开计算机硬件和软件系统的不断进步。在可见的将来，人工智能技术的倒退仍将依赖于计算机系统和人工智能相结合的独特翻新模式。然而咱们察看到深度学习开发的生命周期中面临大量的程序缺点，硬件与服务故障，造成大量作业难以稳固与高效实现执行，影响生产力和造成资源节约。在本次报告里，咱们将介绍对于深度学习程序缺点，AI 平台品质问题的实证钻研，以及如何通过人工智能工具和零碎设计缓解与躲避相应的缺点，故障，让深度学习作业和零碎更加稳固与高效的执行。

卞正达

CTO，潞晨科技

讲者简介：潞晨科技 CTO，新加坡国立大学、西安交通大学硕士，对大规模深度学习和分布式计算有深入研究，Colossal-AI 次要贡献者之一，曾在 SC、TON 等顶级会议期刊上发表一作论文。

报告题目：低成本训练 AI 大模型的挑战与实际

报告摘要：AI 模型在几年内已增大万倍，远超硬件能力数倍的增长，如何高效利用分布式技术实现 AI 大模型的并行训练减速已成为行业要害痛点。在本次报告中，我将与大家介绍面向 AI 大模型时代的通用开发零碎 Colossal-AI，它通过高效多维并行、异构内存治理、大规模优化库、自适应任务调度等形式，仅需几行代码，便可与已有我的项目联合，高效疾速部署 AI 大模型训练，为企业升高 AI 大模型落地利用老本。

袁进辉

联结创始人，光年之外

讲者简介：袁进辉，光年之外联结创始人。清华大学计算机系博士、博士后，师从张钹院士。清华大学优良博士学位论文奖获得者，曾任微软亚洲研究院主管研究员，专一于大规模机器学习平台及基于异构集群的深度学习零碎研发，创造了过后世界上最快的主题模型训练算法和零碎 LightLDA。2017 年发动和主导研发了开源深度学习框架 OneFlow，在分布式深度学习零碎编程易用性和高效性方向设计了一系列新办法，并为国内外支流深度学习框架宽泛跟进和效仿。专任之江实验室天枢开源开放平台架构师，北京智源人工智能研究院大模型技术委员会委员。

报告题目：OneFlow：从新思考分布式深度学习框架的设计

报告摘要：近来，大规模预训练模型备受关注，但少数通用深度学习框架仅反对数据并行，还不间接反对大模型所须要的模型并行、流水并行等技术，只能基于框架定制开发专用软件系统（如 Megatron-LM、DeepSpeed 等）来满足需要，分布式训练的易用性和通用性大打折扣，能不能让通用深度学习框架间接满足这些需要呢？本次课程对这个问题开展探讨：（1）梳理和总结大模型带来的技术挑战，探讨支流开源解决方案的技术原理和优缺点；（2）基于 OneFlow 实际探讨如何间接、对立、简洁地实现大模型训练所须要各项关键技术，让大规模分布式深度训练像在单卡上编程一样简略；（3）NCCL 作为一款高效灵便的汇合通信库已成为分布式深度学习的标配，但其非抢占式调度机制在大模型场景非常容易导致死锁，我也将探讨如何通过抢占式调度来实现一款能防止死锁的汇合通信库。

学术主任：

陈文光

传授，清华大学

陈文光，CCF 卓越会士、CCF 副秘书长、YOCSEF 荣誉委员，2020 年“CCF 卓越贡献奖”获得者。他是清华大学计算机系传授，ACM 中国理事会常务理事。他的次要钻研畛域为操作系统、程序设计语言与并行计算。他曾取得国家科技进步二等奖、国家教委科技进步二等奖和北京市科技进步二等奖各一次。陈文光始终负责 CCF CSP（计算机软件能力认证）技术委员会主席，负责组织制订 CSP 认证规范，主持 CSP 命题和评估，为 CSP 的权威性、专业性作出了杰出贡献。为此，陈文光取得了 2020 年“CCF 卓越贡献奖”。

袁进辉

联结创始人，光年之外

袁进辉，光年之外联结创始人。清华大学计算机系博士、博士后，师从张钹院士。清华大学优良博士学位论文奖获得者，曾任微软亚洲研究院主管研究员，专一于大规模机器学习平台及基于异构集群的深度学习零碎研发，创造了过后世界上最快的主题模型训练算法和零碎 LightLDA。2017 年发动和主导研发了开源深度学习框架 OneFlow，在分布式深度学习零碎编程易用性和高效性方向设计了一系列新办法，并为国内外支流深度学习框架宽泛跟进和效仿。专任之江实验室天枢开源开放平台架构师，北京智源人工智能研究院大模型技术委员会委员。

工夫：2023 年 5 月 19 日 -21 日

地址：北京•中科院计算所一层报告厅（北京市海淀区中关村科学院南路 6 号）

乘坐北京地铁 10 号线到“知春里站”下车出 A 口，步行 10 分钟即到。

报名须知：

1、报名费：CCF 会员 2800 元，非会员 3600 元。食宿交通（费用）自理。依据交费先后顺序，会员优先的准则录取，额满为止。应局部学员的要求，本期 ADL 线上同步举办，线上线下报名注册费用雷同。线上会议室号和明码将在会前 3 天通过邮件发送。

2、报名截止日期：5 月 17 日。报名请预留不会拦挡内部邮件的邮箱，如 qq 邮箱。会前 1 天将通过邮件发送会议注意事项和微信群二维码。

3、征询邮箱 : adl@ccf.org.cn

缴费形式：

在报名零碎中在线缴费或者通过银行转账：

银行转账（反对网银、支付宝）：

开户行：招商银行北京海淀支行

户名：中国计算机学会

账号：110943026510701

请务必注明：ADL136+ 姓名

报名缴费后，报名零碎中显示缴费实现，即为报名胜利，不再另行通知。

报名形式：

请抉择以下两种形式之一报名：

1、扫描（辨认）以下二维码报名：

2、点击报名链接报名：

https://conf.ccf.org.cn/ADL136