1 背景
举荐场景大模型在国内的应用很早,早在 10 年前甚至更早,百度曾经用上了自研的大规模分布式的 parameter server 零碎联合上游自研的 worker 来实现 TB 级别的万亿参数的稠密模型。起初,各家平台也陆续基于这种计划,开发了本人的分布式训练零碎,广泛特点是大量应用 id embedding,因而参数量微小,模型大小也十分夸大。当然,随着开源训练工具 TensorFlow/Pytorch 的风行,应用 TensorFlow/Pytorch 作为 worker,联合自研 ps 的计划也非常风行。究其原因,以 TensorFlow 为例,尽管内置了分布式训练零碎,然而对于大规模 id embedding 的反对却十分蹩脚,无奈作为残缺的平台应用。而应用 TensorFlow+ 自研 ps 的计划也存在不少问题,比方自研 ps 个别对于特色输出都有特定的要求、二次开发老本比拟低等。
残缺内容请点击下方链接查看:
https://developer.aliyun.com/article/1200344?utm_content=g_10…
版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。