关于meta:展心展力-metaapp基于-DeepRec-的稀疏模型训练实践

举荐场景大模型在国内的应用很早，早在 10 年前甚至更早，百度曾经用上了自研的大规模分布式的 parameter server 零碎联合上游自研的 worker 来实现 TB 级别的万亿参数的稠密模型。起初，各家平台也陆续基于这种计划，开发了本人的分布式训练零碎，广泛特点是大量应用 id embedding，因而参数量微小，模型大小也十分夸大。当然，随着开源训练工具 TensorFlow/Pytorch 的风行，应用 TensorFlow/Pytorch 作为 worker，联合自研 ps 的计划也非常风行。究其原因，以 TensorFlow 为例，尽管内置了分布式训练零碎，然而对于大规模 id embedding 的反对却十分蹩脚，无奈作为残缺的平台应用。而应用 TensorFlow+ 自研 ps 的计划也存在不少问题，比方自研 ps 个别对于特色输出都有特定的要求、二次开发老本比拟低等。

残缺内容请点击下方链接查看：

https://developer.aliyun.com/article/1200344?utm_content=g_10…

版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

1 背景