关于人工智能:深度揭秘技术创新全球首个知识增强千亿大模型是怎样炼成的

近日，百度与鹏城自然语言解决联结实验室重磅公布鹏城 - 百度·文心（模型版本号：ERNIE 3.0 Titan），该模型是寰球首个常识加强的千亿 AI 大模型，也是目前为止寰球最大的中文单体模型。

基于业界当先的鹏城实验室算力零碎“鹏城云脑Ⅱ”和百度飞桨深度学习平台强强练手，鹏城 - 百度·文心模型参数规模超过 GPT- 3 达到 2600 亿，致力于解决传统 AI 模型泛化性差、强依赖于低廉的人工标注数据、落地老本低等利用难题，升高 AI 开发与利用门槛。目前该模型在 60 多项工作获得最好成果，并大幅刷新小样本学习工作基准。

百度文心大模型官网：

https://www.paddlepaddle.org….

鹏城 - 百度·文心模型如何诞生？

鹏城 - 百度·文心基于百度常识加强大模型 ERNIE 3.0 全新降级，模型参数规模达到 2600 亿，绝对 GPT- 3 的参数量晋升 50%。

在算法框架上，该模型因循了 ERNIE 3.0 的海量无监督文本与大规模常识图谱的平行预训练算法，模型构造上应用兼顾语言了解与语言生成的对立预训练框架。为晋升模型语言了解与生成能力，钻研团队进一步设计了可控和可信学习算法。

在训练上，联合百度飞桨自适应大规模分布式训练技术和“鹏城云脑Ⅱ”算力零碎，解决了超大模型训练中多个公认的技术难题。在利用上，独创大模型在线蒸馏技术，大幅升高了大模型落地老本。

鹏城 - 百度·文心模型结构图

鹏城 - 百度·文心的可控和可信学习算法

在算法设计上，为进一步晋升模型语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力，钻研团队提出了可控学习和可信学习算法。在可控学习方面，通过将模型预测出的文本属性和原始文本进行拼接，结构从指定属性生成对应文本的预训练数据，模型通过对该数据的学习，实现不同类型的零样本生成能力。用户能够将指定的体裁、情感、长度、主题、关键词等属性自由组合，无需标注任何样本，便可生成不同类型的文本。

在可信学习方面，针对模型生成后果与真实世界的事实一致性问题，鹏城 - 百度·文心通过自监督的反抗训练，让模型学习辨别数据是实在的还是模型伪造的，使得模型对生成后果真实性具备判断能力，从而让模型能够从多个候选中抉择最牢靠的生成后果，显著晋升了生成后果的可信度。

高可信的可控生成预训练

高性能集群撑持鹏城 - 百度·文心训练

鹏城 - 百度·文心基于百度百舸集群初始化，并基于“鹏城云脑 II”高性能集群训练。“鹏城云脑Ⅱ”由鹏城实验室联合国内劣势科研力量研发，是我国首个国产 E 级 AI 算力平台。

“鹏城云脑Ⅱ”于去年 11 月和往年 7 月接连两次夺得 IO 500 总榜和 10 节点榜的双料世界冠军。往年 5 月，“鹏城云脑Ⅱ”在“MLPerf training V1.0”基准测试中获得了自然语言解决畛域模型性能第一名和图像处理畛域模型性能第二名的好问题。往年 11 月，“鹏城云脑”继去年获得首届 AIPerf 500 榜单冠军后，再次荣获排行榜冠军。屡次在相干畛域国内权威比赛中斩获头名，充沛展示了其优越的智能计算性能和软硬件零碎协同程度，也为鹏城 - 百度·文心弱小技术能力奠定根底。

飞桨自适应大规模分布式训练和推理“保驾护航”

超大规模模型的训练和推理给深度学习框架带来很大考验，须要利用大规模集群分布式计算能力在可承受工夫内实现训练或推理的计算要求，同时面临着模型参数量单机无奈加载、多机通信负载重、并行效率低等难题。早在往年 4 月，国产深度学习框架百度飞桨公布了 4D 混合并行技术，可反对千亿参数模型的高效分布式训练。

但鹏城 - 百度·文心的训练任务给飞桨带来全新挑战：一方面，鹏城 - 百度·文心的模型结构设计引入诸多小形态的张量计算，导致层间计算量差别较大，流水线负载不平衡；另一方面，“鹏城云脑 II”的自有软件栈须要深度学习框架高效深度适配，能力充分发挥其集群的当先算力劣势。

针对以上挑战，并综合思考以后支流硬件、模型的特点与发展趋势，飞桨设计并研发了具备更强扩大能力的端到端自适应大规模分布式训练架构 \
* 论文链接：https://arxiv.org/abs/2112.02752

该架构能够针对不同的模型和硬件，形象成对立的分布式计算视图和资源视图，并通过硬件感知细粒度切分和映射性能，搜寻出最优的模型切分和硬件组合策略，将模型参数、梯度、优化状态依照最优策略调配到不同的计算卡上，达到节俭存储、负载平衡、晋升训练性能的目标。

飞桨自适应大规模分布式训练架构使得鹏城 - 百度·文心的训练性能是传统分布式训练方法 2.1 倍，并行效率高达 90%。此外，为进一步提高模型训练的稳定性，飞桨还设计了容错性能，能够在不中断训练的状况下主动替换故障机器，增强模型训练的鲁棒性。

在推理方面，飞桨基于服务化部署框架 Paddle Serving，通过多机多卡的张量模型并行、流水线并行等一系列优化技术，获得最佳配比和最优吞吐。通过对立内存寻址（Unified Memory）、算子交融、模型 IO 优化、量化减速等形式，鹏城 - 百度·文心的推理速度失去进一步晋升。

飞桨超大模型训练与推理

鹏城 - 百度·文心超强性能：60 多项工作获得最好成果大幅刷新小样本学习工作基准

鹏城 - 百度·文心到底成果如何？目前，该模型已在机器浏览了解、文本分类、语义类似度计算等 60 多项工作中获得最好成果。

在行业畛域，仅利用大量标注数据甚至无需标注数据，就能解决新场景的工作已成为 AI 工业化大规模利用的要害。该模型在 30 余项小样本和零样本工作上均获得了最优问题，可能实现各类 AI 利用场景成果的晋升，也为产业化规模利用关上了新窗口。

鹏城 - 百度·文心小样本学习效果

鹏城 - 百度·文心零样本学习效果

解决利用落地难题：百度团队独创大模型在线蒸馏技术

大模型训练、推理所耗费的资源极其低廉和密集。Paddle Serving 已提供了超大模型的高速推理计划，但为了进一步打造大模型的绿色落地计划，升高大模型利用老本，钻研团队提出了大模型在线蒸馏技术。

\
在线蒸馏技术

具体来说，该技术在鹏城 - 百度·文心学习的过程中周期性地将常识信号传递给若干个学生模型同时训练，从而在蒸馏阶段一次性产出多种尺寸的学生模型。绝对传统蒸馏技术，该技术极大节俭了因大模型额定蒸馏计算以及多个学生的反复常识传递带来的算力耗费。

这种新鲜的蒸馏形式利用了鹏城 - 百度·文心规模劣势，在蒸馏实现后保障了学生模型的成果和尺寸丰富性，不便不同性能需求的利用场景应用。此外，钻研团队还发现，鹏城 - 百度·文心与学生模型尺寸差距千倍以上，模型蒸馏难度极大甚至生效。为此，钻研团队引入了助教模型进行蒸馏的技术，利用助教作为常识传递的桥梁以缩短学生模型和鹏城 - 百度·文心表白空间相距过大的问题，从而促成蒸馏效率的晋升。

鹏城 - 百度·文心压缩版模型成果

鹏城 - 百度·文心在线蒸馏计划的成果十分显著，模型参数压缩率可达 99.98%。压缩版模型仅保留 0.02% 参数规模就能与原有模型成果相当。相比间接训练参数规模是本身 2 倍的 BERT Base 模型，鹏城 - 百度·文心在 5 项工作准确率上相对晋升了 2.5%，而绝对于等同规模的 RoBERTa Base，准确率则相对晋升了 3.4%，验证了鹏城 - 百度·文心在线蒸馏计划的有效性。

结语

文心 ERNIE 自 2019 年诞生至今，在语言了解、文本生成、跨模态语义了解等畛域获得多项技术冲破，在公开权威语义评测中斩获了十余项世界冠军。2020 年，文心 ERNIE 荣获世界人工智能大会 WAIC 最高奖项 SAIL 奖。

目前，文心 ERNIE 已大规模利用于搜寻、信息流、智能音箱等互联网产品，并通过百度智能云输入到工业、能源、金融、通信、媒体、教育等各行各业，助力产业智能化降级。本次公布的鹏城 - 百度·文心将进一步解决 AI 技术在利用中不足畛域和场景化数据等要害难题，升高门槛，放慢人工智能大规模产业利用。

百度 AI 开发者社区 https://ai.baidu.com/forum?&h…，为全国各地开发者提供一个交换、分享、答疑解惑的平台，让开发者在研发路上不再“孤军奋战”，通过一直地交换与探讨找出更好的技术解决方案。如果你想尝试各种人工智能技术、开辟利用场景，赶快退出百度 AI 社区，你对 AI 的所有畅想，在这里都能够实现！

【投稿赢大奖】——奇思妙想 +AI 技术 =？

🌟奇思妙想与 AI 技术碰撞会产生什么样的火花？

🌟独特、新鲜的思路会与 AI 技术会产生什么样的化学反应？

🌟参加流动有机会赢大奖，更有机会成为 AI 开发者联盟成员！

一起来解锁开发者联盟更多福利吧

大奖在这里👇👇👇👇👇👇

加入流动电竞级耳机、京东卡、爱奇艺年卡、百度定制大礼等你来拿！

立刻参加：https://ai.baidu.com/forum/to…

扫描下方二维码，增加小助手微信「京东卡、小度定制周边、神秘礼盒、行李箱」等更多福利你来拿~