关于人工智能:175-万亿参数智源重磅发布全球最大预训练模型悟道-20

6 月 1 日，第三届北京智源大会正式揭幕。在大会开幕式上，智源研究院重磅公布了寰球最大的超大规模智能模型「悟道 2.0」。

「悟道 2.0」模型的参数规模达到 1.75 万亿，是 GPT-3 的 10 倍，突破了之前由谷歌 Switch Transformer 预训练模型发明的 1.6 万亿参数记录，是目前中国首个、寰球最大的万亿级模型。

往年 3 月 20 日，智源研究院公布了超大规模智能模型「悟道 1.0」，训练出中文、多模态、认知、蛋白质预测等系列模型。智源研究院院长黄铁军传授在介绍「悟道」模型研发初衷时示意，近年来人工智能的倒退曾经 从「大炼模型」逐渐迈向了「炼大模型」的阶段，通过设计先进的算法，整合尽可能多的数据，汇聚大量算力，集约化地训练大模型，供大量企业应用，这是必然趋势。

而昨日公布的「悟道 2.0」正是对「炼大模型」的又一次胜利摸索。

从 15 亿参数的 GPT-2、1750 亿参数的 GPT-3，到 1.6 万亿参数的 Switch Transformer，深度学习模型踊跃拥抱暴力美学，然而这些模型并非以中文为外围。领有 1.75 万亿参数的悟道 2.0，做到的不只是参数量的冲破，它也是首个万亿级中文预训练模型。智源研究院理事长张宏江认为，目前「大模型 + 大算力」是迈向通用人工智能的一条可行门路。

智源研究院学术副院长唐杰传授示意，「悟道」旨在打造数据和常识双轮驱动的认知智能，让机器可能像人一样思考，实现超过图灵测试的机器认知能力。「悟道」团队在大规模预训练模型研发上做了很多基础性工作，造成了自主的超大规模智能模型技术创新体系，领有从预训练实践技术到预训练工具，再到预训练模型构建和最终模型测评的残缺链条，从技术上是残缺成熟的。通过一系列原始翻新和技术冲破，本次公布的「悟道 2.0」实现了「大而聪慧」，具备大规模、高精度、高效率的特点。

悟道 2.0 的参数规模达到破记录的 1.75 万亿。据介绍，新一代 FastMoE 技术 是悟道 2.0 实现「万亿模型」基石的要害。

以往，因为 Google 万亿模型的核⼼技术 MoE（Mixture of Experts）与其分布式训练框架和其定制硬件强绑定，绝大多数人无奈失去应用与钻研的机会。「悟道」团队钻研并开源的 FastMoE 技术是首个反对 PyTorch 框架的 MoE 零碎，具备简略易用、灵便、高性能等特点，并且反对大规模并行训练。新一代 FastMoE 反对 Switch、GShard 等简单平衡策略，反对不同专家不同模型，为万亿模型实现计划补上了最初⼀块短板。

FastMoE 数据并行模式，每个 worker 搁置多个 experts，worker 之间数据并行。top-2 gate 指的是门网络会抉择激活分数最高的 2 个专家网络。（图源：https://hub.baai.ac.cn/view/6…

唐杰示意：「除了参数规模之外，悟道 2.0 还能够同时撑持更多的利用，实现更加通用的智能。另外，咱们 首次在 100% 的国产超算平台上训练了万亿模型。」悟道 2.0 模型一统文本与视觉两大阵地，撑持更多任务，更加通用化。

在数据方面，「悟道 2.0」模型基于中英双语共 4.9T 的高质量大规模荡涤数据进行训练。训练数据蕴含 WuDaoCorpora 的 1.2TB 中文文本数据、2.5TB 中文图文数据，以及 Pile 数据集的 1.2TB 英文文本数据。

那么，「悟道 2.0」模型到底能力如何呢？智源研究院颁布了其在世界公认的 9 项 Benchmark 基准测试工作上的问题。

ImageNet zero-shot SOTA 超过 OpenAI CLIP；
LAMA 常识探测：超过 AutoPrompt；
LAMABADA 完形填空：能力超过微软 Turing NLG；
SuperGLUE few-shot FewGLUE：超过 GPT-3，获得以后最佳少样本学习后果；
UC Merced Land-Use zero-shot SOTA，超过 OpenAI CLIP；
MS COCO 文生成图：超过 OpenAI 的 DALL·E；
MS COCO 英文图文检索：超过 OpenAI CLIP 和 Google ALIGN；
MS COCO 多语言图文检索：超过目前最好的多语言多模态预训练模型 UC2,M3P；
Multi 30K 多语言图文检索：超过目前最好的多语言多模态预训练模型 UC2,M3P。

「悟道 2.0」的高精度来自于一系列外围技术创新。例如：

GLM2.0：模型架构翻新的榜样，更通用的预训练模型。此前，它首次突破 BERT 和 GPT 壁垒，开创性地以繁多模型兼容所有支流架构，新一代版本更是以少胜多的高性能人工智能榜样，以 100 亿参数量，足以匹敌微软 170 亿参数的 Turing-NLG 模型，获得多项工作的更优问题。
P-tuning2.0 算法：极大地拉近少样本学习和全监督学习的差距，少样本学习能力遥遥领先。
CogView：文本生成图像的新框架，克服「高低溢收敛」文图模型要害难题，将 VQ-VAE 和 Transformer 进行联合，体现 SOTA（以后算法性能最优的模型）！在 MS COCO FID 指标上性能优于 DALL·E 等模型。模型可间接实现相似 OpenAI CLIP 模型的自评分性能，生成国画、油画、卡通画、轮廓画等多元画风。

此外，在「悟道」模型研发过程中，智源研究院建设了寰球最大的语料数据库 WuDaoCorpora2.0，蕴含寰球最大的中文文本数据集 (3TB)、寰球最大的多模态数据集 (90TB)、寰球最大的对话数据集 (181G)，为行业内大规模智能模型的研发提供了丰盛的数据撑持。

除了悟道 2.0 模型的公布，这场 AI 盛会邀请到 200 余位国内外人工智能畛域的顶尖专家，围绕人工智能畛域的前沿研究进展及趋势发展深刻研究。大会围绕国内人工智能学术前沿和产业热点设置了「预训练模型」「机器学习」「群体智能」「人工智能的数理根底」「智能体系架构与芯片」「精准智能」「智能信息检索与开掘」「青源学术年会」「AI 守业」「AI 制药」「AI 零碎」「AI 凋谢与共享」「AI 科技女性」等 29 个专题论坛。

在 6 月 1 日的开幕式上，图灵奖得主 Yoshua Bengio、清华大学国家金融研究院院长朱民博士，北京大学鄂维南院士别离围绕逻辑剖析零碎 System2、数据资产、迷信与智能做了精彩的宗旨报告。

更多详情，参见大会官网：https://2021.baai.ac.cn/

关于人工智能:175-万亿参数智源重磅发布全球最大预训练模型悟道-20

从 1.0 到 2.0，「悟道」摸索通用人工智能

悟道 2.0：「大而聪慧」