摘要: 4 月 25 日,华为云公布盘古系列超大规模预训练模型,包含 30 亿参数的寰球最大视觉(CV)预训练模型,以及与循环智能、鹏城实验室联合开发的千亿参数、40TB 训练数据的寰球最大中文语言(NLP)预训练模型。后续,华为云还将陆续公布多模态、科学计算等超大预训练模型。
本文分享自华为云社区《HDC.Cloud 2021 | 华为云公布寰球最大预训练模型,开启工业化 AI 开发新模式》,原文作者:技术火炬手。
4 月 25 日, 华为云公布盘古系列超大规模预训练模型 ,包含 30 亿参数的寰球最大视觉(CV)预训练模型,以及与循环智能、鹏城实验室联合开发的千亿参数、40TB 训练数据的寰球最大中文语言(NLP)预训练模型。后续,华为云还将陆续公布多模态、科学计算等超大预训练模型。
华为云人工智能畛域首席科学家、IEEE Fellow 田奇示意:“预训练大模型是解决 AI 利用开发定制化和碎片化的重要办法。华为云盘古大模型能够实现一个 AI 大模型在泛滥场景通用、泛化和规模化复制,缩小对数据标注的依赖,并应用 ModelArts 平台,让 AI 开发由作坊式转变为工业化开发的新模式。”
▲华为云人工智能畛域首席科学家、IEEE Fellow 田奇
寰球最大中文语言预训练模型,刷新 CLUE 三项榜单世界纪录
盘古 NLP 大模型是寰球最大的千亿参数中文语言预训练模型,由华为云、循环智能和鹏城实验室联合开发,预训练阶段学习了 40TB 中文文本数据,并通过行业数据的样本调优晋升模型在场景中的利用性能。
盘古 NLP 大模型在三个方面实现了突破性停顿:
第一,具备当先的语言了解和模型生成能力: 在权威的中文语言了解评测基准 CLUE 榜单中,盘古 NLP 大模型在总排行榜及分类、浏览了解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分 83.046,多项子工作得分业界当先, 向人类程度(85.61)迈进了一大步。
▲盘古 NLP 大模型位列 CLUE 榜单总排行榜第一
在 NLPCC2018 文本摘要工作中,盘古 NLP 大模型获得了 Rouge 平均分 0.53 的业界最佳问题,超过第二名百分之六十。
第二,盘古 NLP 大模型在预训练阶段积淀了大量的通用常识,既能做了解又能做生成。 除了能像 GPT- 3 等仅基于端到端生成的形式以外,大模型还能够通过少样本学习对用意进行辨认,转化为知识库和数据库查问。通过性能的模块化组合反对行业知识库和数据库的嵌入,进而对接行业教训,使能全场景的疾速适配与扩大。比方在华为云和循环智能单干构建的金融客服场景中,盘古 NLP 大模型能更好地赋能销售环节,帮忙服务人员疾速晋升业务水平,重塑消费者体验。
第三,盘古 NLP 大模型采纳大模型小样本调优的路线,实现了小样本学习工作上超过 GPT 系列。 比方在客户需要剖析场景中,应用盘古 NLP 大模型生产语义标签时,失去指标后果所需的样本量仅为 GPT 系列模型的十分之一,即 AI 生产效率可晋升十倍。
30 亿参数,寰球最大视觉预训练模型
盘古 CV 大模型是目前业界最大的视觉预训练模型,蕴含超过 30 亿参数 。盘古 CV 大模型首次兼顾了图像判断与生成能力,从而可能同时满足底层图像处理与高层语义了解需要,同时可能不便交融行业常识微调,疾速适配各种上游工作。盘古 CV 大模型性能体现优异,在 ImageNet 1%、10% 数据集上的小样本分类精度上均达到目前业界最高程度(SOTA)。
盘古 CV 大模型致力于解决 AI 工程难以泛化和复制的问题,创始 AI 开发工业化新模式,大大节约研发老本。此外,盘古 CV 大模型提供模型预训练、微调、部署和迭代的性能,造成了 AI 开发残缺闭环,极大晋升 AI 开发效率。目前,盘古 CV 大模型曾经在医学影像、金融、工业质检等 100 余项理论工作中失去了验证,不仅大幅晋升了业务测试精度,还能均匀节约 90% 以上的研发老本。
盘古 CV 大模型助力无人机电力智能巡检
国网重庆永川供电公司是国内晚期利用无人机电力智能巡检技术的电网企业。传统的无人机智能巡检 AI 模型开发次要面临两大挑战:一是如何对海量数据进行高效标注;二是缺点品种多达上百种,须要数十个 AI 辨认模型,开发成本高。
华为云与国网重庆永川供电公司单干,在无人机智能巡检 AI 模型开发上,华为云盘古 CV 大模型绝对于传统开发模式,展示了其弱小的劣势。
在数据标注方面, 盘古 CV 大模型利用海量无标注电力数据进行预训练,并联合大量标注样本微调的高效开发模式,独创性地提出了针对电力行业的预训练模型,使得样本筛选效率晋升约 30 倍,筛选品质晋升约 5 倍,以永川每天采集 5 万张高清图片为例,可节俭人工标注工夫 170 人天。
在模型通用性方面, 联合盘古搭载的主动数据增广以及类别自适应损失函数优化策略,能够做到一个模型适配上百种缺点,代替原有 20 多个小模型,极大地缩小了模型保护老本,均匀精度晋升 18.4%,模型开发成本升高 90%。
盘古大模型背地的撑持
盘古 NLP 大模型波及千亿参数、40TB 训练数据,对算法、算力、海量数据处理、并行优化都提出了很大挑战。
在算法方面, 华为云的算法团队和循环智能(Recurrent AI)的 NLP 团队联合攻关,冲破了大模型微调的难题。
鹏城实验室的国内最大规模 AI 训练集群鹏城云脑 II,在盘古 NLP 大模型训练中展现出弱小的 AI 算力和数据吞吐能力,为盘古大模型训练打下松软的根底。
另一方面, 华为底层软件、训练框架、ModelArts 平台协同优化,充沛开释算力,达成全栈性能最优。首先,针对底层算子性能,基于华为 CANN 采纳了算子量化、算子交融优化等技术,将单算子性能晋升 30% 以上。其次,华为 MindSpore 创新性地采纳了“流水线并行、模型并行和数据并行”的多维主动混合并行技术,大幅升高了手动编码的工作量,并晋升集群线性度 20%。华为云 ModelArts 平台提供 E 级算力调度,同时联合物理网络拓扑,提供动静路由布局能力,为大模型训练提供了最优的网络通信能力。此外,借助 ModelArts 平台的高效解决海量数据能力,仅用 7 天就实现了 40TB 文本数据处理。
截至目前,华为云曾经在全国 10 多个行业超过 600 个我的项目进行了人工智能落地和实际,帮忙城市、交通、医疗、钢铁、纺织、能源、金融等行业智能降级。将来,华为云将继续通过技术创新,驱动产业智能降级。
点击关注,第一工夫理解华为云陈腐技术~