关于nlp:四大模型革新NLP技术应用揭秘百度文心ERNIE最新开源预训练模型

在5月20日完结的2021深度学习开发者峰会 WAVE SUMMIT 上，百度文心 ERNIE 开源了四大预训练模型。本文对这四大开源预训练模型进行了具体的技术解读。
2019年以来，NLP 预训练模型在技术创新和工业利用上一直获得冲破，但以后预训练模型仍有一些痛点困扰着开发者：

仅思考繁多粒度语义建模，不足多粒度常识引入，语义理解能力受限；
受限于 Transformer 构造的建模长度瓶颈，无奈解决超长文本；
聚焦语言等繁多模态，不足工业实在利用场景针对多个模态如语言、视觉、听觉信息的联结建模能力。

5月20日举办的2021深度学习开发者峰会 WAVE SUMMIT 上，依靠飞桨外围框架，百度文心 ERNIE 最新开源四大预训练模型：多粒度语言常识加强模型 ERNIE-Gram、长文本了解模型 ERNIE-Doc、交融场景图常识的跨模态了解模型 ERNIE-ViL、语言与视觉一体的模型 ERNIE-UNIMO。

针对以后预训练模型现存的难点痛点，此次文心 ERNIE 开源的四大预训练模型不仅在文本语义了解、长文本建模和跨模态了解三大畛域获得冲破，还领有宽泛的利用场景和前景，进一步助力产业智能化降级。

文心 ERNIE 开源版地址：
https://github.com/PaddlePaddle/ERNIE

文心 ERNIE 官网地址：
https://wenxin.baidu.com/
一、多粒度语言常识加强模型 ERNIE-Gram

从 ERNIE 模型诞生起，百度研究者们就在预训练模型中引入常识，通过常识加强的办法晋升语义模型的能力。本次公布的 ERNIE-Gram 模型正是通过显式引入语言粒度常识，从而晋升模型的成果。具体来说，ERNIE-Gram 提出显式 n-gram 掩码语言模型，学习 n-gram 粒度语言信息，绝对间断的 n-gram 掩码语言模型大幅放大了语义学习空间，（V^n→V_(n-gram)，其中 V 为词表大小，n 为建模的 gram 长度），显著晋升预训练模型收敛速度。

▲ 图1-1 间断 n-gram 掩码语言模型 vs 显式 n-gram 掩码语言模型

此外，在显式 n-gram 语义粒度建模根底上，ERNIE-Gram 提出多层次 n-gram 语言粒度学习，利用 two-stream 双流机制，实现同时学习 n-gram 语言单元内细粒度（fine-grained）语义常识和n-gram语言单元间粗粒度（coarse-grained）语义常识，实现多层次的语言粒度常识学习。

▲ 图1-2 n-gram 多层次语言粒度掩码学习

ERNIE-Gram 在不减少任何计算复杂度的前提下，在自然语言推断工作、短文本类似度工作、浏览了解工作等多个典型中文工作上，效果显著超过了业界支流开源预训练模型。此外，ERNIE-Gram 英文预训练模型也在通用语言了解工作、浏览了解工作上成果超过支流模型。

ERNIE-Gram 的办法被 NAACL 2021主会长文录用，论文地址：
https://arxiv.org/abs/2010.12148

二、长文本了解模型 ERNIE-Doc

Transformer 是 ERNIE 预训练模型所依赖的根底网络结构，但因为其计算量和空间耗费随建模长度呈平方级减少，导致模型难以建模篇章、书籍等长文本内容。受到人类先粗读后精读的浏览形式启发，ERNIE-Doc 独创回顾式建模技术，冲破了 Transformer 在文本长度上的建模瓶颈，实现了任意长文本的双向建模。

通过将长文本反复输出模型两次，ERNIE-Doc 在粗读阶段学习并存储全篇章语义信息，在精读阶段针对每一个文本片段显式地交融全篇章语义信息，从而实现双向建模，防止了上下文碎片化的问题。

此外，传统长文本模型（Transformer-XL 等）中 Recurrence Memory 构造的循环形式限度了模型的无效建模长度。ERNIE-Doc 将其改良为同层循环，使模型保留了更下层的语义信息，具备了超长文本的建模能力。

▲ 图2-1 ERNIE-Doc 中的回顾式建模与加强记忆机制

通过让模型学习篇章级文本段落间的程序关系，ERNIE-Doc 能够更好地建模篇章整体信息。

▲ 图2-2 篇章重排序学习

ERNIE-Doc 显著晋升了长文本的建模能力，能够解决很多传统模型无奈解决的利用难题。例如在搜索引擎中，ERNIE-Doc 能够对网页整体了解，返回用户更加零碎的后果。在智能创作中，ERNIE-Doc 能够用来生成更加长篇、语义丰盛的文章。

超长文本了解模型 ERNIE-Doc 在包含浏览了解、信息抽取、篇章分类、语言模型等不同类型的13个典型中英文长文本工作上获得最优的成果。

ERNIE-Doc 的办法被 ACL 2021 主会长文录用，论文链接：
https://arxiv.org/abs/2012.15688
三、交融场景图常识的跨模态了解模型 ERNIE-ViL

跨模态的信息处理能力须要人工智能模型深刻了解并综合语言、视觉、听觉等模态的信息。以后，基于预训练的跨模态语义了解技术，通过对齐语料学习跨模态的联结示意，将语义对齐信号交融到联结示意中，从而晋升跨模态语义理解能力。ERNIE-ViL 提出了常识加强的视觉-语言预训练模型，将蕴含细粒度语义信息的场景图（Scene Graph）常识融入预训练过程，构建了物体预测、属性预测、关系预测三个预训练任务，使得模型在预训练过程中更加关注细粒度语义常识，学习到可能刻画更好跨模态语义对齐信息，失去更好的跨模态语义示意。

▲ 图3-1常识加强的跨模态预训练 ERNIE-ViL 框架

ERNIE-ViL 首次将场景图常识融入跨模态模型的预训练过程，为跨模态语义了解畛域钻研提供了新的思路。该模型在视觉问答、视觉常识推理、援用表达式了解、跨模态文本&图像检索等5个典型跨模态工作上获得了当先的成果。ERNIE-ViL 模型也逐渐在视频搜寻等实在工业利用场景中落地。

ERNIE-ViL 的办法被 AAAI-2021 主会长文录用，论文地址:
https://arxiv.org/abs/2006.16934

四、语言与视觉一体的模型 ERNIE-UNIMO

大数据是深度学习取得成功的要害根底之一。以后的预训练方法，通常别离在各种不同模态数据上别离进行，难以同时反对各类语言和图像的工作。基于深度学习的 AI 零碎是否也能像人一样同时学习各种单模、多模等异构模态数据呢？如果可能实现，无疑将进一步关上深度学习对大规模数据利用的边界，从而进一步晋升 AI 零碎的感知与认知的通用能力。

为此，语言与视觉一体的模型 ERNIE-UNIMO 提出对立模态学习办法，同时应用单模文本、单模图像和多模图文对数据进行训练，学习文本和图像的对立语义示意，从而具备同时解决多种单模态和跨模态上游工作的能力。此办法的外围模块是一个 Transformer 网络，在具体训练过程中，文本、图像和图文对三种模态数据随机混合在一起，其中图像被转换为指标（object）序列，文本被转换为词（token）序列，图文对被转换为指标序列和词序列的拼接。对立模态学习对三种类型数据进行对立解决，在指标序列或者词序列上基于掩码预测进行自监督学习，并且基于图文对数据进行跨模态比照学习，从而实现图像与文本的对立示意学习。进一步的，这种联结学习办法也让文本常识和视觉常识相互加强，从而无效晋升文本语义示意和视觉语义示意的能力。

此办法在语言了解与生成、多模了解与生成，4类场景、共13个工作上超过支流的文本预训练模型和多模预训练模型，同时登顶权威视觉问答榜单 VQA、文本推理榜单 aNLI。首次验证了通过非平行的文本与图像单模数据，可能让语言常识与视觉常识互相加强。

此工作被 ACL2021 主会长文录用,论文地址:
https://arxiv.org/abs/2012.15409

五、破解 NLP 技术难题，助力产业智能化

文心 ERNIE 全新开源公布4大预训练模型，一直推动 NLP 模型技术钻研层面的翻新与利用。

语言与常识技术被看作是人工智能认知能力的外围。2019年以来，百度凭借在自然语言解决畛域的深厚积攒获得了系列世界冲破，公布了文心 ERNIE 语义了解平台，该平台宽泛用于金融、通信、教育、互联网等行业，助力产业智能化降级。

作为“人工智能皇冠上的明珠”，NLP 畛域向来是人工智能技术研发与落地实际的前沿。百度文心平台基于当先的语义了解技术，帮忙企业在 NLP 赛道上跨过技术、工具、算力、人才等门槛，对开发者和企业进行凋谢，全面减速 NLP 技术助力全产业智能化降级，为 AI 工业大生产插上智能的“翅膀”。
百度自然语言解决（Natural Language Processing，NLP）以『了解语言，领有智能，扭转世界』为使命，研发自然语言解决核心技术，打造当先的技术平台和翻新产品，服务寰球用户，让简单的世界更简略。

关于nlp:四大模型革新NLP技术应用揭秘百度文心ERNIE最新开源预训练模型

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于nlp:四大模型革新NLP技术应用揭秘百度文心ERNIE最新开源预训练模型

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复