最强中文NLP预训练模型艾尼ERNIE官方揭秘附视频

24次阅读

共计 1915 个字符,预计需要花费 5 分钟才能阅读完成。

“最近刚好在用 ERNIE 写毕业论文”
“感觉还挺厉害的”
“为什么叫 ERNIE 啊,这名字有什么深意吗?”
“我想让艾尼帮我写作业”

看了上面火热的讨论,你一定很好奇“艾尼”、“ERNIE”到底是个啥?

自然语言处理 (Natural Language Processing,简称 NLP) 被誉为人工智能“皇冠上的明珠”。NLP 为各类企业及开发者提供用于文本分析及挖掘的核心工具,已经广泛应用在电商、文化娱乐、金融、物流等行业客户的多项业务中。

而艾尼(ERNIE),可谓是目前 NLP 领域的最强中文预训练模型。

9 月 5 日,百度资深研发工程师龙老师,就通过直播带开发者走近最强中文 NLP 预训练模型 ERNIE,在线上解读了一系列艾尼 ERNIE 的强大特性,并现场与同为 NLP 模型的 BERT 直接 PK,让开发者连连感叹,希望能把 ERNIE 运用到自己的工作与生活之中。

错过了直播没关系,让我们来回顾一下课上都讲了什么~

什么是艾尼(ERINE)?

艾尼(ERNIE)是百度自研的持续学习语义理解框架,该框架支持增量引入词汇(lexical)、语法(syntactic)、语义(semantic)等 3 个层次的自定义预训练任务,能够全面捕捉训练语料中的词法、语法、语义等潜在信息。

这些任务通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的知识。这也意味着,该框架可以通过持续构建不同的预训练任务,持续提升模型效果。因此 ERNIE 具有了更好的语义理解能力。


ERNIE 2.0 持续学习语义理解框架

ERNIE 好用么?

好不好用,摆事实才知道。

直播环节中,龙老师直接用填空题的形式展示了 ERNIE 与 BERT 在填空方面的表现。

例如题目:中国历史上唯一的正统女皇帝是?[?],下面是直播中两种算法的表现:

ERNIE 的结果是“武则天”,而 BERT 的结果是“宋太帝”。ERNIE 能输出“武则天”说明它确实能学到“武则天”与“女皇帝”之间的关联。

而 BERT 输出的“宋太帝”虽然每个字“宋”、“太”、“帝”都与“皇帝”相关,但是连在一起就不是一个完整的词,而且也不能与“女皇帝”的形成照应。

再如,陈晓的妻子是?[?]

ERNIE 用答案向我们证明了自己不只懂百科,也懂八卦。

通过上面的 DEMO 测试,我们也就引出了这样一个问题:

ERNIE 和 BERT 最大的区别是什么?

ERNIE1.0 能够充分学习词语、短语、命名实体识别中字与字之间的关系,将其整体进行掩码。而 BERT 不具备这样的能力。ERNIE2.0 则通过持续构造辅助任务让 ERNIE 进行学习,会的任务越多能力越强大。

这与 BERT 只靠一两个任务进行预训练的思路是完全不同的。就像小学生做题,一直只练一种题型肯定是不行的,需要多种题型都会做,既要有专项突破也要有综合练习,这样才能成为真正的学霸。

随着多样的训练数据的增加,ERNIE 通过持续学习就能够学得越来越好。

ERNIE 作为模型,也需要与深度学习框架深度配合,才能实现最佳的效果。百度开源的深度学习框架飞桨(PaddlePaddle)对 ERNIE 模型有非常好的定制优化,使得其加速比达到 77%,可以说是 ERNIE 背后的神助攻。

ERNIE 借助飞桨 PaddlePaddle 多机分布式训练优势,利用 79 亿 tokens 训练数据(约 1 / 4 的 XLNet 数据)和 64 张 V100(约 1 / 8 的 XLNet 硬件算力)训练的 ERNIE 2.0 预训练模型不仅实现了在中英文 16 个任务上的最优效果,而且为开发人员定制自己的 NLP 模型提供了方案。

目前,百度开源了 ERNIE 2.0 的 Fine-tuning 代码和英文预训练模型。

本次基于艾尼 ERNIE 的直播,同步在爱奇艺、IT 大咖说、BiliBili、虎牙、斗鱼五个平台同步直播,收到了近 3W 开发者的关注与讨论。

直播回放视频已经上线,欢迎大家继续学习~

回顾 ERNIE 的原理、优势以及案例,请戳回放视频:
http://play.itdks.com/watch/8…http://play.itdks.com/watch/8591895

在 11 月,ERNIE 的线下培训课程也会在上海、成都等地分别落地,欢迎关注“百度 NLP”公众号,关注最新报名信息~

划重点!
查看 ERNIE 模型使用的完整内容和教程,请点击下方链接,建议点击 Star 收藏到个人主页,方便后续查看。
GitHub:https://github.com/PaddlePaddle/ERNIE

版本迭代、最新进展都会在 GitHub 第一时间发布,欢迎持续关注!
也邀请大家加入 ERNIE 官方技术交流QQ 群:760439550,可在群内交流技术问题,会有 ERNIE 的研发同学为大家及时答疑解惑。

正文完
 0