关于百度搜索技术大赛:ERNIE模型介绍

9次阅读

共计 1537 个字符,预计需要花费 4 分钟才能阅读完成。

ERNIE1.0

ERNIE1.0 的论文:https://arxiv.org/pdf/1904.09…

ERNIE 系列的代码:https://github.com/PaddlePadd…

ERNIE1.0 的预训练代码能够查看 https://github.com/PaddlePadd…

ERNIE1.0 应用的是 BERT 作为 backbone,但相比于 bert,

1)ERNIE1.0 应用了三个 level 的 mask 策略,减少了预训练难度,让模型学到了更多常识。

2)ERNIE1.0 新增了 DLM(Dialogue Language Model) 工作。

3)应用了更多类型的训练数据。

ERNIE1.0 三个 level 的 mask 别离是 basic-level masking、phrase-level masking 和 entity-level masking。而 bert 只是应用了 basic-level masking。

basic-level masking 以字为单位进行 masking。

phrase-level masking 以短语为单位进行 masking。

entity-level masking 以实体为单位进行 masking。

ERNIE2.0

ERNIE2.0 的论文:https://arxiv.org/abs/1907.12412

ERNIE 系列的代码:https://github.com/PaddlePadd…

ERNIE2.0 的次要奉献在于:

提出了反对 continual multi-task learning 的 ERNIE framework。
提出了三种无监督类型的工作:word-aware pretraining task,struture-aware pretraining task , semantic-aware pretraining task
ERNIE frame 反对 continual multi-task learning。传统的 multi-task learning 从 0 开始学习(下图中),传统的 continual learning 顺次训练 task1、task2、…. taskn(下图右)。而 continual multi-task learning 顺次增加新工作,然而每来一个工作仍会和旧工作组合成 multi-task learning(下图左)。

continal multi-task learning 是在预训练中应用的。在 finetune 中,只须要加载相应的构造,针对特定的工作 finetune,造成相应工作的 finetune 模型。

ERNIE3.0

ERNIE3.0 的论文:ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

ERNIE 系列的代码:https://github.com/PaddlePadd…

ERNIE3.0 相比与 ERNIE2.0,

1. 在模型构造上提出了 Universal Representation 和 Task-specific Representation。

2. 在 2.0 的根底之上持续摸索 continual multi-task learning,持续应用 word-aware pretraining task、structure-aware pretraing task,但同时新增了 knowledge-aware pretraining task。

3. 参数量增大到了 10 billion,ERNIE3.0 应用了 progressive training 以及更多的训练数据。

模型构造:Universal Representation 和 Task-specific Representation

正文完
 0