关于百度搜索技术大赛:ERNIE模型介绍

ERNIE1.0ERNIE1.0的论文:https://arxiv.org/pdf/1904.09... ERNIE系列的代码:https://github.com/PaddlePadd... ERNIE1.0的预训练代码能够查看https://github.com/PaddlePadd... ERNIE1.0应用的是BERT作为backbone,但相比于bert, 1)ERNIE1.0应用了三个level的mask策略,减少了预训练难度,让模型学到了更多常识。 2)ERNIE1.0新增了DLM(Dialogue Language Model )工作。 3)应用了更多类型的训练数据。 ERNIE1.0三个level的mask别离是basic-level masking、phrase-level masking和entity-level masking。而bert只是应用了basic-level masking。 basic-level masking以字为单位进行masking。 phrase-level masking以短语为单位进行masking。 entity-level masking以实体为单位进行masking。 ERNIE2.0ERNIE2.0的论文:https://arxiv.org/abs/1907.12412 ERNIE系列的代码:https://github.com/PaddlePadd... ERNIE2.0的次要奉献在于: 提出了反对continual multi-task learning的ERNIE framework。提出了三种无监督类型的工作:word-aware pretraining task,struture-aware pretraining task , semantic-aware pretraining taskERNIE frame反对continual multi-task learning。传统的multi-task learning从0开始学习(下图中),传统的continual learning顺次训练task1、task2、.... taskn(下图右)。而continual multi-task learning 顺次增加新工作,然而每来一个工作仍会和旧工作组合成multi-task learning(下图左)。 continal multi-task learning是在预训练中应用的。在finetune中,只须要加载相应的构造,针对特定的工作finetune,造成相应工作的finetune模型。 ERNIE3.0ERNIE3.0的论文:ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation ERNIE系列的代码:https://github.com/PaddlePadd... ERNIE3.0相比与ERNIE2.0, 1.在模型构造上提出了Universal Representation和Task-specific Representation。 2.在2.0的根底之上持续摸索continual multi-task learning,持续应用word-aware pretraining task、structure-aware pretraing task,但同时新增了knowledge-aware pretraining task。 ...

December 29, 2022 · 1 min · jiezi

关于百度搜索技术大赛:PaddleNLP如何自定义数据集

============ 如何自定义数据集通过应用PaddleNLP提供的 :func:load_dataset , :class:MapDataset 和 :class:IterDataset 。任何人都能够不便的定义属于本人的数据集。 从本地文件创建数据集从本地文件创建数据集时,咱们 举荐 依据本地数据集的格局给出读取function并传入 :func:load_dataset 中创立数据集。 以 waybill_ie <https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/information_extraction/waybill_ie>__ 快递单信息抽取工作中的数据为例: .. code-block:: from paddlenlp.datasets import load_datasetdef read(data_path): with open(data_path, 'r', encoding='utf-8') as f: # 跳过列名 next(f) for line in f: words, labels = line.strip('\n').split('\t') words = words.split('\002') labels = labels.split('\002') yield {'tokens': words, 'labels': labels}# data_path为read()办法的参数map_ds = load_dataset(read, data_path='train.txt',lazy=False) iter_ds = load_dataset(read, data_path='train.txt',lazy=True) 咱们举荐将数据读取代码写成生成器(generator)的模式,这样能够更好的构建 :class:MapDataset 和 :class:IterDataset 两种数据集。同时咱们也举荐将单条数据写成字典的格局,这样能够更不便的监测数据流向。 事实上,:class:MapDataset 在绝大多数时候都能够满足要求。个别只有在数据集过于宏大无奈一次性加载进内存的时候咱们才思考应用 :class:IterDataset 。任何人都能够不便的定义属于本人的数据集。 .. note:: ...

December 28, 2022 · 2 min · jiezi

关于百度搜索技术大赛:显式融合词法和句法特征的抽取式机器阅读理解模型

论文链接:http://www.c-s-a.org.cn/html/... 摘要:预训练语言模型尽管可能为每个词提供低劣的上下文示意特色, 但却无奈显式地给出词法和句法特色, 而这些特色往往是了解整体语义的根底. 鉴于此, 本文通过显式地引入词法和句法特色, 探索其对于预训练模型浏览理解能力的影响. 首先, 本文选用了词性标注和命名实体辨认来提供词法特色, 应用依存剖析来提供句法特色, 将二者与预训练模型输入的上下文示意相交融. 随后, 咱们设计了基于注意力机制的自适应特色交融办法来交融不同类型特色. 在抽取式机器浏览了解数据集CMRC2018上的试验表明, 本文办法以极低的算力老本, 利用显式引入的词法和句法等语言特色帮忙模型在F1和EM指标上别离获得0.37%和1.56%的晋升. 抽取式机器浏览了解能够形式化地定义为: 给定一个蕴含 m 个字符的问题 q=(q1,q2,⋯,qm) , 一个蕴含 n 个字符的文章 p=(p1,p2,⋯,pn) 以及一个蕴含 l 个字符的答案 a=(a1,a2,⋯,al) , 其为 p 中的一个子序列. 咱们的指标是学习一个机器浏览了解模型 f , 来依据输出文章 p 和问题 q 失去输入答案 a , 如式(1)所示: f(p,q)→a (1)本文工作的构造如图1所示, 咱们利用已有的模型对输出数据进行预处理, 失去文本特色. 咱们的问答模型首先应用BERT对问题和文章进行编码失去编码后的输入 HC . 接下来, 将 HC 与表征为向量的文本特色通过自适应的注意力机制进行交融, 再应用多层Transformer encoder进行编码, 失去交融特色的编码表示 HF . 将二者通过自适应的注意力特色交融层, 失去咱们最终的输入 H , 并利用一个答案地位分类器失去最终的答案开始地位得分和完结地位得分. 1.2 基于BERT的抽取式浏览了解模型本文应用BERT作为基准模型来解决浏览了解问题. 本文工作输出的问题和文章是一串字符, 神经网络无奈间接解决这样的数据. 在预训练模型呈现前通常的做法是应用动态词向量将不同的词映射为对应的高维向量, 例如基于部分上下文窗口编码单词的Word2Vec[17]和引入全局统计信息的GloVe[18]. 而BERT则应用基于注意力机制的Transformer encoder, 利用大规模语料通过其弱小编码能力将文本编码为具备上下文信息的文本向量.针对本文所波及的问答工作这类的高低句工作, BERT通常会将分字后的问题的词序列和文章的词序列连接起来, 输出序列如式(2)所示:X=[CLS],q1,⋯,qm,[SEP],p1,⋯,pn,[SEP]X=[CLS],q1,⋯,qm,[SEP],p1,⋯,pn,SEP其中, qiqi 示意问题的词序列中第 ii 个字符, pipi 示意文章的词序列中第 ii 个字符; CLS 和 SEP 为BERT中定义的非凡标记, CLS 示意序列开始, SEP 则是分隔标记, 用来分隔问题和文章以及标识输出序列的完结. 随后, 咱们利用BERT的Embedding层将输出序列别离映射为词向量(token embedding)、类型向量(segment embedding)和地位向量(position embedding), 将三者相加即为BERT的最终输出特色. 接着通过多层Transformer encoder进行编码, 进而取得问题与文章交互的向量示意 HCHC :HC={hC1,hC2,⋯,hCl}=BERT(EmbBERT(X)),hCi∈RdHC={h1C,h2C,⋯,hlC}=BERT(EmbBERT(X)),hiC∈Rd(3)其中, ll 示意输出序列长度, dd 示意BERT输入的每个词对应的向量的维度, 在本文中 d=768d=768 , hCihiC 示意经由BERT编码后的第 ii 个词对应的上下文表征.接下来, 通常的做法是应用一个全连贯层作为分类器失去答案开始地位和完结地位的得分向量, 如式(4)和式(5):LogitBERTStart=Linear(HC)LogitBERTStart=Linear(HC)(4)LogitBERTEnd=Linear(HC)LogitBERTEnd=Linear(HC)(5)在后续的特色交融模块中, 咱们将利用BERT输入的上下文向量 HCHC 与词法和句法特色进行交融.1.3 词法与句法特色以后的数据集仅仅包含文本模式的问题和文章, 并未蕴含所需的额定词法和句法特色, 为了获取额定特色, 咱们利用现有模型进行标注, 并将这些特色进行组合, 其中词法特色包含词性特色和命名实体特色, 句法特色包含依存剖析特色. 为了使得咱们的文本特色浏览模型尽可能地与BERT浏览模型在输出层的散布雷同, 咱们以单字粒度进行分词, 使得各个特色构建的向量与BERT预训练模型最大长度雷同, 以便间接进行拼接. 文本的特色示例如图2所示.图 2 文本特色标注示例词性(part of speech, POS)特色: 咱们应用词性标注的CTB标准[19], 包含37个词性标签. 以单字切分文本后, 应用BIO规定对特色进行重构, 即某个词 ww 的词性为 PP , 按字切分后为 {z1,z2,⋯,zn}{z1,z2,⋯,zn} , 咱们将其标注为 {B-P,I-P,⋯,I-P}{B-P,I-P,⋯,I-P} . 对于BERT中的3种非凡标签 CLS 、 SEP 和 UNK , 咱们标记为O. 共计75种标签, 咱们将其转换为75维的one-hot向量.命名实体(named entity, NE)特色: 咱们应用MSRA的命名实体标注标准, 该标准源于中文文本标注标准(5.0 版), 其中包含专有名词(NAMEX)、工夫表达式(TIMEX)、数字表达式(NUMEX)、度量表达式(MEASUREX)和地址表达式(ADDREX)五大类及其上司的31个子类. 咱们同样应用BIO规定进行标注, 并将其转换为63维的one-hot向量.依存剖析(dependency parse, DEP)特色: 该特色用来示意句法结构中各项之间的依赖关系[20], 共44项. 咱们同样应用BIO规定进行标注, 并将其转换为89维的one-hot向量.1.4 特色交融模块在解决这些特色标签时, 咱们须要将其转换为向量的模式. 首先, 咱们对词性、命名实体和依存标签别离通过一个嵌入层映射为固定维度的向量, 并别离将这些特色与上下文特色 HCHC 通过相加的形式交融, 从而将不同的特色融入上下文示意, 见图3. 接着咱们应用单个浅层的特色编码器对特征向量进行编码, 该编码器同样是Transformer encoder.编码后咱们便失去了词性特色的向量示意 HPHP (POS), 命名实体辨认特色的向量示意 HNHN (NE), 以及依存剖析特色的向量示意 HDHD (DEP), 编码过程能够如式(6)–式(8)所示: ...

December 26, 2022 · 1 min · jiezi

关于百度搜索技术大赛:机器阅读理解之多答案抽取论文推荐

A Multi-Type Multi-Span Network for Reading Comprehension that Requires Discrete Reasoning (Hu et al., 2019)本文通过减少一个预测answer span的数目的分类子工作,联合non-maximum suppression (NMS) 算法,失去置信度最高且互不重叠的 个answer span。 这是一个多类型、多跨度的浏览了解网络,须要对段落内容进行离散推理。咱们加强了一个反对逻辑否定的多类型答案预测器,提出了一种产生多个答案的多跨度抽取办法,并设计了一个算术表达式重排机制来进一步确认预测。咱们的模型在DROP暗藏测试集上实现了79.9 F1,发明了新的最先进的后果。作为将来的工作,咱们将思考解决其余类型,如排序或乘法/除法。咱们还打算摸索更先进的办法来进行简单的数字推理。 https://github.com/huminghao1... Tag-based Multi-Span Extraction in Reading Comprehension (Efrat et al., 2019)本文富裕创意地的联合了MRC和NER两种工作的思路解决多答案抽取,后续DROP的top solution大多连续了本文的思路。 https://github.com/eladsegal/... 论文链接:https://arxiv.org/pdf/1909.13...

December 26, 2022 · 1 min · jiezi

关于百度搜索技术大赛:百度搜索首届技术创新挑战赛方案总结

霈然-百度搜寻大赛-赛道一wpr-https://aistudio.baidu.com/ai...-洪荒流1st-百度搜寻首届技术创新挑战赛:赛道一之子工作1https://aistudio.baidu.com/ai...sosojust1984-百度搜寻首届技术创新挑战赛:赛道一调参框架https://aistudio.baidu.com/ai...Coggle阿水-百度搜寻首届技术创新挑战赛:赛道一baselinehttps://aistudio.baidu.com/ai...usensor-百度搜寻首届技术创新挑战赛赛道二Baselinehttps://aistudio.baidu.com/ai...致Great-STI较量工作一:【智能问答baseline】https://aistudio.baidu.com/ai...

December 26, 2022 · 1 min · jiezi