关于百度搜索技术大赛:显式融合词法和句法特征的抽取式机器阅读理解模型

47次阅读

共计 3613 个字符，预计需要花费 10 分钟才能阅读完成。

论文链接：http://www.c-s-a.org.cn/html/…

预训练语言模型尽管可能为每个词提供低劣的上下文示意特色, 但却无奈显式地给出词法和句法特色, 而这些特色往往是了解整体语义的根底. 鉴于此, 本文通过显式地引入词法和句法特色, 探索其对于预训练模型浏览理解能力的影响. 首先, 本文选用了词性标注和命名实体辨认来提供词法特色, 应用依存剖析来提供句法特色, 将二者与预训练模型输入的上下文示意相交融. 随后, 咱们设计了基于注意力机制的自适应特色交融办法来交融不同类型特色. 在抽取式机器浏览了解数据集 CMRC2018 上的试验表明, 本文办法以极低的算力老本, 利用显式引入的词法和句法等语言特色帮忙模型在 F1 和 EM 指标上别离获得 0.37% 和 1.56% 的晋升.

抽取式机器浏览了解能够形式化地定义为: 给定一个蕴含 m 个字符的问题 q=(q1,q2,⋯,qm) , 一个蕴含 n 个字符的文章 p=(p1,p2,⋯,pn) 以及一个蕴含 l 个字符的答案 a=(a1,a2,⋯,al) , 其为 p 中的一个子序列. 咱们的指标是学习一个机器浏览了解模型 f , 来依据输出文章 p 和问题 q 失去输入答案 a , 如式 (1) 所示:

f(p,q)→a (1)
本文工作的构造如图 1 所示, 咱们利用已有的模型对输出数据进行预处理, 失去文本特色. 咱们的问答模型首先应用 BERT 对问题和文章进行编码失去编码后的输入 HC . 接下来, 将 HC 与表征为向量的文本特色通过自适应的注意力机制进行交融, 再应用多层 Transformer encoder 进行编码, 失去交融特色的编码表示 HF . 将二者通过自适应的注意力特色交融层, 失去咱们最终的输入 H , 并利用一个答案地位分类器失去最终的答案开始地位得分和完结地位得分.

1.2 基于 BERT 的抽取式浏览了解模型本文应用 BERT 作为基准模型来解决浏览了解问题. 本文工作输出的问题和文章是一串字符, 神经网络无奈间接解决这样的数据. 在预训练模型呈现前通常的做法是应用动态词向量将不同的词映射为对应的高维向量, 例如基于部分上下文窗口编码单词的 Word2Vec[17]和引入全局统计信息的 GloVe[18]. 而 BERT 则应用基于注意力机制的 Transformer encoder, 利用大规模语料通过其弱小编码能力将文本编码为具备上下文信息的文本向量. 针对本文所波及的问答工作这类的高低句工作, BERT 通常会将分字后的问题的词序列和文章的词序列连接起来, 输出序列如式 (2) 所示:X=[CLS],q1,⋯,qm,[SEP],p1,⋯,pn,[SEP]X=[CLS],q1,⋯,qm,[SEP],p1,⋯,pn,SEP 其中, qiqi 示意问题的词序列中第 ii 个字符, pipi 示意文章的词序列中第 ii 个字符; CLS 和 SEP 为 BERT 中定义的非凡标记, CLS 示意序列开始, SEP 则是分隔标记, 用来分隔问题和文章以及标识输出序列的完结. 随后, 咱们利用 BERT 的 Embedding 层将输出序列别离映射为词向量 (token embedding)、类型向量(segment embedding) 和地位向量 (position embedding), 将三者相加即为 BERT 的最终输出特色. 接着通过多层 Transformer encoder 进行编码, 进而取得问题与文章交互的向量示意 HCHC :HC={hC1,hC2,⋯,hCl}=BERT(EmbBERT(X)),hCi∈RdHC={h1C,h2C,⋯,hlC}=BERT(EmbBERT(X)),hiC∈Rd(3) 其中, ll 示意输出序列长度, dd 示意 BERT 输入的每个词对应的向量的维度, 在本文中 d=768d=768 , hCihiC 示意经由 BERT 编码后的第 ii 个词对应的上下文表征. 接下来, 通常的做法是应用一个全连贯层作为分类器失去答案开始地位和完结地位的得分向量, 如式 (4) 和式 (5):LogitBERTStart=Linear(HC)LogitBERTStart=Linear(HC)(4)LogitBERTEnd=Linear(HC)LogitBERTEnd=Linear(HC)(5) 在后续的特色交融模块中, 咱们将利用 BERT 输入的上下文向量 HCHC 与词法和句法特色进行交融.1.3 词法与句法特色以后的数据集仅仅包含文本模式的问题和文章, 并未蕴含所需的额定词法和句法特色, 为了获取额定特色, 咱们利用现有模型进行标注, 并将这些特色进行组合, 其中词法特色包含词性特色和命名实体特色, 句法特色包含依存剖析特色. 为了使得咱们的文本特色浏览模型尽可能地与 BERT 浏览模型在输出层的散布雷同, 咱们以单字粒度进行分词, 使得各个特色构建的向量与 BERT 预训练模型最大长度雷同, 以便间接进行拼接. 文本的特色示例如图 2 所示.

图 2 文本特色标注示例词性 (part of speech, POS) 特色: 咱们应用词性标注的 CTB 标准 [19], 包含 37 个词性标签. 以单字切分文本后, 应用 BIO 规定对特色进行重构, 即某个词 ww 的词性为 PP , 按字切分后为 {z1,z2,⋯,zn}{z1,z2,⋯,zn} , 咱们将其标注为 {B-P,I-P,⋯,I-P}{B-P,I-P,⋯,I-P} . 对于 BERT 中的 3 种非凡标签 CLS、SEP 和 UNK , 咱们标记为 O. 共计 75 种标签, 咱们将其转换为 75 维的 one-hot 向量. 命名实体(named entity, NE) 特色: 咱们应用 MSRA 的命名实体标注标准, 该标准源于中文文本标注标准 (5.0 版), 其中包含专有名词(NAMEX)、工夫表达式(TIMEX)、数字表达式(NUMEX)、度量表达式(MEASUREX) 和地址表达式 (ADDREX) 五大类及其上司的 31 个子类. 咱们同样应用 BIO 规定进行标注, 并将其转换为 63 维的 one-hot 向量. 依存剖析 (dependency parse, DEP) 特色: 该特色用来示意句法结构中各项之间的依赖关系 [20], 共 44 项. 咱们同样应用 BIO 规定进行标注, 并将其转换为 89 维的 one-hot 向量.1.4 特色交融模块在解决这些特色标签时, 咱们须要将其转换为向量的模式. 首先, 咱们对词性、命名实体和依存标签别离通过一个嵌入层映射为固定维度的向量, 并别离将这些特色与上下文特色 HCHC 通过相加的形式交融, 从而将不同的特色融入上下文示意, 见图 3. 接着咱们应用单个浅层的特色编码器对特征向量进行编码, 该编码器同样是 Transformer encoder. 编码后咱们便失去了词性特色的向量示意 HPHP (POS), 命名实体辨认特色的向量示意 HNHN (NE), 以及依存剖析特色的向量示意 HDHD (DEP), 编码过程能够如式(6)–式(8) 所示:

HP={hP1,hP2,⋯,hPl}=TransformerPOS(EmbPOS(POS(X))+HC),hPi∈RdHP={h1P,h2P,⋯,hlP}=TransformerPOS(EmbPOS(POS(X))+HC),hiP∈Rd(6)HN={hN1,hN2,⋯,hNl}=TransformerNE(EmbNE(NE(X))+HC),hNi∈RdHN={h1N,h2N,⋯,hlN}=TransformerNE(EmbNE(NE(X))+HC),hiN∈Rd(7)HD={hD1,hD2,⋯,hDl}=TransformerDEP(EmbDEP(DEP(X))+HC),hDi∈RdHD={h1D,h2D,⋯,hlD}=TransformerDEP(EmbDEP(DEP(X))+HC),hiD∈Rd(8)

其中, BERT 输入上下文相干特征向量 hCihiC 对应的权重为 aCiaiC , 词性特征向量 hPihiP 对应的权重为 aPiaiP , 命名实体特征向量 hNihiN 对应的权重为 aNiaiN , 依存剖析特征向量 hDihiD 对应的权重为 aDiaiD .

图 3 实体特色输出模块依据上下文编码对各个特色的注意力权重, 将所有特色进行加权交融, 失去最终的交融了词法与句法特色的问题与文章交互向量示意 HH , 如式(12)–式(15), 咱们应用全连贯层对 HH 进行二分类, 别离失去每个词作为答案开始地位和完结地位的概率, 并应用 Softmax 失去归一化后的起止地位的最终得分.LogitStart=Linear(H)LogitStart=Linear(H)(12)LogitEnd=Linear(H)LogitEnd=Linear(H)(13)ScoreStart=Softmax(LogitStart)ScoreStart=Softmax(LogitStart)(14)ScoreEnd=Softmax(LogitEnd)ScoreEnd=Softmax(LogitEnd)(15)

正文完