关于深度学习:EasyNLP集成KBERT算法借助知识图谱实现更优Finetune

作者：汪诚愚张涛林黄俊

导读

常识图谱（Knowledge Graph）的概念⾸次呈现2012年，由Google提出，它作为⼀种⼤规模语义⽹络，精确地形容了实体以及实体之间的关系。常识图谱最早应⽤于搜索引擎，⽤于筹备返回⽤户所需的常识。随着预训练语⾔模型的一直倒退，将常识图谱中的常识三元组融⼊预训练模型，对晋升模型的成果有重要的作⽤。经典的常识注⼊算法间接将常识图谱中实体的词嵌⼊向量注⼊预训练模型的词嵌⼊向量中；然⽽，常识图谱中实体的词嵌⼊向量和预训练模型的词嵌⼊向量的向量空间不⼀致，⽽且容易引起常识噪⾳（Knowledge Noise）的问题。K-BERT算法提出利⽤Visible Matrix在BERT模型中引⼊内部常识，具备较好的成果。因而，咱们在EasyNLP这⼀算法框架中集成了K-BERT算法，使⽤户在具备常识图谱的状况下，获得更好的模型Finetune成果。

EasyNLP（https://github.com/alibaba/Ea…）是阿⾥云机器学习PAI 团队基于 PyTorch 开发的易⽤且丰盛的中⽂NLP算法框架，⽀持常⽤的中⽂预训练模型和⼤模型落地技术，并且提供了从训练到部署的⼀站式 NLP 开发体验。EasyNLP 提供了简洁的接⼝供⽤户开发 NLP 模型，包含NLP应⽤ AppZoo 和预训练 ModelZoo，同时提供技术帮忙⽤户⾼效的落地超⼤预训练模型到业务。因为跨模态了解需要的一直减少，EasyNLP也⽀持各种跨模态模型，特地是中⽂畛域的跨模态模型，推向开源社区，心愿可能服务更多的 NLP 和多模态算法开发者和研究者，也心愿和社区⼀起推动 NLP /多模态技术的倒退和模型落地。

本⽂简要介绍K-BERT的技术解读，以及如何在EasyNLP框架中使⽤K-BERT模型。

K-BERT模型详解BERT

等预训练语言模型从大规模语料库中捕捉文本语言示意，但不足畛域特定的常识。而领域专家在浏览畛域文本时，会利用相干常识进行推理。为了实现这一性能，K-BERT提出了面向常识图谱的常识加强语言模型，将三元组作为畛域常识注入到句子中。然而，过多的常识融入会导致常识乐音，使句子偏离其正确的含意。为了克服常识乐音, K-BERT引入了Soft-position和Visibel Matrix来限度常识的影响。因为K-BERT可能从预训练的BERT中加载模型参数，因而通过装备KG，能够很容易地将畛域常识注入到模型中，而不须要对模型进行预训练。K-BERT的模型架构和常识注入的利用示例如下所示：

特地地，在模型的输出层，K-BERT表征层通过地位索引将语句树转换为句子，结构三种表征形式：Token表征、Soft-position表征和Segment表征。其中Soft-position表征作为地位嵌入，为重排的序列提供句子构造信息。此外，通过Visible Matrix来笼罩不应该看到的Token，防止了常识噪声问题。如下图所示，以Beijing为例，给定常识三元组（Beijing，capital，China），K-BERT通过Visible Matrix限度只有Beijing能“看到”其相干的关系词和宾语，别离为“capital”和“China”。与之相同，一个常识无关的词now则无奈“看到”“capital”和“China”。

从作者论文中咱们也能够看到K-BERT中的Attention Matrix的计算过程：

其中，M即为Visible Matrix，为了示意K-BERT输出Token序列是否相互“看见”，定义M如下：

因而，当两个Token相互能够“看见”，M矩阵对应的元素值为0，因而Attention Matrix的计算过程和一般BERT雷同。反之，当两个Token不能相互“看见”，M矩阵对应的元素值为负无穷，对应SoftMax函数后的权重则会趋于0，这使得这两个Token在Self-Attention计算过程中互无影响。这就在计算过程中，大大缓解了常识图谱加强过程的常识噪声问题。

K-BERT模型的实现与成果

在EasyNLP框架中，咱们在模型层构建了K-BERT模型的Backbone，其核⼼代码如下所示：

self.kbert = KBertModel(config, add_pooling_layer=False)
self.cls = KBertOnlyMLMHead(config)

outputs = self.kbert(
    input_ids,
    attention_mask=attention_mask,
    token_type_ids=token_type_ids,
    position_ids=position_ids,
    head_mask=head_mask,
    inputs_embeds=inputs_embeds,
    encoder_hidden_states=encoder_hidden_states,
    encoder_attention_mask=encoder_attention_mask,
    output_attentions=output_attentions,
    output_hidden_states=output_hidden_states,
    return_dict=return_dict,
)

sequence_output = outputs[0]
prediction_scores = self.cls(sequence_output)
loss_fct = CrossEntropyLoss()
masked_lm_loss = loss_fct(prediction_scores.view(-1, self.config.vocab_size), labels.view(-1))

其中，在K-BERT中，模型Backbone的Attention Mask由两个Matrix加和而成，别离为一般的Attention Mask和Visible Matrix，实现外围代码如下：

extended_attention_mask = self.get_extended_attention_mask(attention_mask, input_shape, device) + self.get_extended_attention_mask(visible_matrix, input_shape, device)

在数据预处理过程中，咱们须要取得以后样本的输出文本和常识三元组，从而计算出Visible `

 if self.kbert_model_prefix:
        encoding['input_ids'], encoding['token_type_ids'], encoding['attention_mask'], encoding['position_ids'], encoding['visible_matrix'] = self.kbert_row_data_process(encoding['input_ids'], encoding['token_type_ids'], encoding['attention_mask'])

为了验证EasyNLP框架中K-BERT模型在各种工作上的精度，咱们在多个公开数据集上验证了句子分类和NER工作的成果。咱们应用EasyNLP加载了BERT模型，比照复现后果和K-BERT官网论文的后果，如下所示：

数据集	Dev复现后果	Dev论文后果	Test复现后果	Test论文后果
Book_review	88.5	88.6	87.06	87.2
Chnsenticorp	94.3	94.6	95.08	95.6
MSRA-NER	94.56	94.5	94.46	94.5

能够通过上述后果，验证EasyNLP框架中K-BERT算法实现的正确性。

K-BERT模型使⽤教程

以下咱们简要介绍如何在EasyNLP框架使⽤K-BERT模型。

装置EasyNLP

⽤户能够间接参考GitHub（https://github.com/alibaba/Ea…）上的阐明装置EasyNLP算法框架。

数据筹备

K-BERT是一个finetune模型，须要用户筹备上游工作的训练与验证数据，为tsv文件。对于文本分类工作，这⼀⽂件蕴含以制表符\t分隔的三列，第一列是标签，第二列是句子序号，第三列是文本句子。样例如下：

0    25    作者必定是手头有一本年表和名册的，人物事件口头齐全扣合野史，人物性格也多有《百家讲坛》为证，人物年龄的bug比红楼梦还少，叙述事件某某年某某月某某伐某某不厌其烦，可是切合历史绝不是说它是好小说的理由啊！我感觉玛丽苏都不是致命伤，要害是情节童稚看不下去啊！

对于NER工作，同样为一个tsv文件，由\t分隔为文本和label两列，文本字与字之间用空格隔开。样例如下：

猎 豹 移 动 方 面 解 释 称 ， 移 动 收 入 和 海 外 收 入 的 增 长 主 要 得 益 于 L i v e . m e 产 品 在 海 外 市 场 的 快 速 增 长 。    B-ORG I-ORG I-ORG I-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O

下列⽂件曾经实现预处理，可⽤于测试：

https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/K-BERT/kbert_data.zip

K-BERT⽂本分类示例

在文本分类工作中，咱们采⽤以下命令对K-BERT模型进⾏finetune，模型在finetune过程中也会主动输入评估后果。其中，用户能够在前述预处理示例文件中找到训练集chnsenticorp/train.tsv、评测集chnsenticorp/dev.tsv以及常识图谱文件kbert_kgs/HowNet.spo。kbert_cls.py位于EasyNLP我的项目下的examples/kbert/下。相干示例代码如下：

python kbert_cls.py \
--mode train \
--tables tmp/kbert_data/chnsenticorp/train.tsv,tmp/kbert_data/chnsenticorp/dev.tsv \
--input_schema label:str:1,sid1:str:1,sent1:str:1 \
--first_sequence sent1 \
--label_name label\
--label_enumerate_values 0,1 \
--checkpoint_dir ./tmp/kbert_classification_model/ \
--learning_rate 2e-5 \
--epoch_num 2 \
--random_seed 42 \
--save_checkpoint_steps 50 \
--sequence_length 128 \
--micro_batch_size 16 \
--app_name text_classify \
--user_defined_parameters "pretrain_model_name_or_path=kbert-base-chinese kg_file=tmp/kbert_data/kbert_kgs/HowNet.spo"

K-BERT命名实体辨认示例

在NER工作中，咱们采⽤以下命令对K-BERT模型进⾏finetune，其应用形式与文本分类雷同：

python kbert_ner.py \
--mode train \
--tables tmp/kbert_data/financial_ner/train.tsv,tmp/kbert_data/financial_ner/dev.tsv \
--input_schema content:str:1,label:str:1 \
--first_sequence content \
--label_name label\
--label_enumerate_values B-ORG,B-PER,B-POS,I-ORG,I-PER,I-POS,O \
--checkpoint_dir ./tmp/kbert_ner_model/ \
--learning_rate 2e-5 \
--epoch_num 2 \
--random_seed 42 \
--save_checkpoint_steps 50 \
--sequence_length 128 \
--micro_batch_size 16 \
--app_name sequence_labeling \
--user_defined_parameters "pretrain_model_name_or_path=kbert-base-chinese kg_file=tmp/kbert_data/kbert_kgs/HowNet.spo"

将来瞻望

在将来，咱们打算在EasyNLP框架中集成更多中⽂常识模型，笼罩各个常⻅中⽂畛域，敬请期待。咱们也将在EasyNLP框架中集成更多SOTA模型（特地是中⽂模型），来⽀持各种NLP和多模态工作。此外，阿⾥云机器学习PAI团队也在继续推动中⽂多模态模型的⾃研⼯作，欢送⽤户继续关注咱们，也欢送加⼊咱们的开源社区，共建中⽂NLP和多模态算法库！

Github地址：https://github.com/alibaba/Ea…

Reference

Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. arXiv
Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, and Ping Wang. 2020. K-BERT: Enabling Language Representation with Knowledge Graph. In AAAI. 2901–2908
K-BERT原作者开源代码：https://github.com/autoliuweijie/K-BERT

阿里灵杰回顾

阿里灵杰：阿里云机器学习PAI开源中文NLP算法框架EasyNLP，助力NLP大模型落地
阿里灵杰：预训练常识度量较量夺冠！阿里云PAI公布常识预训练工具
阿里灵杰：EasyNLP带你玩转CLIP图文检索
阿里灵杰：EasyNLP中文文图生成模型带你秒变艺术家

关于深度学习:EasyNLP集成KBERT算法借助知识图谱实现更优Finetune

导读

K-BERT模型详解BERT

K-BERT模型的实现与成果

K-BERT模型使⽤教程

装置EasyNLP

数据筹备

K-BERT⽂本分类示例

K-BERT命名实体辨认示例

将来瞻望

Reference

阿里灵杰回顾

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于深度学习:EasyNLP集成KBERT算法借助知识图谱实现更优Finetune

导读

K-BERT模型详解BERT

K-BERT模型的实现与成果

K-BERT模型使⽤教程

装置EasyNLP

数据筹备

K-BERT⽂本分类示例

K-BERT命名实体辨认示例

将来瞻望

Reference

阿里灵杰回顾

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复