关于数据:WSDM-Cup-2020大赛金牌参赛方案全解析

近日，在美国休斯敦落幕的第 13 届网络搜寻与数据挖掘国内会议（WSDM 2020）上，华为云语音语义翻新 Lab 率领来自华南理工大学、华中科技大学、江南大学、武汉大学的四位学生组成的联结团队“Xiong 团队”，摘得 WSDM Cup 2020 大赛“论文援用用意辨认工作”金牌（Gold Medal）。

WSDM 被誉为寰球信息检索畛域最有影响力也最权威的会议之一，会议关注社交网络上的搜寻与数据挖掘，尤其关注搜寻与数据挖掘模型、算法设计与剖析、产业利用和晋升准确性与成果的试验剖析。往年曾经是 WSDM 的第十三届会议。

本文将具体介绍本次获奖的解决方案。

几个世纪以来，社会技术提高的关键在于科学家之间坦诚的学术交流。新发现和新实践在已发表的文章中公开散发和探讨，有影响力的奉献则通常被钻研界以引文的模式认可。然而，随着科研经费申请竞争日趋激烈，越来越多的人把学术研究当成一种资源抢夺的伎俩，而不是单纯为了推动常识提高。

局部期刊作者“被迫”在特定期刊中援用相干文章，以进步期刊的影响因子，而论文审稿人也只能减少期刊的援用次数或 h 指数。这些行为是对科学家和技术人员所要求的最高诚信的触犯，如果放任这种状况倒退，可能会毁坏公众的信赖并妨碍科学技术的将来倒退。因而，本次 WSDM Cup 2020 赛题之一将重点放在辨认作者的引文用意：要求参赛者开发一种零碎，该零碎能够辨认学术文章中给定段落的引文用意并检索相干内容。

华为云语音语义翻新 Lab 在自然语言解决畛域有着全栈的技术积攒，包含自然语言解决根底中的分词、句法解析，自然语言了解中的情感剖析、文本分类、语义匹配，自然语言生成，对话机器人，常识图谱等畛域。其中和本次较量最相干的技术是语义匹配技术。Xiong 团队通过对赛题工作进行剖析，针对该问题制订了一种“整体召回 + 重排 + 集成”的计划，该计划以轻量化的文本类似度计算方法（如 BM25 等）对文章进行召回，而后基于深度学习的预训练语言模型 BERT 等进行重排，最初通过模型交融进行集成。

本次较量将提供一个论文库（约含 80 万篇论文），同时提供对论文的形容段落，来自论文中对同类钻研的介绍。参赛选手须要为形容段落匹配三篇最相干的论文。

例子：

形容：

An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.

相干论文：

[1] BERT: Pre-training of deep bidirectional transformers for language understanding.[2] Relational inductive biases, deep learning, and graph networks.

评测计划：

本次赛题共给出 80 多万条候选论文，6 万多条训练样本和 3 万多条本测试样本，候选论文蕴含 paper_id，title，abstract，journal，keyword，year 这六个字段的信息，训练样本蕴含 description_id，paper_id，description_text 这三个字段的信息，而测试数据则给出 description_id 和 description_text 两个字段，须要匹配出相应的 paper_id。

咱们对数据中候选论文的 title，abstract 以及形容文本的长度做了一些统计分析，如图 1 所示，从图中咱们能够看到文本长度都比拟长，并且针对咱们后续的单模型，咱们将模型最大长度从 300 减少到 512 后，性能晋升了大概 1%。

图 1 候选论文的 Title（a），Abstract（b）以及形容文本（c）的长度散布

咱们计划的整体架构如图 2 所示，整体计划分为四个局部：数据处理，候选论文的召回，候选论文的重排以及模型交融。

图 2 整体计划架构（局部图引自[5]）

通过观察数据咱们发现，在题目给出的形容语句中，有许多雷同的形容文本，然而参考标记的地位却不同。也就是说，在同一篇文章中，不同的句子援用了不同的论文。为此，咱们抽取句子中援用标记地位处的语句作为新的形容语句生成候选集。

如表 1 所示，咱们选取形容中 [[##]] 之前的句子作为形容要害句。

如图 3 所示，咱们使用 BM25 和 TF-IDF 来进行论文的召回，选取 BM25 召回的前 80 篇论文和 TF-IDF 召回的前 20 篇论文形成并集组成最终的召回论文。

图 3 召回示意图

在本计划中，咱们用 BERT 模型作为根底模型，BERT 是一种能在基于查问的文章重排工作中获得良好性能的语义示意模型。通过观察数据发现，论文次要数据生物医学畛域，于是咱们聚焦到采纳生物医学畛域数据训练预训练模型。而后将查问与形容字段以句子对的模式输出进 BERT 模型进行训练。咱们的试验表明，在该工作上，单个的 BioBERT 的性能要比 BERT 性能高 5 个百分点。如图 4 为 BioBERT 的结构图。

图 4 BioBERT 结构图 (图引自[6])

在模型交融的过程中，咱们使用了 6 种共 9 个通过迷信和生物医药语料库训练的预训练模型别离为：BioBERT_v1.1 3，BioBERT_v1.0_PubMed_PMC 2，BioBERT_v1.0_PubMed 1，BioBERT_v1.0_PMC 1，BioBERT_dish1，SciBERT 1。他们的单模型在该工作中的性能如表 2 所示。

而后咱们对单模型输入的概率后果进行 blending 操作如图 5 所示，失去最初的模型后果，其比最好的单模型后果晋升了 1 个百分点左右。

图 5 模型交融

本文次要对较量中所应用的关键技术进行了介绍，如数据处理，候选论文的召回与重排，模型交融等。在较量中应用专有畛域训练后的预训练模型较通用畛域预训练模型成果有较大的晋升。因为较量工夫的限度，许多办法还没来得及试验，比方在较量中因为正负样本不均衡，导致模型训练后果不现实，能够正当的应用上采样或下采样来使样本达到绝对均衡，晋升模型训练成果。

[1] Yang W, Zhang H, Lin J. Simple applications of BERT for ad hoc document

retrieval[J]. arXiv preprint arXiv:1903.10972, 2019.

[2] Gupta V, Chinnakotla M, Shrivastava M. Retrieve and re-rank: A simple and

effective IR approach to simple question answering over knowledge

graphs[C]//Proceedings of the First Workshop on Fact Extraction and

VERification (FEVER). 2018: 22-27.

[3] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word

representations[J]. arXiv preprint arXiv:1802.05365, 2018.

[4] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask

learners[J]. OpenAI Blog, 2019, 1(8): 9.

[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. (2018)

BERT: Pre-training of Deep Bidirectional Transformers for Language

Understanding. arXiv preprint arXiv:1810.04805,.

[6] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim,

Chan Ho So, Jaewoo Kang,(2019) BioBERT: a pre-trained biomedical language

representation model for biomedical text mining, Bioinformatics,

[7] Iz Beltagy, Kyle Lo, Arman Cohan. (2019) SciBERT: A Pretrained Language

Model for Scientific Text, arXiv preprint arXiv:1903.10676SciBERT: A

Pretrained Language Model for Scientific Text, arXiv preprint arXiv:1903.10676,

2019.

[8] Nogueira R, Cho K.(2019) Passage Re-ranking with BERT. arXiv preprint

arXiv:1901.04085.

[9] Alsentzer E, Murphy J R, Boag W, et al. Publicly available clinical BERT

embeddings[J]. arXiv preprint arXiv:1904.03323, 2019.

点击关注，第一工夫理解华为云陈腐技术~

关于数据:WSDM-Cup-2020大赛金牌参赛方案全解析

1、背景

2、赛题介绍

3、数据分析

4、整体计划

4.1 数据处理

4.2 候选论文召回

4.3 候选论文重排

4.4 模型交融

5、总结与瞻望

参考文献