关于人工智能:一文详解常见医学自然语言理解任务和算法

3次阅读

共计 5165 个字符,预计需要花费 13 分钟才能阅读完成。

简介:CBLUE(Chinese Biomedical Language Understanding Evaluation Benchmark)包含医学文本信息抽取、医学术语标准化、医学文本分类和医学问答 4 大类常见的医学自然语言解决工作。

1. 引言

随着人工智能(AI)技术的一直倒退,越来越多的研究者开始关注 AI 技术在医学衰弱畛域的钻研利用,其中减速 AI 技术产业落地的一个重要环节就是规范数据集和迷信评估体系的建设。由中国中文信息学会医疗衰弱与生物信息处理业余委员发动的中文医疗信息处理挑战榜 CBLUE[1]于往年 4 月份上线,该 benchmark 笼罩了 8 种经典的医学自然语言了解工作,是业界首个公开的中文医疗信息畛域的公开评测基准,上线后受到了宽泛关注,目前曾经吸引了 100 多支队伍参加打榜。近日,CBLUE 工作组公开了论文 [2] 并开源了评测基准 baseline[3],心愿对中文医疗 AI 社区的技术倒退起到促进作用。本文对常见的医学自然语言了解工作以及模型办法做一个全面介绍。

2. 工作介绍

CBLUE 的全称是 Chinese Biomedical Language Understanding Evaluation Benchmark,包含医学文本信息抽取、医学术语标准化、医学文本分类和医学问答 4 大类常见的医学自然语言解决工作。CBLUE 为研究者们提供实在场景数据的同时,也为多个工作提供了对立的测评形式,目标是促成研究者们关注 AI 模型的泛化能力。

上面是各个子工作的简略介绍:

(1)医学信息抽取:

  • CMeEE(Chinese Medical Entity Extraction dataset):医学实体辨认工作, 辨认出医学文本中的要害术语,如“疾病”、“药品”、“查看测验”等。工作聚焦于儿科类常见疾病,数据来源于权威的医学教科书和专家指南。
  • CMeIE(Chinese Medical Information Extraction dataset):医学关系抽取工作,用于断定医学文本中两个实体之间的关系,如“类风湿性关节炎”与“关节压痛计数”之间存在“疾病 - 查看”的关系,数据源同 CMeEE。实体辨认和关系抽取是医学自然语言解决中十分根底的技术,可利用于电子病历结构化、医学知识图谱建设等。

(2)医学术语归一化:

  • CHIP-CDN(CHIP – Clinical Diagnosis Normalization dataset):医学临床术语标准化工作。临床上,对于同一种诊断、手术、药品、查看、症状等往往会有成千盈百种不同的写法(如:“Ⅱ型糖尿病”、“糖尿病(2 型)”和“2 型糖尿病”均示意同一个概念),标准化要解决的问题就是为临床上各种不同的写法找到对应的规范说法(如“ICD 编码”)。在实在利用中,术语标准化技术在医保结算、DRGs(诊断主动分组)产品中施展着重要作用。数据集来源于实在的医生书写的“诊断”条目,不波及患者隐衷。

(3)医学文本分类:

  • CHIP-CTC(CHIP – Clinical Trial Criterion dataset):临床试验筛选规范分类工作。临床试验是指通过人体志愿者也称为受试者进行的科学研究,目标是确定一种药物或一项医治办法的疗效、安全性以及存在的副作用,对促成医学倒退和进步人类衰弱都起着要害的作用。筛选规范是临床试验负责人拟定的鉴定受试者是否满足某项临床试验的次要指标(如“年龄”),临床试验的受试者招募个别是通过人工比拟病历记录表和临床试验筛选规范实现,这种形式费时费力且效率低下。本数据集建设的目标就是为了促成应用 AI 技术来主动做临床试验筛选分类,晋升科研效率。数据集来源于公开的中文临床试验注册网站,均有实在临床试验形成。
  • KUAKE-QIC(KUAKE – Query Intention Classification dataset),医疗搜寻用户查问用意辨认工作,指标是为了进步搜寻后果相关度。如用户查问“糖尿病该做什么查看?”的用意是想搜寻相干的“医治计划”。数据来源于搜索引擎的用户检索词条。

(4)医学检索和问答:

  • CHIP-STS(CHIP – Semantic Textual Similarity dataset):医学句子语义匹配工作。给定来自不同病种的问句对,断定两个句子语义是否相近,如“糖尿病吃什么?”和“糖尿病的食谱?”是语义相干的;“乙肝小三阳的危害”和“乙肝大三阳的危害”是语义不相干的。数据来源于脱敏过的互联网在线问诊数据。
  • KUAKE-QTR(KUAKE – Query/Title Relevance dataset):医学搜寻“检索词 - 页面题目”相关度匹配工作,用于断定搜索引擎场景中用户检索词与返回页面的题目之间的相关度,指标是晋升搜寻后果的相关度。
  • KUAKE-QQR(KUAKE – Query/Query Relevance dataset):医学搜寻“检索词 - 检索词”相关度匹配工作,同 QTR 工作,用于断定两个检索词之间的语义相关度,指标是晋升搜寻场景中经典的用户检索长尾词的召回率。

3. 工作特点

CBLUE 工作组对评测基准蕴含的 8 个工作做了特点总结:

  1. 数据匿名且爱护隐衷:生物医学数据通常蕴含敏感信息,因而对这些数据的利用可能进犯个人隐私。对此,咱们在公布基准之前对数据进行不影响数据有效性的匿名化,并逐个进行了人工查看。
  2. 工作数据起源丰盛:如“医学信息抽取”大类的工作来源于医学教科书和专家权威指南;“医学文本分类”工作来源于实在凋谢的临床试验数据;“医学问答”类工作来源于搜索引擎或者互联网在线问诊语料。这些丰盛的场景和数据多样性为科研人员提供了钻研 AI 算法最重要的宝矿,同时也对 AI 算法模型的通用性提出了更高的挑战。
  3. 工作散布实在:CBLUE 榜单中的所有数据都来自事实世界,数据实在且有乐音,因而对模型的鲁棒性提出了更高的要求。以“医学信息抽取”大类工作为例:数据集遵循长尾散布,如图 (a) 所示;此外,一些数据集(如 CMeIE)具备粗粒度和细粒度关系标签的层次结构,这是合乎医学常识逻辑和人类认知的,如图 (b) 所示。真实世界数据分布为 AI 模型的泛化能力和拓展性提出了更高的要求。

4. 办法介绍

以 Bert[4]为代表,大规模预训练语言模型曾经成为了 NLP 问题求解的新范式,因而 CBLUE 工作组也抉择了 11 种最常见的中文预训练语言模型作为 baseline 来进行充沛的试验,并对数据集性能进行了详尽的评估,目前是业界最全的中文医疗自然语言了解工作基线,能够帮忙从业人员解决常见的医学自然语言了解问题。

11 种试验的预训练语言模型简介如下:

  • BERT-base[4]. 具备 12 层,768 维示意,12 个注意力头,总计 110M 参数的 BERT 基准模型;
  • BERT-wwm-ext-base[5]. 应用全词遮蔽(Whole Word Masking,WWM)的中文预训练 BERT 基准模型;

-RoBERTa-large[6]. 与 BERT 相比,RoBERTa 去除了下句预测(Next Sentence Prediction,NSP)工作,并动静抉择对训练数据的遮蔽形式;

  • RoBERTa-wwm-ext-base/large. 综合 RoBERTa 和 BERT-wwm 劣势的预训练模型;
  • ALBERT-tiny/xxlarge[7]. ALBERT 是在 transformer 的不同层共享权重,针对两个指标工作:遮蔽语言建模(Masked Language Model,MLM)和句子排序预测(Sentence Order Prediction,SOP)进行预训练的模型;
  • ZEN[8]. 基于 BERT 的 n -gram 加强中文文本编码器;
  • Mac-BERT-base/large[9]. Mac-BERT 是一种改良的 BERT,采纳 MLM 作为校对预训练任务,缩小了预训练和微调阶段的差别;
  • PCL-MedBERT[10]. 由鹏程实验室智能医学钻研小组提出的一种医学预训练语言模型,在医学问题匹配和命名实体辨认方面具备优异的性能。

5. 性能评估 & 剖析

下图为 11 种预训练模型在 CBLUE 上的基线体现:

如上表所示,应用更大的预训练语言模型,能够取得更好的性能。在某些工作中,应用全词遮蔽的模型并不比其余模型体现好,例如 CTC、QIC、QTR 和 QQR,这表明 CBLUE 中的工作具备肯定的挑战性,须要更好的模型来解决。此外,咱们发现 albert-tiny 在 CDN、STS、QTR 和 QQR 的工作中实现了与根底模型相当的性能,阐明较小的模型在特定的工作中也可能是无效的。最初,咱们留神到医学预训练语言模型 PCL-MedBERT 的性能不如预期的好,这进一步证实了 CBLUE 的难度,以后的模型可能很难疾速获得杰出的成果。

6. 结束语

CBLUE 挑战榜的指标是能够让钻研人员在非法、凋谢、共享的理念下无效的应用实在场景的数据,通过多任务场景设置来让研究者们更加关注模型的泛化性能。同时也心愿公开的基线评测代码能无效的促成医疗 AI 社区的技术提高。Baseline 代码地址是:https://github.com/CBLUEbenchmark/CBLUE,感觉有帮忙的读者能够 star 该我的项目。心愿在挑战榜上一展身手的小伙伴们请移步:https://tianchi.aliyun.com/specials/promotion/2021chinesemedicalnlpleaderboardchallenge

7. 参考

[1].https://mp.weixin.qq.com/s/wIqPaa7WBgkxUGLku0RBEw

[2]. https://arxiv.org/pdf/2106.08087.pdf

[3]. https://github.com/CBLUEbenchmark/CBLUE

[4]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In NAACL-HLT, 2018.

[5]. Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101, 2019.

[6]. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and V eselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019.

[7]. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942, 2019.

[8]. Shizhe Diao, Jiaxin Bai, Y an Song, Tong Zhang, and Y onggang Wang. Zen: pre-training chinese text encoder enhanced by n-gram representations. arXiv preprint arXiv:1911.00720, 2019.

[9]. Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, and Guoping Hu. Revisiting pre-trained models for chinese natural language processing. arXiv preprint arXiv:2004.13922, 2020.

[10]. https://code.ihub.org.cn/projects/1775

版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0