共计 2730 个字符,预计需要花费 7 分钟才能阅读完成。
最近发现了一个医疗行业的数据集工作榜单:中文医疗信息处理挑战榜,本着利己利他的准则简略记录下这个数据集榜单,不便后续学习应用。
从名字来看,CBLUE 又是一个 *LUE 榜单,大家都晓得近年来 NLP 畛域随着预训练语言模型(上面简称 PTLM)的衰亡又迎来了一波迅猛发展,得益于 PTLM 技术的推动,催生出一批多任务的 benchmark 榜单,代表性的工作是 GLUE,在中文畛域也有 CLUE。CBLUE 的全名是 Chinese Biomedical Language Understanding Evaluation,是目前国内首个医疗 AI 方向的多任务榜单,置信这个榜单的推出会促成医疗语言模型的倒退和医疗 NLP 畛域的倒退。榜单的官网介绍如下:
中文医疗信息处理挑战榜 CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗衰弱与生物信息处理业余委员会在非法凋谢共享的理念下发动,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、北京大学等发展智慧医疗钻研的单位独特协办,旨在推动中文医学 NLP 技术和社区的倒退。
官网介绍榜单一共蕴含了 4 大类 8 细类工作,上面别离介绍:
医学信息抽取:
次要蕴含了实体辨认 NER 工作和关系抽取 RE 两个数据集:
- CMeEE(Chinese Medical Entity Extraction):是由“北京大学”、“郑州大学”、“鹏城实验室”和“哈尔滨工业大学(深圳)”联结提供。共包含 9 大类实体:疾病 (dis),临床表现(sym),药物(dru),医疗设施(equ),医疗程序(pro),身材(bod),医学测验我的项目(ite),微生物类(mic) 和科室(dep),其中“临床表现”实体类别中容许嵌套,该实体外部容许存在其余八类实体。嵌套实体一贯是 NER 工作中一个难点。
- CMeIE(Chinese Medical Information Extraction):和 CMeEE 工作一样,也是由“北京大学”、“郑州大学”、“鹏城实验室”和“哈尔滨工业大学(深圳)”联结提供的。共包含 53 类关系类型(具体类型参见官网介绍),这个工作须要打榜选手实现端对端的模型预测,即输出是原始的句子,选手须要实现实体辨认和关系抽取两个工作。从关系品种的数量 53 类来看,且标注标准中有提及到关系可能是跨句子散布的(“Combined”字段为 false),这是一个比拟难的工作。
医学术语归一化:
这个工作依照我的了解是应该归属到信息抽取这个大类的,都属于常识图谱结构的关键技术,不晓得官网为什么独自划分为一类,可能是有其余思考。包含了一个数据集:
- CHIP-CDN(CHIP – Clinical Diagnosis Normalization dataset):CHIP 这个名字一开始比拟困惑,Google 上查找了半天也没有找到是什么,起初认真看官网文档才发现 CHIP 就是这个榜单的发动单位组织的业余会议(历史教训通知咱们任何时候都要认真读文档),CHIP 示意中国衰弱信息处理会议,全称是 China Health Information Processing Conference,是中国中文信息学会医疗衰弱与生物信息处理业余委员会主办的对于医疗、衰弱和生物信息处理和数据挖掘等技术的年度会议,是中国衰弱信息处理畛域最重要的学术会议之一,这个会议曾经间断举办了六届,最近几届都公布了医疗方向的学术评测工作,这个榜单很多以 CHIP 结尾的数据集就是来源于大会上公布的评测工作。言归正传,CHIP-CDN 数据集是由北京医渡云公司提供的,这是一个规范的实体标准化/归一化工作,将给定的医学症状实体映射到医学规范字典(ICD-10)上。这是一个很有实际意义的工作,医生在书写病历的时候,同一个术语往往有多种不同的写法,甚至一个症状可能是多个规范症状的叠加(如官网中的例子:“右肺结节转移可能大”->“肺占位性病变 ##肺继发恶性肿瘤## 转移性肿瘤”),十分的简单。这类工作个别不能只靠模型来解决,须要联合具体的行业常识来做断定。
医学文本分类:
包含两个工作:
- CHIP-CTC(CHiP – Clinical Trial Criterion dataset):是由同济大学生命科学与技术学院提供,次要针对临床试验筛选规范进行分类,所有文本数据均来自于实在临床试验,也是一个有实在意义的工作。从技术上看,这是一个典型的短文本多分类问题,共有 44 个类别(具体类别请参照官网),分类工作钻研绝对较多,个别须要留神的是类别比例的散布。
- KUAKE-QIC(KUAKE-Query Intention Classification dataset),是由夸克浏览器提供。这也是一个文本分类问题,共有 11 种分类(具体分类请查看官网),和 CHIP-CTC 数据集的区别是这个工作的输出均来自于实在的用户 query,数据存在大量的乐音。
医学句子关系断定 / 医学 QA:
包含 3 个数据集:
- CHIP-STS(CHIP – Semantic Textual Similarity dataset):是由安全医疗科技公司提供。是一个典型的语义类似度判断问题,数据集共蕴含 5 大类疾病,输入后果是 0 / 1 两类标签。这个工作应该不算太难,其中疾病的类别信息也是一个输出,模型在设计的时候要把这个 feature 思考进去。
- KUAKE-QTR(KUAKE-Query Title Relevance dataset):也是由夸克公司提供,搞搜寻举荐算法的小伙伴们一看就晓得是一个 QT match 的问题,相比 CHIP-STS,这个数据集是一个 4 分类问题(共 0~3 分 4 档)。官网给的例子还是挺有难度辨别的,感觉模型不太容易跑出高性能。
- KUAKE-QQR(KUAKE-Query Query Relevance dataset):也是由夸克公司提供。和 KUAKE-QTR 相似,是一个典型的 Query-Query match 问题,是一个 3 分类问题(共 0~2 分 3 档)。难点同 QTR。
榜单设置根本笼罩了 *LUE 的问题大类,数据集起源散布广,包含了医学教科书、指南、临床试验文本以及互联网用户实在 Query,是一个十分好的医疗 NLP 榜单。心愿这个榜单能促成行业数据标准化并进一步推动医疗 AI 的疾速落地。
最初附上 CBLUE 榜单的相干链接:
CBLUE 官方网站:
https://tianchi.aliyun.com/cblue
CBLUE 数据集具体介绍 & 下载页面:
数据集 - 阿里云天池
CBLUE Paper: https://arxiv.org/abs/2106.08087
CBLUE Github:CBLUEbenchmark/CBLUE
感觉有用的筒子们帮忙点赞和关注哈~