随着医疗行业的飞速发展,科研数据也在数字化时代中表演重要的角色。天池凋谢了一批有临床科研价值的数据集,笼罩多个技术畛域。明天小萌喵就带大家持续看看天池上用于医疗行业科研方向的数据集。
糖尿病常识图谱数据集 DiaKG
钻研方向:信息抽取(NER、关系抽取)、常识图谱、慢病治理
中国是世界上糖尿病(diabetes)患者最多的国家,国务院颁布的《“衰弱中国 2030”布局大纲》中,糖尿病被列为重点预防和监控的慢性病之一,也是影响青少年最常见的慢性疾病之一,全世界日均呈现 200 多名青年糖尿病患者,患者数一劳永逸。
本数据集来源于瑞金医院 MMC 人工智能辅助构建常识图谱大赛(https://tianchi.aliyun.com/co…),数据来源于近 10 年来的糖尿病专家共识和权威指南文献,标注数据涵盖了 22,050 个医学实体和 6,890 对实体关系的糖尿病常识图谱,旨在通过糖尿病相干的教科书、钻研论文来做糖尿病文献开掘并构建糖尿病常识图谱,是业界首个慢病畛域的凋谢常识图谱。
数据集详情请戳:https://tianchi.aliyun.com/da…
新冠疫情类似句对断定数据集
钻研方向:语义类似度、医学 QA、主动问诊 / 导诊
新冠疫情牵动着每一个人的心,为抗击疫情,疫情常识问答利用失去普遍推广。如何通过自然语言技术将问答进行类似分类是一个有价值的问题。利用场景有辨认患者类似问题(有利于了解患者真正诉求,帮忙疾速匹配精确答案,晋升患者取得感)、演绎医生类似答案有助于剖析答案规范性,保障疫情期间问诊规范性,防止误诊。
本数据集整顿近万条实在语境下疫情相干的肺炎、支原体肺炎、支气管炎、上呼吸道感化、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者的发问句对,可助力疫情智能问答利用技术精准度的晋升,摸索下一代医疗智能问答技术。该数据集来源于天池新冠疫情类似句对断定大赛 (https://tianchi.aliyun.com/co…)。
数据集详情请戳:https://tianchi.aliyun.com/da…
西医文献问题生成数据集
钻研方向:问题生成(Question Generation),文本生成
疫情催化下,人工智能正在继续助力中医药减速倒退,其中西医用药常识体系积淀开掘是一个根底工作。随着自然语言解决技术的一直倒退,问题主动生成 (Question Generation) 作为一个重要的研究课题曾经在很多理论利用场景中落地,通过机器被动发问能够高效构建或者补充知识库,扩充数据集规模。
问题生成技术曾经利用到医药畛域的主动问诊、辅助诊疗等理论场景中。该数据集来源于天池万创杯中医药大数据比赛(https://tianchi.aliyun.com/co…),是医疗畛域的问题生成的领头数据集。
本数据集的旨在依据篇章及对应的答案主动生成相应的问题,即篇章 + 答案→问题的流程,是首个中文医疗的问题生成数据集。
数据集详情请戳:https://tianchi.aliyun.com/da…
中药说明书实体辨认数据集
钻研方向:命名体辨认 / 实体辨认 /NER、常识图谱、正当用药
该数据集和上述的中医药文献问题生成数据集均来自万创杯中医药大数据比赛 (https://tianchi.aliyun.com/co…),数据来源于中药药品说明书,通过开掘中药说明书构建中药正当用药的常识图谱,能够为西医标准诊疗奠定良好基础。本数据集抽取中药药品说明书中的要害信息(如药品、药物成分、针对疾病与症状等)能够帮忙裁减中医药药品知识库。
数据集详情请戳:https://tianchi.aliyun.com/da…
中文医疗信息处理评测基准 CBLUE
钻研方向:医疗信息抽取、医学术语归一化、医学文本分类、医学 QA
因为医疗数据的隐衷性,中文畛域很少有公开评测基准,这给算法模型的公开评估和泛化能力都带来很大的挑战。CBLUE(Chinese Biomedical Language Understanding Evaluation Benchmark)就是在这样的背景下产生的。它是由中国中文信息学会医疗衰弱与生物信息处理业余委员会在非法凋谢共享的理念下发动,由阿里云天池平台承办的医疗自然语言解决评测基准。
评测基准来源于实在医疗场景的工作数据集,包含:医学文本信息抽取(实体辨认、关系抽取)、医学术语归一化、医学文本分类、医学句子关系断定和医学 QA 共 5 大类工作 8 个子工作。CBLUE 是国内首个医学自然语言解决挑战榜,指标是一起来推动医疗行业标准化数据集的倒退,并进一步助力行业倒退。
目前 CBLUE 曾经有 300+ 个机构在榜单提交了评测后果,堪称是高手星散,偷偷通知大家,榜单每月还会评出前六名,优胜选手能够取得天池定制的神秘礼品,快来挑战吧~
数据集详情请戳:https://tianchi.aliyun.com/da…
CBLUE 官网请戳:https://tianchi.aliyun.com/cblue
看完两篇医疗行业的数据集介绍,大家是否有播种呢?