乐趣区

关于机器学习:粉红杀手通缉令AI-阅读乳腺-X-光片的能力已与医生相当

据世界卫生组织统计,2020 年寰球新发乳腺癌病例 230 万例,在所有癌症中居首位,超过肺癌成为第一大癌。
然而,如果可能晚期发现并加以及时医治,在肿瘤转移之前杀死癌细胞,乳腺癌的致死率就能够大大降低。目前乳腺癌初筛的罕用伎俩是乳腺 X 光,随后医生通过剖析复核 X 光片对乳腺衰弱状况进行判断。但复核过程会耗费大量工夫,影响其余患者的就诊。
为此,英国诺丁汉大学的研究者比照了商用 AI 与医生浏览乳腺 X 光片的能力,为 AI 在临床医疗的利用提供了新思路。

作者 | 雪菜
编辑 | 三羊、铁塔
本文首发于 HyperAI 超神经微信公众平台~

据美国癌症协会统计,2022 年美国女性新发癌症病例数约 93 万例,其中新增乳腺癌患者约 29 万人,占比 31%。同时,癌症死亡病例中乳腺癌患者占比 15%,仅次于肺癌。

图 1:美国 2022 年新发癌症病例数(上)及癌症死亡数(下)

在中国,乳腺癌是 21 世纪女性患者中占比最高的癌症,且每年新增患者数量在一直减少。

图 2:2000-2016 年我国女性新增癌症病例数,灰色为乳腺癌病例数

乳腺癌是异样乳腺细胞成长失控并造成肿瘤引起的疾病。如果不及时干预,肿瘤会转移扩散,最终危及性命。但如果能在癌症初期发现部分肿瘤,并开始医治,癌症的五年存活率可达 99%。

目前,医院个别通过乳腺 X 光进行乳腺癌初筛。然而,在初筛过程中可能会呈现假阳性,使得没有癌症的患者进行不必要的检测。还会呈现脱漏,延误患者最佳医治工夫。

因而,许多欧洲国家会对乳腺 X 光片进行复查,尽可能排除掉假阳性的病例。这一办法卓有成效,在升高假阳性的同时,还将癌症的检测率进步了 6%-15%。

然而,对 X 光片进行浏览评估须要消耗相当的工夫。 在医患比偏低的地区,X 光片的复查不仅占用了医生的工夫,而且会影响到其余患者的晚期筛查。

AI 的利用局部缓解了医生的工作压力,然而将生命衰弱交给 AI 去评估仿佛有些不太稳当。 对此,英国诺丁汉大学的 Yan Chen 传授示意,「将 AI 利用于临床医疗面临着很大的压力,但咱们须要将这件事做好,以爱护女性的衰弱」。

为此,Yan Chen 团队比照了商用 AI Lunit 与医生浏览乳腺 X 光片的准确率。结果显示,Lunit 剖析乳腺 X 光片的能力与人类医师相当。 这一成绩已发表于「Radiology」。

论文链接:

https://pubs.rsna.org/doi/10.1148/radiol.223299#_i13

试验过程

数据集:PERFORMS 数据集

本钻研选用两组 PERFORMS 数据集作为模型的测试集。每组 PERFORMS 数据集由 60 张具备挑战性的 X 光片组成,包含恶性肿瘤 (约占 35%)、良性肿瘤和失常后果。过来 30 年间,PERFORMS 数据集用于英国国家卫生服务乳腺筛查打算 (NHSBSP) 医生的入门测试和惯例考核。

评估规范:标注 + 评分

在对 X 光片进行剖析时,医生会在可疑的地位做出标注,最初做出 1-5 的评级,对应失常、良性、不确定、可疑及恶性。

AI 会对 X 光片的各个特色的可疑水平进行 1-100 的评分,最高分视为对整个 X 光片的评分。如果没有可疑特色,则视为 0 分。

图 3:医生与 AI 对乳腺 X 光片的剖析后果

A:蓝色箭头为直径 8 mm 的不明肿块,后鉴定为组织学 2 级导管癌;

B:红色十字是 AI 发现的异样特色,蓝点是医生在剖析时标注出的可疑区域。

比照后果:特异性 + 灵敏度

共有 552 名医生参加了这场较量,占 NHSBSP 总人数的 68%,其中有 315 名放射科医生、206 名喷射技师和 31 名临床医生。

在对两组 PERFORMS 数据集进行剖析后,他们认为 161 个乳腺 X 光片后果是失常的,70 个乳腺中有恶性肿瘤,还有 9 个为良性肿瘤。恶性肿瘤的常见特色包含肿块 (64.3%)、钙化 (12.9%)、不对称 (11.4%) 和构造扭曲 (11.4%),均匀病变大小为 15.5 ± 9.2 mm。

表 1:PERFORMS 数据集后果

人类组的均匀 AUC 为 0.88。AI 组的 AUC 为 0.93,对应人类组 96.8 百分位数,但两组的 AUC 没有显著差别。

图 4:医生组 AUC 直方图与 AI 的 AUC(黄线)

人类组的均匀灵敏度和特异性别离为 90% 和 76%。在开发者举荐的阈值下,AI 的敏感性和特异性别离为 84% 和 89%。

表 2:医生组与不同阈值 AI 的判断后果

TP:真阳性;

FP:假阳性;

TN:真阴性;

FN:假阴性;

灵敏度 = TP / 总阳性数;

特异性 = TN / 总阴性数。

在 AI 的 ROC 曲线中,52% 的医生体现在曲线之上,36% 在曲线下方,12% 的体现与 ROC 曲线统一。

图 5:AI 的 ROC 曲线,其中蓝点是不同医生的体现

当 AI 的阈值为 3.06 时,AI 的灵敏度与医生统一,检测出了 63 例恶性肿瘤,仅脱漏了 7 例。此时 AI 的特异性与医生没有显著差别。

当阈值设置为 2.91 时,AI 与医生组的特异性统一,灵敏度为 91%。上述结果显示,Lunit 的 AI 剖析乳腺 X 光片的灵敏度和特异性与人类医生相当。

图 6:不同阈值对 AI 判断后果的影响

A:蓝色箭头为不对称区域,后鉴定为组织学 2 级导管癌;

B:AI 阈值为 2.91 时的检测后果,红色十字最终鉴定为真阳性;

C:AI 阈值为 3.06 时的检测后果,没有发现显著异样特色。

Yan Chen 传授示意,「这一钻研的后果为 AI 筛查提供了无力证据,阐明 AI 对乳腺 X 光片的剖析程度与人类医生相当」。

乳腺癌:隐匿的粉红杀手

2021 年 2 月 4 日世界癌症日上,世界卫生组织 (WHO) 属下的国内癌症研究所称,上一年新增 230 万例乳腺癌病例,占比 11.7%,首次超过了肺癌新增病例数,俨然成为「隐匿的粉红杀手」。

同时,乳腺癌发病率最高的群体是高支出国家的妇女,中低收入国家的女性发病率显著更低。而且,还有约 0.5-1% 的乳腺癌来自于男性。

不过,乳腺癌自身的致死率并不高。 2016-2020 年诊断出乳腺癌并存活的女性达 800 万人,高于其余癌症。

目前 WHO 正在全世界推广寰球乳腺癌口头,心愿通过早发现、及时诊断和全面的乳腺癌治理来升高寰球因乳腺癌死亡的人数。

图 7:AI 辅助的乳腺癌筛查

作为乳腺癌初筛的无力工具,AI 可能及时发现乳腺癌晚期的特色,无望将「粉红杀手」扼杀于准备阶段。但当初大规模在临床中推广 AI 可能为时过早,因为环境和算法自身的变动会一直影响,导致 AI 的灵敏度和特异性随工夫而降落。

Yan Chen 传授也认为,「一旦 AI 进入临床利用,咱们就必须有一个机制对其进行继续的评估和监测 」。当初,世界各国的钻研团队正在对 AI 的检测后果进行评估,曾经获得了令人满意的后果。 将来在高效的 AI 和欠缺的监管机制的帮忙下,各类疾病将「无处可藏」,咱们的衰弱将失去更稳固的保障。

参考链接:

[1]https://acsjournals.onlinelibrary.wiley.com/doi/10.3322/caac….

[2]https://www.sciencedirect.com/science/article/pii/S2667005422…

本文首发于 HyperAI 超神经微信公众平台~

退出移动版