如何让AI像放射科医生一样看懂胸片

全文共2933字，预计学习时长6分钟

目前，世界上70亿人口中，只有大约10%能获得良好的卫生保健服务，而世界上一半的人口甚至接触不到基本的卫生服务。即使在发达国家，医疗保健体系也压力重重，因为其成本不断上升，等待时间也很长。并且，想要在短时间内培养足够多的医生和护理人员来满足日益增长的需求也很不切实际。要想解决这个问题，就必须实现技术突破。

这也正是机器学习(ML)和人工智能(AI)大有可为的领域。

本文将介绍一种简单但极其有效的深度学习方法。该方法的发明是为了理解胸部X光图像。

胸部X光片(CXRs)数目众多

CXR是最常见的医学成像技术，其使用量通常比其他高级成像方法（如核磁共振成像扫描、CT扫描、PET扫描等）高出2至10倍：

在2000多万张x光中，800多万张是胸部x光，因此胸部x光是最常见的标准化医学成像。

CXR受欢迎的原因包括：（1）辐射剂量较低；（2）成本较低；（3）只需不到一分钟的时间即可拍出一张片（相比之下，CT扫描需要一个小时甚至更长时间）。因此，CXRs被广泛用作筛查工具。如果你的肺部有问题，并且需要更多的依据来确诊，医生通常会先给你拍一个CXR。CXR能够提供一个低保真度的视图，而这也是其他更复杂的成像方法的基础。

一家规模较大的医院每天会拍数百甚至上千张CXR，这些多的CXR都需要放射科医生或其他医生来解读。并且，如果需要对紧急情况进行检测，比如住院病人出了什么问题，那么医生就必须在几个小时之内完成读片。总之，对放射科医生和内科医生来说，解读CXR是一项相当艰巨的任务。

读片涉及步骤多且耗时

受过良好训练的放射科医生阅读CXR的平均时长为一到两分钟。因为读取CXR是一个系统化的过程，所以很难加快速度。但是，有一种很受欢迎的记忆方法可以帮助读片，即ABCDEFGHI。其中， A代表气道，B代表骨骼，C代表心脏……学到了吧。但是，这种记忆方法并不简短，而且走捷径的话往往会忽略重要发现。

解读CXR实际上是非常困难的。放射科医生表示，他们在培训期间要解读约10000张CXR图像，以便熟练掌握读片技巧。之所以要接受如此大量的学习与训练，可能是因为CXR与之前所训练的自然图像差异很大。因此这对于AI系统来说也是一个障碍。

放射科医生严重短缺

目前，我们只谈到了CXR，但其实随着CT扫描和其他成像技术的普及，放射科医生的工作量将大幅增加。发达国家同样面临着放射科医生长期短缺的问题。例如，英国发布的临床放射学报告显示了数年来的主要发现，即“劳动力短缺加剧，成本急剧上升，放射科工作人员也呈现出较大压力和倦怠迹象。”在医疗基础设施落后的发展中国家，训练有素的放射科医生更为匮乏。

CXR中的器官分割

要理解CXR，一个基本的任务是要分清肺野和心脏区：

左：该CXR来源于日本放射学会。右：同一个CXR，但左肺、右肺和心脏轮廓已被人类标记。

事实上，从肺部轮廓可以得到很多信息：异常大的心脏可能意味着心脏肥大（心脏异常增大）；肋膈角变钝（下图#3）可能表明有胸腔积液。将诊断AI算法仅应用到肺野也有一定的帮助，因为这样能把来自图像其他部分的杂散信号降至最低。（众所周知，因为神经网络分类器有时会利用CXR的伪像，如曝光和文本等。）

肺野周围重要的轮廓标志：肺野不包括主动脉弓(1)；健康患者应能看到肋膈角(3)和心膈角(2)。肺门和其他血管结构(4)是肺野的一部分。健康肺的胸腔轮廓(5)应清晰。

CXR分割的临床应用

除了协助计算机辅助诊断，CXR分割还可以直接应用于心胸比(CTR)的自动计算。CTR的计算方法为心脏的宽度除以肺的宽度（见下图）。

CTR是一个关键的临床指标。CTR >0.5表明心脏肥大，或者说心脏增大，这通常是由心脏疾病或先前的心脏病发作引起的。测量CTR的过程非常繁琐，包括精确定位心脏和肺的左右大部分点，并进行实际测量。结果，大多数放射科医生却跳过测量这一步，只关注心脏是否过大。在像中国这样的一些国家，阅读CXR时必须进行明确的CTR测量，然而这会显著增加放射科医师的工作量。

显而易见，高质量的肺分割可以自动计算CTR：

图中的CTR测量线是根据我们的方法生成的肺掩模计算而成的。事实上，在后续工作中会发现，我们的CTR计算方法非常精确，均方根误差(RMSE)只有6%，与现有的工作（达拉勒等人于2017年进行的研究工作）相当，甚至可能更好。

由于无法访问他们的数据库，因此也难以对这些数字作出直接比较。

利用神经网络分割CXR所面临的挑战

挑战1：医学知识隐晦

因为CXR是三维人体的二维投影，所以图像中许多生理结构会相互叠加，很多时候必须根据图像分清器官边界。以下列情况为例：

左：CXR图像显示为轻度畸形。右：人类标记的左肺和右肺区域。

根据图像显示，在左下叶（图像的右侧）和左肺的顶部有一些瘢痕，它们使肺的轮廓变得模糊。因此，必须利用医学知识来推断肺的形状，从而绘制出红色的轮廓。分割模型必须获得全局的轮廓形状，以解决模糊边界周围的局部模糊，并生成与人工标注相似的正确轮廓。

挑战2：非自然图像

CXR图像看起来完全不像我们在日常生活中看到的图像：

大多数现有的计算机视觉神经网络是为彩色自然图像而设计，并利用了其中丰富的纹理。因此，难以在CXR上直接应用现有的解决方案

挑战#3：培训数据量过少

由于隐私问题和管理障碍等原因，公开的CXR医学图像的数量要比自然图像少得多。此外，与任何注释器都可以标记的自然图像不同，医学图像标记只能由医生和受过培训的专业人员来完成，这也使得标签获取成本大大增加。

据了解，目前公开可用、且具有像素级肺野标签的CXR数据集只有两套，其中一套包含247张图像，另一套包含138张图像。以上两个数据库至少比ImageNet challenge小3000倍，因为后者有120万到1400万张带标签的图片。

事实上，在ImageNet数据集上训练的神经网络非常强大，几乎所有现有的神经网络分割模型都是基于ImageNetchallenge（如ResNet或VGG）上学习的参数而进行的初始化。这样一个小数据集能否满足拥有数百万到数亿参数的数据神经网络呢？目前还不清楚。

解决方案简述

我们将设计模型来应对上述每个挑战。以下为简要介绍：

与自然图像不同，CXR是灰度图像，并且高度标准化（挑战#2）。因此，相比于使用不同颜色和形状的ImageNet数据集的网络，我们设计的分割网络使用更少的卷积通道。可是，这种改变却使得Imagenet训练的模型难以进行迁移学习。然而，通过使用更少的过滤器，我们的模型只能获得很少的参数（小的模型容量），这些参数本可以帮助降低在少量训练数据上发生过拟合的风险（挑战#3）。

最后，或许也是最具挑战性的一项任务，那就是如何让分割模型学会人类所拥有的医学知识(挑战#1)。解决这一问题的关键在于，使用对抗学习来指导分割模型，从而生成更多的自然图像。这一方法非常有效。

为了应对以上提出的所有挑战，最终的解决方案如下：

留言点赞关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

（添加小编微信：dxsxbb，加入读者圈，一起讨论最新鲜的人工智能科技哦～）

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存