关于人工智能:Multimix从医学图像中进行的少量监督可解释的多任务学习

在本文中，我将探讨一种新的半监督，多任务医学成像办法，称为 Multimix，Ayana Haque（ME），Abdullah-Al-Zubaer Imran，Adam Wang、Demetri Terzopoulos。该论文在被 ISBI 2021 收录，并于 4 月的会议上发表。

MultiMix 通过采纳基于相信的加强策略和新型桥模块来执行联结半监督分类和宰割，该模块还为多任务提供了可解释性。在齐全监督的状况下深度学习的模型能够无效地执行简单的图像剖析工作，但它的性能重大依赖于大型标记数据集的可用性。特地是在医学成像畛域，人工标注不仅费钱，而且还耗时。因而容许从无限数量的标记数据的半监督学习，被认为是解决标注工作的一个计划。

在同一模型中学习多个工作能够进一步提高了模型的通用性。多任务容许在工作之间进行共享示意的学习，同时须要更少的参数和更少的计算，从而使模型更无效，更不容易过拟合。

对不同数量的标记数据和多源数据进行了宽泛的试验，论文证实了其办法的有效性。还提供了跨工作的域内和跨域评估，以展现模型适应具备挑战性的泛化场景的后劲，这对医学成像办法来说是一个具备挑战性但重要的工作。

近年来，因为深度学习的倒退，基于深度学习的医学成像技术失去了倒退。然而深度学习的基本问题始终存在，那就是它们须要大量的标记数据能力无效。然而这在医学成像畛域是一个更大的问题，因为收集大型数据集和标注是十分艰难的，因为它们须要畛域专业知识，低廉、耗时，并且很难在集中的数据集中组织起来。另外在医学成像畛域中，泛化也是一个关键问题，因为来自不同起源的图像在定性和定量上都有很大的差别，所以很难在多个畛域中应用一个模型取得较强的性能，这些问题促使了该论文的钻研：心愿通过一些以半监督和多任务学习为核心的要害办法来解决这些根本问题。

什么是半监督学习?

为了解决无限的标签数据问题，半监督学习 (SSL) 作为一种有前途的代替办法受到了宽泛的关注。在半监督学习中，将无标记示例与有标记示例联合应用，使信息收益最大化。对于半监督学习已有大量的钻研，包含个别的和医学畛域特有的。我不会具体探讨这些办法，但如果你感兴趣，这里有一个突出的办法列表供你参考[1,2,3,4]。

解决无限样本学习的另一个解决方案是应用来自多个起源的数据，因为这减少了数据中的样本数量以及数据的多样性。然而这样做是具备挑战性的，因为须要特定的训练方法，然而如果做得正确，它能够十分无效。

什么是多任务学习?

多任务学习 (multitask Learning, MTL) 已被证实能够进步许多模型的泛化能力。多任务学习被定义为在单个模型中优化多个损失，通过共享示意学习实现多个相干工作。在一个模型中联结训练多个工作能够进步模型的泛化性，因为每个工作都相互影响（要抉择有相关性的工作）。假如训练数据来自不同的散布，这样能够用于无限的不同工作，多任务在这样的场景中对于以很少监督的形式学习是有用的。将多任务与半监督学习相结合能够进步性能，并在这两个工作中取得成功。同时实现这两项工作是十分无益的，因为一个独自的深度学习模型能够十分精确地实现这两项工作。

对于医学畛域的相干工作，具体方法如下:[1,2,3,4,5,6,7,8,9,10]。然而，这些发现的次要局限性是它们没有应用来自多个起源的数据，限度了它们的泛化性，并且大多数办法都是繁多工作办法。

因而，论文提出了一种新的、更通用的多任务模型 MultiMix，该模型联合基于置信度的桥接块，从多源数据中独特学习诊断分类和解剖构造宰割。显著图能够通过可视化有意义的视觉特色来分析模型预测。有几种办法能够生成显著性映射，最显著的办法是从输出图像计算类分数的梯度。尽管任何深度学习模型都能够通过显著性图来钻研更好的解释性，但据咱们所知，在繁多模型中两个共享工作之间的显著性桥梁还没有被摸索。

让咱们首先定义咱们的问题。应用两个数据集进行训练，一个用于宰割，一个用于分类。对于宰割数据，咱们能够应用符号 XS 和 Y，别离是图像和宰割掩码。对于分类数据，咱们能够应用符号 XC 和 C，即图像和类标签。

模型体系结构应用基线 U -NET 架构，该构造是罕用宰割模型。编码器的性能相似于规范 CNN。要应用 U -NET 执行多任务处理，咱们将从编码器上分支，并应用池化和全连贯的层分支以获取最终的分类输入。

分类

对于分类办法，利用数据加强和伪标记。受 [1] 的启发，应用了一个未标记的图像并执行两个独自的加强。

首先，未标记的图像被弱加强，并且从图像的弱加强版本中，将模型以后状态的预测定为伪标签。这就是为什么该办法被半监督的起因，然而咱们将稍后再探讨伪标记的标签。

其次，强加强雷同未标记的图像，并用弱加强图像和强加强图像自身的伪标记计算损失。

这样的操作实践根底是，心愿该模型将弱加强图像映射到强加强的图像中，这样能够迫使模型学习诊断分类所需的根本根底特色。加强图像两次还能够最大化惟一图像的潜在常识收益。这也有助于改善模型的概括能力，就如同模型被迫学习图像中最重要的局部一样，它将可能克服因为不同域而呈现的图像中呈现的差别。

论文应用惯例的加强办法来进行弱加强的图像，例如程度翻转和轻微旋转。而强加强策略要乏味得多：创立一个非常规，弱小的加强池，并将随机数量的加强量利用于任何给定的图像。这些加强十分“变态”，比方裁剪、自对比度、亮度、对比度、平衡、一致性、旋转、锐度、剪切等等。通过利用任意数量的这些元素，咱们能够创立十分宽泛的图像，这在解决低样本数据集时尤为重要。咱们最终发现，这种加强策略对于弱小的性能十分重要。

当初让咱们回过头来探讨伪标记的过程。如果模型生成伪标签的置信度超过了一个调优的阈值，则该图像标签能够避免模型从谬误和蹩脚的标签中学习。因为当预测在一开始不太确认时，模型次要从标记的数据中学习。缓缓的，该模型对未标记图像的标签生成变得更加自信，因而该模型变得更加高效。在进步性能方面，这也是一个十分重要的个性。

当初咱们来看看损失函数。分类损失能够用以下公式来建模:

其中 L -sub- l 为监督损失，c-hat- l 为分类预测，c- l 为标签，lambda 为无监督分类权重，L-sub- u 为无监督损失，c-hat- s 为强加强图像的预测，argmax(c-hat-w)为弱加强图像的伪标签，t 为伪标签阈值。

这基本上总结了分类办法，当初咱们持续讲宰割办法。

宰割

对于宰割，通过带有跳过连贯的编码器 - 解码器体系结构进行预测，这非常简单。论文对宰割的次要奉献是合并了一个桥接模块来连贯两个工作，如上图所示。依据模型预测的类生成显著映射，应用从编码器扩大到分类分支的梯度。整个过程如上所示，但实质上强调了模型用于对肺炎图像进行分类的图像的哪些局部。

尽管咱们不晓得宰割图像是否代表肺炎，但生成的地图却突出了肺部。因而当应用显著图产生和可视化图像的类预测时，它在某种程度上相似于肺面膜。所以咱们假如这些图可用于领导解码器阶段的宰割，并且可能改善宰割成果，同时从无限的标记数据中学习。

在 MultiMix 中，生成的显著性映射与输出图像连贯，进行下采样，并增加到输出到第一解码器阶段的特色映射。与输出映像的连贯能够加强两个工作之间的连贯，并进步桥接模块的有效性（提供了上下文）。同时增加输出图像和显著性映射为解码器提供了更多的上下文和信息，这在解决低样本数据时十分重要。

当初咱们来讨论一下训练和损失。对于标记样本，咱们通常应用参考肺面面膜和预测宰割之间的 dice 损失来计算宰割损失。

因为咱们没有未标记的宰割样本的宰割掩码，咱们不能间接计算它们的宰割损失。因而计算标记和未标记示例的宰割预测之间的 KL 散度。这使得模型做出与已标记数据越来越不同的预测越来越靠近，这能够使模型更失当地适宜未标记数据。尽管这是一种间接计算损失的办法，但它依然容许模型从未标记的宰割数据中学到很多货色。

对于损失，宰割损失能够写成:

与分类相比，alpha 是宰割缩小权重，y-hat- l 是标记的宰割预测，y- l 是相应的掩码，beta 是无监督的宰割权重，而 y -hat- u 是未标记的分段预测。

模型应用分类和宰割损失的组合指标进行训练。

对模型进行了分类和宰割工作的训练和测试，每个工作的数据来自两个不同的起源：肺炎检测数据集，咱们将其称为 Chex [11]和日本放射学技术学会或 JSRT [12] [12]，别离用于分类和宰割。

为了验证了模型，应用了两个内部数据集蒙哥马利县胸部 X 射线或 MCU [13]，以及 NIH 胸部 X 射线数据集的子集，咱们将其称为 NIHX [14]。起源的多样性对模型形成了重大挑战，因为图像品质，大小，失常图像和异样图像的比例以及四个数据集的强度散布的差别都大不相同。下图显示了强度散布的差别以及每个数据集的图像示例。所有 4 个数据集均应用 CC BY 4.0 许可证。

论文进行了许多试验，并在多个数据集中和跨域上应用了不同数量的标记数据。

在测试中应用了多个基线，从 Arale-net 和规范分类器（ENC）开始，该分类器是具备密集层的编码器提取器。而后，咱们将两者组合为基线多任务模型（UMTL）。还应用半监督办法（ENCSL），（UMTLS）以及多任务模型和半监督办法（UMTLS-SSL）的多任务模型。

在训练方面，在多个标记的数据集上进行了训练。为了进行分类，咱们应用了 100、1000 和所有标签，对于宰割，咱们应用了 10、50 和所有标签。对于后果，将应用符号：模型 – 标签（例如 Multimix-10–100）的形式进行标记。为了进行评估，应用准确性（ACC）和 F1 分数（F1- N 和 F1-P）进行分类，宰割则应用了 DS 相似性（DS），JACCARD 相似性评分（JS），构造相似性指数（SSIM），均匀 Hausdorff 间隔（HD），精度（P）和召回（R）。

该表显示了增加了每个新组件的模型性能如何改善。对于分类工作，与基线模型相比，基于相信的加强办法可显着进步性能。Multimix-10–100 也以准确性的形式优于齐全监督的基线编码器。为了进行宰割，桥模块对基线 U -NET 和 UMTL 模型产生微小改良。即便具备最低分段标签，咱们也能够看到其性能增长 30%，这证实了论文提出的 Multimix 模型的有效性。

如表所示，多模中的性能与内域一样有心愿。在所有基线模型上，Multimix 在分类工作中的得分更好。因为 NIHX 和 CHEX 数据集存在显着差别，如前所述，得分不如内域模型后果好。然而它确实比其余模型更好。

上图显示了宰割后果对内域和跨域评估的一致性。我数据集中的每个图像显示了模型的 dice 分数。从图中，能够看到，与基线相比，Multimix 是最强的模型。

最初一个图是模型的宰割预测的可视化。展现了的预测的边界使为每一个提出的宰割工作增加对不同标记数据的真值比照。图中显示了与 MultiMix 针对实在边界的边界预测的强烈一致性，特地是与基线相比。对于跨域 MultiMix 在很大水平上也是最好的，显示了弱小的泛化能力。

在这篇文章中，咱们解释了一个可用于联结学习分类和宰割工作的新的稠密监督多任务学习模型 MultiMix。该论文应用四种不同的胸部 x 射线数据集进行了宽泛的试验，证实了 MultiMix 在域内和跨域评估中的有效性。

论文作者也提供了源代码, 有趣味的能够看看:

https://avoid.overfit.cn/post/a475b41b332845b7bb9e8cf09ec8c662

作者：Ayaan Haque

关于人工智能:Multimix从医学图像中进行的少量监督可解释的多任务学习

背景常识

算法

数据集

后果

总结