关于图像分割:全球首个面向遥感任务设计的亿级视觉Transformer大模型

作者：京东摸索研究院

深度学习在很大水平上影响了遥感影像剖析畛域的钻研。然而，大多数现有的遥感深度模型都是用 ImageNet 预训练权重初始化的，其中天然图像不可避免地与航拍图像相比存在较大的域差距，这可能会限度上游遥感场景工作上的微调性能。

为此，京东摸索研究院联结武汉大学、悉尼大学 借助迄今为止最大的遥感场景标注数据集 MillionAID，从头开始训练包含卷积神经网络（CNN）和曾经在天然图像计算机视觉工作中体现出了良好性能的视觉 Transformer（Vision Transformer）网络，首次取得了一系列基于监督学习的遥感预训练根底骨干模型。并进一步钻研了 ImageNet 预训练（IMP）和遥感预训练（RSP）对包含语义宰割、指标检测在内的一系列上游工作的影响。

试验后果证实了摸索研究院先前提出的先进 Vision Transformer 系列模型 ViTAE 在遥感工作上的优越性，并发现 RSP 在遥感工作上的有效性以及感知相干语义方面具备的独特性。试验后果进一步表明 RSP 会受到上下游工作差别的影响，这些发现对遥感大规模数据集和预训练方法提出了新的要求。

钻研背景

近年来，深度学习凭借主动提取反映物体固有属性的深度特色的劣势，在计算机视觉畛域获得了令人印象粗浅的冲破，遥感畛域也不例外。在遥感畛域，最罕用的是深度模型是卷积神经网络（CNN）。目前，简直所有的遥感深度模型都是在计算机视觉畛域最驰名的图像数据集 ImageNet-1K 数据集上进行预训练，该数据集中来自 1,000 个不同类别的百万张真实世界图像使模型可能学习弱小的示意。而后这些预训练后的模型被能够用做遥感工作的骨干网络进行进一步微调。

只管这些模型在遥感工作中获得了显著的成果，但仍有一些问题须要钻研。直观地说，与天然图像相比，遥感图像在视角、色彩、纹理、布局、对象等方面显著存在较大的域差距。以前的办法试图通过进一步微调遥感图像数据集上的预训练模型来放大这一差距。然而，ImageNet 预训练（IMP）引入的零碎偏差对性能有着不可漠视的副作用。另一方面，咱们留神到，随着遥感技术的提高，各种各样的传感器捕捉到了丰盛的遥感图像，能够用于预训练。作为一个代表性的例子，MillionAID 是迄今为止最大的遥感图像数据集，它是从蕴含多种传感器图像的谷歌地球（GE）上收集的，并且具备相似 ImageNet-1K 的百万级图像数量规模，这使遥感预训练（RSP）成为可能。

RSP 可能从头开始训练深度模型，这意味着候选模型不用局限于现成的 CNN。因而，在本文中，咱们也钻研了视觉 Transformer（Vision Transformer）的骨干网络，它们在计算机视觉畛域体现出了令人诧异的性能。与 CNN 中善于部分建模的卷积相比，Vision Transformer 中的多头自留神（MHSA）可能灵便地捕获不同的全局上下文。最近，摸索研究院提出的 ViTAE 模型摸索了卷积和 MHSA 的平行结构，以同时建模局部性和长程依赖性，在 ImageNet 分类工作和上游视觉工作上获得了很好的后果。此外，它还通过扩张卷积模块和层级设计提取多尺度特色，这对于计算机视觉上游工作，尤其是在遥感图像了解工作，都具备重要的价值。因而咱们钻研了 CNN 和层级 Vision Transformer 网络通过 RSP 后，在场景辨认、语义宰割、指标检测和变化检测等遥感工作上的微调性能。为了实现这些指标，咱们在九个风行的数据集上进行了宽泛的试验，并得出了一些无益的论断。RSP 是遥感图像了解中的一个新兴钻研方向，但仍处于摸索阶段，尤其是基于 Vision Transformer 这种新型网络架构的预训练方法。咱们心愿这项钻研可能填补这一空白，并为将来的钻研提供有用的见解。

MillionAID, ViTAE 和 ViTAEv2 的介绍

1.MillionAID

MillionAID 是迄今为止遥感畛域最大的数据集。它蕴含 100,0848 个不重叠的场景，有 51 类，每类大概有 2,000-45,000 图像。该数据集来自谷歌地球，由包含但不限于 SPOT、IKONOS、WorldView 和 Landsat 系列的多种传感器组成，因此图像分辨率不同。最大分辨率可达 0.5m，最小的则有 153m。图像大小范畴从 110110 到 31,67231,672。该数据集均为 RGB 图像，非常适合训练典型的视觉神经网络模型。

2.ViTAE 和 ViTAEv2

ViTAE 是摸索研究院最近提出的先进 Vision Transformer 模型，它采纳深窄式设计，在网络开始时迅速降采样，而后将网络加深，在进步性能的同时升高模型大小和计算成本。ViTAE 模型首先通过三个 Reduction Cell 将输出图像下采样到 1 /16 分辨率。与 ViT 相似，在增加地位编码之前，将 class token 与第三个 Reduction Cell 的输入连贯。而后重叠多个 Normal Cell，并始终保持特色图分辨率。最初一个 Normal Cell 的 class token 输出到线性层进行分类。ViTAE 模型在 ImageNet 数据集上分类性能表现出色，但它不不便像 CNN 那样产生层次化的两头特色，从而迁徙到宰割、检测和姿势预计等其它上游工作（目前有一些新技术来解决这个问题，例如 ViTDet，并已获得较好成绩，请关注咱们的复现 Repo：https://github.com/ViTAE-Tran…）。

在此基础上，摸索研究院提出了 ViTAEv2，它采纳了 ResNet 和 Swin 等风行骨干网络的层次化设计。在 ViTAEv2 中，网络被分成四个阶段。每个阶段首先采纳 Reduction Cell 进行下采样，而后重叠多个 Normal Cell 进行特色变换。在最初一个阶段的 Normal Cell 后应用全局均匀池化层来替换 class token。当对上游工作进行微调时，该池化层被移除，剩下的网络与相应工作的解码器相连。图 2 显示了原始 ViTAE 和 ViTAEv2 的网络架构。

Reduction Cell 和 Normal Cell 是 ViTAE 中最重要的两个模块，它们是基于典型的 Transformer 模块来构建的。Reduction Cell 用于下采样并提供多尺度上下文。具体来说，在输出归一化层和 MHSA 层之前，这些特色会通过一个金字塔缩减模块（PRM）。该模块蕴含具备不同扩张率的多个并行的扩张卷积，其中步幅大小管制了空间降采样率。在 PRM 后，来自平行分支的特色在通道维连贯。PRM 将 CNN 的尺度不变性引入 ViTAE，而局部性建模则是通过将输出到 PRM 的特色同时送入到并行卷积模块（PCM）中来实现。PCM 位于与蕴含 PRM 和 MHSA 的全局依赖门路平行的附加分支中，它由三个间断的卷积层组成。通过调整步幅，PCM 的下采样率与 PRM 雷同。来自 MHSA、PCM 和原始残差分支的三个特色在输出前馈网络（FFN）之前进行加法交融。须要留神的是，Normal Cell 和 Reduction Cell 具备相似构造，然而不包含 PRM 模块。

受 Swin Transformer 的启发，ViTAEv2 中上述 cell 中的一些 MHSA 被替换为窗口 MHSA（WMHSA）以升高计算成本。思考到前期特色尺寸变小，不须要用窗口划分特色。因而，只有前两个阶段的 MHSA 被 WMHSA 代替。须要阐明的是，ViTAEv2 采纳的 WMHSA 不须要像 Swin Transformer 那样进行循环偏移，因为 WMHSA 是在 PRM 的合并多尺度特色上进行的，其中不同区域之间曾经通过扩张卷积的重叠感触野实现了信息替换。此外，因为卷积曾经可能编码地位信息，ViTAEv2 也不须要再应用绝对地位编码。ViTAE 和 ViTAEv2 中不同 cell 的具体构造和比拟如图 3 所示。

在本次钻研中，咱们次要评估原始 ViTAE 的“Small”版本，名为 ViTAE-S。相应的，咱们还采纳了 ViTAEv2-S 模型，因为它具备杰出的表征能力和对上游工作更好的可迁移性。

遥感预训练的施行

1. 确定预训练模型

咱们首先确定用于 RSP 的深度模型的类型。为此，咱们从 MillionAID 官网训练集中构建了一个迷你训练集和迷你评估集，别离有 9775 和 225 张图像。注：后一组是通过从每个类别中随机抉择 5 张图像来均衡类别。对于 CNN，应用了经典的 ResNet-50。因为本钻研次要探讨 RSP 下的 CNN 和 Vision Transformer 模型的性能，因而咱们还评估了一系列典型的基于 Vision Transformer 的网络，包含 DeiT-S、PVT-S 和 Swin-T。抉择特定版本模型的一个考量是为了确保这些模型和 ResNet-50 以及 ViTAE- S 模型具备类似的参数量。此外，思考到 ViT 是视觉 Transformer 的最根本模型，咱们抉择了其最小版本 ViT-B 模型以供参考。

表 II 展现了各个模型的后果，能够看出，只管 ViT- B 的参数最多，但其性能不如经典的 ResNet-50。DeiT- S 体现最差，因为咱们没有采纳老师模型辅助训练。因为咱们的工作是利用遥感图像进行预训练，因而获取相应的老师模型能够认为是咱们的指标而不是前提。通过引入特色金字塔的设计范式，PVT- S 与 ViT- B 相比进步了准确性。在此基础上，原始 ViTAE- S 模型进一步思考了局部性和尺度不变性这些传统 CNN 具备的演绎偏置。

然而，因为晚期下采样模块（Reduction Cell, RC）中的特色分辨率较大，须要更多的计算，因而须要破费较多的训练工夫。Swin- T 通过在固定窗口中限度 MHSA 来解决这个问题，并采纳窗口偏移来隐式促成窗口之间的通信。ViTAEv2 引入了这种窗口多头自注意力（Window MHSA, WMHSA），并因为卷积旁路曾经可能促成跨窗信息交互，从而省去了窗口偏移和绝对地位编码操作。最终，ViTAEv2- S 实现了最佳性能，并以 2.3% 的 top- 1 准确率超过了第二名。

基于上述后果，咱们抉择候选模型的具体程序如下。首先，咱们抉择 ResNet-50 作为惯例 CNN 中的代表网络。通过遥感预训练的 ResNet-50，能够在一系列遥感数据集上提供一组新的 CNN 参考基线。因为准确率低、参数多，咱们没有抉择 DeiT- S 和 ViT- B 模型作为候选模型。此外，因为重叠 Transformer 的设计，它们很难迁徙到上游工作中。（目前有一些新技术来解决这个问题，例如 ViTDet，并已获得较好成绩，请关注咱们的复现 Repo：https://github.com/ViTAE-Tran…）。

Swin Transformer 也具备 PVT 的特色金字塔构造，并采纳 WMHSA 取代全局 MHSA，节俭了显存和计算量。因为 Swin- T 的 top- 1 精度大于 PVT 且须要的训练工夫较少，因而咱们在后续试验中也抉择了 Swin- T 作为候选模型。对于 ViTAE 模型，咱们抉择性能最强的模型，即 ViTAEv2-S，以冀望在后续工作（如遥感场景辨认）中具备良好的性能。

2. 取得适合的权重

在确定上述候选模型后，咱们对它们进行 RSP 以取得预训练的权重。具体来说，为了放弃类别均衡，咱们在 MillionAID 数据集的每个类别中随机抉择 1,000 张图像，造成蕴含 51,000 张图像的验证集，与蕴含 50,000 张图像的 ImageNet 验证集的规模相当，并把剩下的 949,848 张图像用于训练。

为了取得适合的预训练权重，咱们在不同训练代数（epoch）的配置下别离训练 ViTAEv2-S 模型。后果如表 III 所示。能够察看到模型在大概 40 个 epoch 后开始性能饱和，因为与训练 20 个 epoch 相比，top-1 准确率仅进步了 0.64%，而接下来的 20 个 epoch 只带来了 0.23% 的增益。因而，咱们首先抉择训练了 40 个 epoch 的网络权重作为 ViTAEv2-S 的 RSP 参数，并利用于后续工作。直觉上，在大规模预训练数据集上体现良好的模型在上游工作上也会体现良好。因而，咱们还在上游工作中应用了通过 100 个 epoch 训练的网络权重。这些模型别离用后缀“E40”和“E100”示意。

对于 ResNet-50 和 Swin-T，咱们遵循 Swin 的训练设置，即模型训练了 300 个 epoch。在试验中，咱们察看到 Swin-T-E120 在验证集上的 top-1 准确率大抵相当于 ViTAEv2-S-E40。因而，咱们也抉择了 Swin-T-E120 的训练权重。同样，咱们也抉择了最终的网络权重 Swin-T-E300 作为与 ViTAEv2-S-E100 的比拟。为了使试验偏心，还思考了应用 40 个 epoch 训练的 ResNet-50 和 Swin-T 的权重，因为它们与 ViTAEv2-S-E40 通过了同样的训练代数。

最终的预训练模型列在表 IV 中。能够看出，验证集准确率简直随着训练 epoch 的减少而减少。然而，Swin-T-E300 的性能略低于 Swin-T-E120。尽管如此，咱们依然保留了 Swin-T-E300 模型。因为模型在训练阶段见到更多的样本之后，它可能具备更强的泛化能力。

上游工作上的微调试验

1. 场景辨认

定量试验： 表 V 展现了应用不同办法预训练的上述候选模型和其余 SOTA 办法的后果。最初三组中的粗体字示意每组中最好的后果，而“*”示意所有模型中最好的（在其余工作中含意雷同）。与 ImageNet 预训练的 ResNet-50 相比，咱们的遥感预训练 ResNet-50 在所有设置下均进步了准确性。这些后果意味着 RSP 为后续微调过程的优化带来了更好的终点。同样，RSP-Swin-T 在三个设置上的体现优于 IMP-Swin-T，在其余两个设置上也获得了可比拟的后果。此外，与其余简单办法相比，ResNet-50 和 Swin-T 仅应用 RSP 权重而不扭转网络结构的状况下就获得了有竞争力的后果，从而证实了遥感预训练的价值。

此外，在比拟 ImageNet 预训练的 ResNet-50 和 Swin-T 时，咱们能够发现 IMP-Swin-T 在所有设置上的体现都更好，因为 Vision Transformer 具备更强的上下文建模能力。不过在通过 RSP 权重进行初始化后，ResNet 变得更具竞争力。因为 ViTAEv2- S 同时具备部分建模能力和近程依赖建模能力，无论 IMP 和 RSP，它在简直所有设置上都优于 ResNet-50 和 Swin-T。此外，RSP-ViTAEv2-S 在除 AID（5:5）之外的简直所有设置上都实现了最佳性能。

定性试验：图 4 显示了不同评估模型来自各种场景的图像的不同区域的响应。与 IMP-ResNet-50 相比，RSP-ResNet-50 更关注重要指标。这意味着 RSP 有助于 ResNet-50 学习更好的示意，归功于 MillionAID 数据集中提供的大量语义类似的遥感图像。令人诧异的是，IMP-Swin-T 模型次要关注背景区域，但通过 RSP 之后，其前景响应失去了显著加强。ViTAEv2- S 通过联合 CNN 和视觉转换器的劣势，同时具备部分和全局上下文捕获能力，实现了对整个场景的全面感知。RSP-ViTAEv2-S 不仅关注次要对象，还思考了背景中的相干区域。在前景物体上，RSP-ViTAEv2-S 也能给予更高的关注度，在对象散布简单的场景，RSP-ViTAEv2- S 可能造成对立且残缺的地物表征，无效感知场景的整体信息。

2. 语义宰割

定量试验： 表 VII 展现了采纳 UperNet 框架时，咱们的办法和其余 SOTA 办法在 iSAID 数据集上的宰割后果。能够看出，将骨干网络从 ResNet-50 更改为 Swin-T，再更改为 ViTAEv2-S 时，性能有所提高。后果与上述场景辨认后果统一，表明视觉 Transformer 具备更好的示意能力。另一方面，通过 ImageNet 预训练的 IMP-Swin-T 获得了具备竞争力的后果，而 IMP-ViTAEv2-S 在 iSAID 数据集上获得了最佳性能。表 VII 还显示了 RSP 模型的劣势在于感知一些具备明确遥感语义的类别，例如“桥梁”，这合乎之前场景辨认工作中的发现。

定性试验： 图 6 中展现了在 Potsdam 数据集上采纳不同预训练骨干网络的 UperNet 宰割模型的一些视觉宰割后果。对于长条形地物，其长度较长，要求模型可能捕捉长程上下文，而宽度又较窄，对模型的部分感知能力又提出了要求，而 ViTAEv2 网络因为将 CNN 的局部性和尺度不变性引入到 Vision Transfomer 网络中，同时具备了 CNN 和 Transformer 的劣势，因此可能同时实现全局和部分感知。因而，只有 ViTAEv2- S 胜利连贯了长条状低矮植被（如红框所示）。

3. 指标检测

定量试验： 表 VIII 显示了指标检测试验的后果。在具备挑战性的 DOTA 数据集上，能够看出应用先进的 ORCN 检测框架，采纳 ResNet-50 或 Swin-T 骨干网络的模型体现良好。ViTAEv2-S 通过引入了 CNN 的局部性和尺度不变性等演绎偏差，取得了惊人的性能，将 ORCN 基线进步了近 2% mAP。须要留神的另一点是，RSP 在这三个骨干网络上的性能都优于 IMP。RSP-ViTAEv2-S 的总体 mAP 比 IMP-ViTAEv2-S 高，因为 RSP 在“桥梁”以及包含“直升机”和“飞机”在内的飞行器类别上具备显着劣势，而在其余类别上，这两种模型之间的差距并不很大。

定性试验： 图 7 可视化了 DOTA 测试集上应用 ViTAEv2-S 骨干网络的 ORCN 模型的一些检测后果。红框示意，当对象密集散布时，RSP-ViTAEv2-S 依然能够预测正确的对象类别，而 IMP-ViTAEv2-S 被密集上下文混同并做出谬误预测。对于长条形的“桥梁”类别，IMP-ViTAEv2-S 产生了漏检（见黄色框），而 RSP-ViTAEv2-S 模型以更高的置信度分数胜利检测到该物体，这再一次响应了先前的发现。

4. 变化检测

定量试验： 表 X 中展现了采纳不同预训练骨干网络的 BIT 框架在变化检测工作上的定量试验后果。能够看到，自监督的 SeCo 预训练权重在此工作上体现良好，尽管 SeCo 的指标是通过比照学习以实现节令不变性特色学习，但因为其采纳了多头子空间嵌入的形式对变动特色进行编码，所以其依然能在具体的分支上学习到对节令变动敏感的特色示意。尽管如此，通过 IMP 或 RSP 预训练的 ViTAEv2-S 的性能优于 SeCo-ResNet-50，显示了应用先进骨干网络的益处。与其余办法相比，ViTAEv2- S 获得了最佳性能，显示了将先进的 Vision Transformer 模型利用于遥感畛域的后劲。

通过不同模型在不同工作下 RSP 和 IMP 下的性能比照，咱们能够推断出变化检测所需示意的粒度应该介于宰割和检测之间，因为它尽管是一个宰割工作，然而只有两个类别，不须要去辨认特定的语义类别。

定性试验： 图 8 展现了一些视觉变化检测后果。能够看出，IMP 的 ResNet-50 和 Swin-T 并不能很好地检测到天然场景中原野内路线的变动。采纳 RSP 能够局部缓解这个问题。SeCo-ResNet-50 进一步提高了路线区域的检测，这与表 X 中的后果统一。与上述模型相比，ViTAEv2-S 模型无效地捕捉到了路线细节。在人工变动的场景中，ViTAEv2-S 模型解决了所有其余模型后果中存在的对象粘连问题，这表明 ViTAEv2-S 的特色在辨别物体和背景方面更具判断力。

5. 不同遥感预训练骨干网络的综合比拟

最初，咱们全面比拟了 RSP 在所有工作上的不同骨干网络的性能。具体来说，咱们对每个工作的所有数据集的分数进行均匀计算，后果如表 XI。能够发现，预训练更多 epoch 的骨干通常在上游工作上体现更好，因为它们取得了更强的示意。只管也有例外，例如预训练 300 代的 Swin-T 模型在对象检测工作体现不如预训练 120 代的对应模型，这暗示工作差别也很重要。联合了 CNN 和 Vision Transformer 劣势的 ViTAEv2- S 模型在所有工作上都体现出了最好的性能。

论断

在这项钻研中，咱们在最大的遥感数据集 MillionAID 上钻研了基于 CNN 和 Vision Transformer 的遥感预训练问题，并综合评估了它们在场景辨认、语义宰割、对象检测和变化检测四个上游工作上的体现，并将它们与 ImageNet 预训练和其余 SOTA 办法进行比拟。通过综合剖析试验后果，咱们得出以下论断：

（1）与传统的 CNN 模型相比，视觉 Transformer 在一系列遥感工作上表现出色，特地是 ViTAEv2- S 这种将 CNN 的固有演绎偏置引入到 Vision Transformer 的先进模型，在这些工作的简直所有设置中都实现了最佳性能。

（2）经典 IMP 使深度模型可能学习更通用的示意。因而，IMP 在解决遥感影像数据时，仍能够产生具备竞争力的基线后果。RSP 产生了可与 IMP 相当或者更好的后果，并且因为加重了上游预训练任务和上游工作之间的数据差别，因而在某些特定类别（例如“桥梁”和“飞机”）上体现更为杰出。

（3）工作之间的差别对 RSP 的性能也有影响。如果特定上游工作所需的示意更靠近上游预训练任务（例如场景辨认），则 RSP 通常会带来更好的性能。

咱们心愿这项钻研能够为遥感社区提供无关应用先进 Vision Transformer 和遥感预训练的有用见解。为了不便大家应用，所有遥感预训练模型及相干代码均已开源，详见 https://github.com/ViTAE-Tran…。另外，对于采纳非层次化 Vision Transformer 模型利用于上游工作的研究进展，能够关注 ViTDet 的办法以及咱们的复现代码：https://github.com/ViTAE-Tran…。咱们也会在 ViTAE-Transformer-Remote-Sensing 的官网 repo 中不断更新相应的后果。

论文链接：https://arxiv.org/abs/2204.02825

我的项目地址：https://github.com/ViTAE-Tran…

参考文献

[1] D.Wang, J. Zhang, B.Du, G-S.Xia and and D. Tao,“An Empirical Study of Remote Sensing Pretraining”, arXiv preprint, axXiv: 2204: 02825, 2022.

[2] Y. Long, G.-S. Xia, S. Li, W. Yang, M. Y. Yang, X. X. Zhu, L. Zhang, and D. Li,“On creating benchmark dataset for aerial image interpretation: Reviews, guidances and million-aid,”IEEE JSTARS, vol. 14, pp. 4205–4230, 2021.

[3] Y. Xu, Q. Zhang, J. Zhang, and D. Tao,“Vitae: Vision transformer advanced by exploring intrinsic inductive bias,”NeurIPS, vol. 34, 2021.

[4] Q. Zhang, Y. Xu, J. Zhang, and D. Tao,“Vitaev2: Vision transformer advanced by exploring inductive bias for image recognition and beyond,”arXiv preprint arXiv:2202.10108, 2022.

[5] T. Xiao, Y. Liu, B. Zhou, Y. Jiang, and J. Sun,“Unified perceptual parsing for scene understanding,”in ECCV, 2018, pp. 418–434.

[6] X. Xie, G. Cheng, J. Wang, X. Yao, and J. Han,“Oriented r-cnn for object detection,”in ICCV, October 2021, pp. 3520–3529.

[7] H. Chen, Z. Qi, and Z. Shi,“Remote Sensing Image Change Detection With Transformers,”IEEE TGRS., vol. 60, p.3095166, Jan. 2022.

[8] Y. Li, H. Mao, R. Girshick, K. He. Exploring Plain Vision Transformer Backbones for Object Detection[J]. arXiv preprint arXiv:2203.16527, 2022.

关于图像分割:全球首个面向遥感任务设计的亿级视觉Transformer大模型

作者：京东摸索研究院

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）