关于人工智能:深度学习应用篇计算机视觉语义分割综述5SegNet分割算法常用二维三维半立体数据集汇总前景展望等

深度学习利用篇-计算机视觉-语义宰割综述[5]：FCN、SegNet、Deeplab等宰割算法、罕用二维三维半平面数据集汇总、前景瞻望等

语义宰割综述（semantic segmentation）

1.初识语义宰割

1.1.计算机视觉

目前，计算机视觉是深度学习畛域最热门的钻研畛域之一。从狭义上来说，计算机视觉就是要“赋予机器天然视觉的能力”。实际上，计算机视觉实质上就是钻研视觉感知问题，其指标就是对环境的表白和了解，外围问题是钻研如何对输出的图像信息进行组织，对物体和场景进行辨认，进而对图像内容给予解释。更进一步来说，计算机视觉就是钻研如何让计算机利用摄像头等机器设备实现和人类一样“看”的能力，对指标进行宰割、分类、辨认、跟踪、判断决策。计算机视觉是一个跨畛域的交叉学科，包含计算机科学（图形、算法、实践、零碎、体系结构），数学（信息检索、机器学习），工程学（机器人、语音、自然语言解决、图像处理），物理学（光学），生物学（神经科学）和心理学（认知科学）等等。许多科学家认为，计算机视觉为人工智能的倒退开辟了路线。

对计算机视觉的定义该当蕴含以下三个方面：

“对图像中的主观对象构建明确而有意义的形容”（Ballard＆Brown，1982）
“从一个或多个数字图像中计算三维世界的个性”（Trucco＆Verri，1998）
“基于感知图像做出对主观对象和场景有用的决策”（Sockman＆Shapiro，2001）

计算机视觉的三个倒退方向：

复制人眼——让计算机 " 去看 "

通过传感器和图像处理器获取图像，曾经在某种程度上超过人眼获取图像的精确性和明锐度

复制视觉皮层——让计算机 “ 去形容”

计算机采纳 " 自下而上 " 的方法，去模仿大脑中神经元“看”的过程：计算机能够在多张图中，对一张图片进行一系列的转换，从而找到物体的边缘，发现图片上的物体、角度和静止。就像人类的大脑一样，通过给计算机观看各种图形，计算机会应用大量的计算和统计，试着把 " 看到的 " 形态与之前训练中辨认的相匹配。

以及复制大脑残余局部——让计算机 " 去了解 "

计算机视觉不仅要“看到”，还要“看懂”，还要依据看到的不同物体做出不同的判断和决策，这就须要联合大脑残余局部来进行。对于人们来说，大脑的残余局部由这些组成，包含长短期记忆、其余感官的输出、注意力和认知力、从世界中万亿级别的交互中播种的十亿计常识，这些常识将通过咱们很难了解的形式，被写入互联的神经。

1.2.语义宰割

家喻户晓，计算机视觉有三大外围工作——分类、检测、宰割，三者号称是深度学习炼丹师的“三大浪漫”。作为计算机视觉根底工作之一，语义宰割历史悠久。分类针对整张图片，检测针对图片的部分，语义宰割则如图1所示，旨在给输出图片上的每个像素赋予一个正确的语义标签。

1.3.语义宰割与实例宰割的区别

首先说说他们的共性，语义宰割和实例宰割都是从图像中宰割出指标无效区域，即预测每个像素点所属的类别。不同的是语义宰割不辨别同类指标，而实例宰割则须要辨别同类指标的不同个体。如图2所示，两种宰割形式均能够宰割出各个指标的无效区域，不同的是示例宰割能够辨别不同的指标个体，如cube。

1.4.罕用评估指标

对语义宰割模型来说，通常用执行工夫、内存占用以及准确度来评估算法的成果。对于执行工夫、内存占用不做过多解释。

PA（Pixel Accuracy，像素精度）：最简略的度量计算，总的像素跟预测正确像素的比率
$${\rm{PA}} = \frac{{\sum\limits_{i = 0}^k {{P_{ii}}} }}{{\sum\limits_{i = 0}^k {\sum\limits_{j = 0}^k {{P_{ij}}} } }}$$
MPA（Mean Pixel Accuracy，均匀像素精度）：基于每个类别正确的像素总数与每个类别总数比率求和失去的均值
$$MPA = \frac{1}{{k + 1}}\sum\limits_{i = 0}^k {\frac{{{p_{ii}}}}{{\sum\limits_{j = 0}^k {{p_{ij}}} }}}$$
MIoU（Mean Intersection over Union，均匀并交比）：这是语义宰割网络的一个规范评估指标，它通过计算交并比来度量，这里交并比代指ground truth与预测宰割后果之间。是从新计算TP跟 (TP + FN+FP)之和之间的比率。IoU是基于每个类别计算，而后再求均值
$$MIoU = \frac{1}{{k + 1}}\sum\limits_{i = 0}^k {\frac{{{p_{ii}}}}{{\sum\limits_{j = 0}^k {{p_{ij}}} + \sum\limits_{j = 0}^k {{p_{ji}}} - {P_{ii}}}}}$$

2.语义宰割算法

传统的宰割算法曾经推出了历史舞台，目前工业界罕用的宰割算法都是应用大数据驱动的深度学习模型。咱们从深度学习的角度登程，细数一下基于深度学习的宰割模型倒退历程，如表1所示。另外，依据模型的翻新方向不同，图3形象化的展现了表1所提及的办法的分类。

咱们将依照宰割办法的倒退路线，选取一些经典的办法对其进行介绍。感兴趣的敌人能够依照分类学习对应改良方向的办法。

2.1. FCN

经典CNN在卷积层之后应用全连贯层失去固定长度的特征向量进行分类（全联接层＋softmax输入），做到了基于图像级别对图片进行分类，但不能辨认图片中特定局部的物体。2015年Jonathan Long发表了《Fully Convolutional Networks for Semantic Segmentation》提出全卷积网络FCN能够承受任意尺寸的输出图像，采纳反卷积层对最初一个卷积层的feature map进行上采样, 使它复原到与输出图像雷同的尺寸，从而能够对每个像素都产生了一个预测,，同时保留了原始输出图像中的空间信息，最初在上采样的特色图上进行逐像素分类，解决了语义宰割的问题。FCN次要有两个特点：

1.全连贯层换成卷积层

2.不同尺度的信息交融FCN-8s,16s,32s

2.1.1 全连贯层换成卷积层

FCN与CNN的次要区别在于FCN把CNN最初的三层全连贯层转换成三层卷积层，输入的是一张曾经Label好的图片, 而这个图片就能够做语义宰割

该变换最后的想法是把每个像素四周的区域输出CNN，失去一个标签。在变成全卷积网络后，相当于卷积网络在一张大的图片上滑动，在单个向前流传的过程中实现工作。

以AlexNet为例，AlexNet原来的构造是224x224大小的图片通过一系列卷积，失去大小为1/32 = 7x7的feature map，通过三层全连贯层，失去基于FC的分布式示意。咱们把三层全连贯层全都换成卷积层，卷积核的大小和个数如图5两头行所示，咱们去掉了全连贯层，然而失去了另外一种基于不同channel的分布式示意：Heatmap热图。（通过屡次卷积和pooling当前，失去的图像越来越小，分辨率越来越低，最终产生的热图就是咱们最重要的高维特色图，失去heatmap之后就是最重要的一步也是最初的一步对原图像进行upsampling，把图像进行放大到原图像的大小）

2.1.2 不同尺度的信息交融

如下图所示，对原图像进行卷积conv1、pool1后原图像放大为1/2；之后对图像进行第二次conv2、pool2后图像放大为1/4；接着持续对图像进行第三次卷积操作conv3、pool3放大为原图像的1/8，此时保留pool3的featureMap；接着持续对图像进行第四次卷积操作conv4、pool4，放大为原图像的1/16，保留pool4的featureMap；最初对图像进行第五次卷积操作conv5、pool5，放大为原图像的1/32，而后把原来CNN操作中的全连贯变成卷积操作conv6、conv7，图像的FeatureMap数量扭转然而图像大小仍然为原图的1/32，此时图像不再叫featureMap而是叫HeatMap。之后再进行上采样（反卷积），这个时候就看是须要采纳哪个层的特色图了，所以也就会有FCN-32s,FCN-16s,FCN-8s。

然而咱们晓得，随着一次次的池化，尽管感触野一直增大，语义信息一直加强。然而池化造成了像素地位信息的失落：直观举例，1/32大小的Heatmap上采样到原图之后，在Heatmap上如果偏移一个像素，在原图就偏移32个像素，这是不能容忍的。如图7,后面的层尽管语义信息较少，然而地位信息较多，作者就把1/8 1/16 1/32的三个层的输入交融起来了。先把1/32的输入上采样到1/16,和Pool4的输入做elementwose addition , 后果再上采样到1/8,和Pool3的输入各个元素相加。失去1/8的后果，上采样8倍，求Loss。

2.2. U-net

U-net的提出者为了解决生物医学畛域的细胞宰割工作，通过对可用的训练图像利用弹性变形来取得大量扩增的数据，只需很少的训练图像就能够进行更准确的宰割。U-net可用于解决小样本的简略问题宰割，比方医疗影片的宰割。它遵循的基本原理与FCN一样：

1.Encoder-Decoder构造：前半部分为多层卷积池化，不断扩大感触野，用于提取特色。后半局部上采样回复图片尺寸。和FCN相比，U-Net的第一个特点是齐全对称，也就是右边和左边是很相似的，而FCN的decoder绝对简略，只用了一个deconvolution的操作，之后并没有跟上卷积构造。

2.更丰盛的信息交融：如灰色剪头，更多的前后层之间的信息交融。这里是把后面层的输入和前面层concat(串联)到一起，区别于FCN的逐元素加和。不同Feature map串联到一起后，前面接卷积层，能够让卷积核在channel上本人做出抉择。留神的是，在串联之前，须要把前层的feature map crop到和后层一样的大小。

2.3. SegNet

SegNet基于FCN，批改VGG-16网络失去的语义宰割网络，有两种版本的SegNet，别离为SegNet与Bayesian SegNet，同时SegNet作者依据网络的深度提供了一个basic版（浅网络）。 SegNet和FCN思路十分相似，只是Encoder,Decoder(Upsampling)应用的技术不统一。此外SegNet的编码器局部应用的是VGG16的前13层卷积网络，每个编码器层都对应一个解码器层，最终解码器的输入被送入soft-max分类器以独立的为每个像素产生类概率。

在结构上看，SegNet和U-net其实大同小异，都是编码-解码后果。区别在意，SegNet没有间接交融不同尺度的层的信息，为了解决为止信息失落的问题，SegNet应用了带有坐标（index）的池化。如图10所示，在Max pooling时，抉择最大像素的同时，记录下该像素在Feature map的地位（左图）。在反池化的时候，依据记录的坐标，把最大值还原到原来对应的地位，其余的地位补零（右图）。前面的卷积能够把0的元素给填上。这样一来，就解决了因为屡次池化造成的地位信息的失落。

2.4. Dilated Convolutions

在进行图像宰割工作时，应用pooling减少了感触域的大小，然而却使图像的很多细小特色失落了，这样导致宰割进去的图像分辨率很低，于是有学者就提出了基于稠密卷积核的卷积网络。这种新的卷积网络模块可能整合多尺度的上下文信息，同时不丢失分辨率，也不须要剖析从新放缩的图像。这种模块是为浓密预测专门设计的，没有pooling或其它下采样。这个模块是基于空洞卷积，空洞卷积反对感触野指数级的增长，同时还不损失分辨率。

以上图为例，红色圆点为卷积核对应的输出“像素”，绿色为其在原输出中的感触野。

(a)图对应3x3的扩张率为1的卷积，和一般的卷积操作一样；

(b)图对应3x3的扩张率为2的卷积，理论的卷积核还是3x3，然而空洞率为2，也就是对于一个7x7的图像块，只有9个红色的点也就是3x3的卷积核产生卷积操作，其余的点略过。也能够了解为卷积核的大小为7x7，然而只有图中的9个点的权重不为0，其余都为0。能够看到尽管卷积核的大小只有3x3，然而这个卷积的感触野曾经增大到了7x7。如果思考到这个2-dilated convolution的前一层有一个1-dilated convolution的话，那么每个红点就是1-dilated的卷积输入，感触野为3x3，所以1-dilated和2-dilated合起来就能达到7x7的卷积；

(c)图是4-dilated convolution操作，同理跟在1-dilated和2-dilated convolution的前面，能达到15x15的感触野。

Dilated Convolutions的思路就是将用于分类的神经网络（论文里为VGG）的最初两个池化层去掉，用这种基于稠密卷积核的卷积网络代替。这样，咱们在不升高感触域大小的同时，使输入的数据的维度更大，保留了更多的原始图像的细小特色，防止了池化层升高数据维度造成的细小特色失落的问题。

2.5. RefineNet

基于稠密核的卷积也不是没有毛病，毛病就是会极大的减少计算量和须要的内存空间，因为稠密核减少了参数的个数，使得要解决的数据维度增大。这就增大了获取更高分辨率宰割图的老本。因而有学者提出了应用Encoder-Decoder架构的RefineNet

RefineNet能够分为三个次要局部： 1. 不同尺度（也可能只有一个输出尺度）的特色输出首先通过两个Residual模块的解决； 2. 之后是不同尺寸的特色进行交融。当然如果只有一个输出尺度，该模块则能够省去。所有特色上采样至最大的输出尺寸，而后进行加和。上采样之前的卷积模块是为了调整不同特色的数值尺度； 3. 最初是一个链式的pooling模块。其设计本意是应用侧支上一系列的pooling来获取背景信息（通常尺寸较大）。直连通路上的ReLU能够在不显著影响梯度流通的状况下进步后续pooling的性能，同时不让网络的训练对学习率很敏感。最初再通过一个Residual模块即得RefineNet的输入。

2.6. PSPnet

原理都大同小异，后面的不同level的信息交融都是交融浅层和后层的Feature Map,因为后层的感触野大，语义特色强，浅层的感触野小，部分特色显著且地位信息丰盛。PSPnet则应用了空间金字塔池化，失去一组感触野大小不同的feature map,将这些感触野不同的map concat到一起，实现多层次的语义特色交融。

2.7. Deeplab 系列

2.7.1. Deeplab V1

图11 DeeplabV1结构图

针对规范的深度卷积神经网络的两个次要问题：1.Striding操作使得输入尺寸减小； 2.Pooling对输出小变动的不变性。Deeplab v1 应用带孔卷积(atrous convolution)+条件随机场(CRFs)来解决这两个问题。将图像分类网络转换成dense feature extractors而不必学习额定的参数。

1.因为Pooling-Upsample会失落地位信息而且多层高低采样开销较大，把管制感触野大小的办法化成：带孔卷积(atrous convolution)

2.退出CRF(条件随机场)，利用像素之间的关连信息：相邻的像素，或者色彩相近的像素有更大的可能属于同一个class。

2.7.2. Deeplab V2

Deeplab v2在v1的根底上做出了改良，引入了空洞空间金字塔池化ASPP(Atrous Spatial Pyramid Pooling)的构造，如上图所示。

ASPP层就是为了交融不同级别的语义信息：抉择不同扩张率的带孔卷积去解决Feature Map，因为感触野不同，失去的信息的Level也就不同，ASPP层把这些不同层级的feature map concat到一起，进行信息交融。

2.7.3 Deeplab V3

Deeplab v3在原有根底上的改变是：

1、DeeplabV3，即多尺度(multiple scales)宰割物体，设计了串行和并行的带孔卷积模块，采纳多种不同的atrous rates来获取多尺度的内容信息；

2、DeeplabV3中提出 Atrous Spatial Pyramid Pooling(ASPP)模块, 开掘不同尺度的卷积特色，以及编码了全局内容信息的图像层特色，晋升宰割成果；

3、DeeplabV3中，不须要DenseCRF后处理（与之前的不一样的解决）。

新的ASPP模块：

1.退出了Batch Norm：一个1×1卷积和3个3×3的空洞卷积(采样率为(6,12,18))，每个卷积核都有256个且都有BN层

2.退出特色的全局均匀池化（在扩张率很大的状况下，无效权重会变小）。如图14中的（b）Image Pooling就是全局均匀池化，它的退出是对全局特色的强调、增强。

在旧的ASPP模块中：咱们认为在扩张率足够大的时候，感触野足够大，所以取得的特色偏向于全局特色。但实际上，扩张率过大的状况下，Atrous conv呈现了“权值进化”的问题，感触野过大，都已近扩大到了图像里面，大多数的权重都和图像外围的zero padding进行了点乘，这样并没有获取图像中的信息。无效的权值个数很少，往往就是1。于是咱们加了全局均匀池化，强行利用全局信息。

具体DeeplabV3详解请见链接

2.7.4 Deeplab V3+

能够看成是把原Deeplab V3当作encoder，增加decoder失去新的模型（Deeplab V3+）。与V3不同的是，这里将空洞卷积和深度拆散卷积联合，失去一个atrous separale convolution（也就是把空洞卷积利用在深度拆散卷积上），可能在维持雷同性能的状况下，深度拆散卷积能够大大减小计算复杂度。前面再进行解码，并且在解码的过程中在此使用了不同层级特色的交融。此外，在encoder局部退出了Xception的构造缩小了参数量，进步运行速度。

2.8 局部模型比照后果

如下表2和表3所示，在CityCapes公开数据集上现有局部语义宰割模型进行试验比拟，从宰割准确性和实时性角度别离排序。

表2 CityCapes 像素级语义宰割准确性比拟后果

表3 CityCapes 像素级语义宰割实时性比拟后果

3.罕用数据集

对于宰割的开源/闭源数据集数量泛滥，并且基于很多重大数据集举办了很多比赛。为了综述的完整性思考，对现有的经典数据集进行总结。

论文给出了宰割罕用的数据集，所有列出的数据集均蕴含像素级别或点级别的标签。依据数据外在属性分为3个局部：2维的或立体的RGB数据集，2.5维或带有深度信息的RGB（RGB-D）数据集，以及纯体数据或3维数据集。表4给出了这些数据集的概览，以及他们被构建的目标、类数、数据格式以及训练集、验证集、测试集划分状况。

表4 罕用大规模数据集总览

3.1. 二维数据集

从头至尾，语义宰割问题最关注的是二维图像。因而，二维数据集在所有类型中是最丰盛的。

3.1.1.PASCAL视觉物体分类数据集（PASCAL-VOC）

包含一个标注了的图像数据集和五个不同的比赛：分类、检测、宰割、动作分类、人物布局。宰割的比赛很乏味：他的指标是为测试集里的每幅图像的每个像素预测其所属的物体类别。有21个类，包含轮子、房子、动物以及其余的：飞机、自行车、船、公共汽车、轿车、摩托车、火车、瓶子、椅子、餐桌、盆栽、沙发、显示器（或电视）、鸟、猫、狗、马、绵羊、人。如果某像素不属于任何类，那么背景也会思考作为其标签。该数据集被分为两个子集：训练集1464张图像以及验证集1449张图像。测试集在比赛中是私密的。争议的说，这个数据集是目前最受欢迎的语义宰割数据集，因而很多相干畛域卓越的工作将其办法提交到该数据集的评估服务器上，在其测试集上测试其办法的性能。办法能够只用该数据集训练，也能够借助其余的信息。另外，其办法排行榜是公开的而且能够在线查问。

<center>图17 PASCAL-VOC数据集示例</center>

3.1.2. PASCAL上下文数据集（PASCAL Context）

对于PASCAL-VOC 2010辨认比赛的扩大，蕴含了对所有训练图像的像素级别的标注。共有540个类，包含原有的20个类及由PASCAL VOC宰割数据集得来的图片背景，分为三大类，别离是物体、资料以及混合物。尽管品种繁多，然而只有59个常见类是较有意义的。因为其类别遵从一个幂律散布，其中有很多类对于整个数据集来说是十分稠密的。就这点而言，蕴含这59类的子集常被选作实在类别来对该数据集进行钻研，其余类别一律重标为背景。

<center>图18 PASCAL-Context数据集示例</center>

3.1.3. PASCAL局部数据集（PASCAL Part）

对于PASCAL-VOC 2010辨认比赛的扩大，超过了这次比赛的工作要求而为图像中的每个物体的局部提供了一个像素级别的宰割标注（或者当物体没有间断的局部的时候，至多是提供了一个轮廓的标注）。原来的PASCAL-VOC中的类被保留，但被细分了，如自行车被细分为后轮、链轮、前轮、手把、前灯、鞍座等。本数据集蕴含了PASCAL VOC的所有训练图像、验证图像以及9637张测试图像的标签。

3.1.4. 语义边界数据集（SBD）

该数据集是PASCAL数据集的扩大，提供VOC中未标注图像的语义宰割标注。提供PASCAL VOC 2011 数据集中11355张数据集的标注，这些标注除了有每个物体的边界信息外，还有类别级别及实例级别的信息。因为这些图像是从残缺的PASCAL VOC比赛中失去的，而不仅仅是其中的宰割数据集，故训练集与验证集的划分是不同的。实际上，SBD有着其独特的训练集与验证集的划分形式，即训练集8498张，验证集2857张。因为其训练数据的增多，深度学习实际中经常用SBD数据集来取代PASCAL VOC数据集。

3.1.5. 微软常见物体环境数据集（Microsoft COCO）

该数据集是另一个大规模的图像识别、宰割、标注数据集。它能够用于多种比赛，与本畛域最相干的是检测局部，因为其一部分是致力于解决宰割问题的。该比赛蕴含了超过80个类别，提供了超过82783张训练图片，40504张验证图片，以及超过80000张测试图片。特地地，其测试集分为4个不同的子集各20000张：test-dev是用于额定的验证及调试，test-standard是默认的测试数据，用来与其余最优的办法进行比照，test-challenge是比赛专用，提交到评估服务器上得出评估后果，test-reserve用于防止比赛过程中的过拟合景象（当一个办法有嫌疑提交过屡次或者有嫌疑应用测试数据训练时，其在该局部子集上的测试后果将会被拿来作比拟）。因为其规模微小，目前已十分罕用，对畛域倒退很重要。实际上，该比赛的后果每年都会在ECCV的研讨会上与ImageNet数据集的后果一起颁布。

3.1.6. 图像与正文合成数据集（SYNTHIA）

该数据集是一个大规模的虚构城市的真实感渲染图数据集，带有语义宰割信息，是为了在主动驾驶或城市场景布局等钻研畛域中的场景了解而提出的。提供了11个类别物体（别离为空、天空、修建、路线、人行道、栅栏、植被、杆、车、信号标记、行人、骑自行车的人）细粒度的像素级别的标注。蕴含从渲染的视频流中提取出的13407张训练图像，该数据集也以其多变性而著称，包含场景（城镇、城市、高速公路等）、物体、节令、天气等。

3.1.7. 城市景色数据集

该数据集是一个大规模的关注于城市街道场景了解的数据集，提供了8种30个类别的语义级别、实例级别以及密集像素标注（包含平坦外表、人、车辆、修建、物体、天然、天空、空）。该数据集包含约5000张精密标注的图片，20000张粗略标注的图片。数据是从50个城市中继续数月采集而来，涵盖不同的工夫以及好的天气情况。开始起以视频模式存储，因而该数据集依照以下特点手动选出视频的帧：大量的动静物体，变动的场景布局以及变动的背景。

3.1.8. CamVid数据集

该数据集是一个路线、驾驶场景了解数据集，开始是五个视频序列，来自一个装置在汽车仪表盘上的960x720分辨率的摄相机。这些序列中采样出了701个帧（其中4个序列在1fps处，1个序列在15fps处），这些动态图被手工标注上32个类别：空、修建、墙、树、植被、栅栏、人行道、停车场、柱或杆、锥形交通标志、桥、标记、各种文本、信号灯、天空、……（还有很多）。有研究者将数据集依照367-100-233的比例分为训练集、验证集、测试集，这种分法应用了局部类标签：修建、树、天空、车辆、信号、路线、行人、栅栏、杆、人行道、骑行者。

3.1.9. KITTI

该数据集是用于移动机器人及主动驾驶钻研的最受欢迎的数据集之一，蕴含了由多种形式的传感器得出的数小时的交通场景数据，包含高分辨率RGB、灰度平面摄像机以及三维激光扫描器。只管很受欢迎，该数据集自身并没有蕴含实在语义宰割标注，然而，泛滥的研究者手工地为该数据集的局部数据增加标注以满足其问题的需要。有人为路线检测比赛中的323张图片生成了实在标注，蕴含三个类别：路线、垂直面和天空。还有人标注了252张图片，其中140张训练、112张测试，其选自追踪比赛中的RGB和Velodyne扫描数据，共十个类。有学者在视觉测距数据集中标注了170个训练图片和46个测试图片，共11个类。

3.1.10. YouTube物体数据集

该数据集是从YouTube上采集的视频数据集，蕴含有PASCAL VOC中的10个类。该数据集不蕴含像素级别的标注，但有学者手动的标注了其126个序列的子集。其在这些序列中每10个帧选取一张图片生成器语义标签，总共10167张标注的帧，每帧480x360的分辨率。

3.1.11. Adobe肖像宰割数据集

该数据集蕴含从Flickr中收集的800x600的肖像照片，次要是来自手机前置摄像头。该数据集蕴含1500张训练图片和300张预留的测试图片，这些图片均齐全被二值化标注为人或背景。图片被半自动化的标注：首先在每幅图片上运行一个人脸检测器，将图片变为600x800的分辨率，而后，应用Photoshop疾速抉择工具将人脸手工标注。这个数据集意义重大，因为其专门实用于人脸前景的宰割问题。

3.1.12. 上下文语料数据集MINC

该数据集是用于对块进行分类以及对整个场景进行宰割的数据集。该数据集提供了23个类的宰割标注（文中有具体的各个类别的名称），蕴含7061张标注了的宰割图片作为训练集，5000张的测试集和2500张的验证集。这些图片均来自OpenSurfaces数据集，同时应用其余起源如Flickr或Houzz进行加强。因而，该数据集中的图像的分辨率是变动的，均匀来看，图片的分辨率个别是800x500或500x800。

3.1.13. 密集标注的视频宰割数据集（DAVIS）

该比赛的指标是视频中的物体的宰割，这个数据集由50个高清晰度的序列组成，选出4219帧用于训练，2023张用于验证。序列中的帧的分辨率是变动的，然而均被降采样为480p的。给出了四个不同类别的像素级别的标注，别离是人、动物、车辆、物体。该数据集的另一个特点是每个序列均有至多一个指标前景物体。另外，该数据集特意地较少不同的大动作物体的数量。对于那些的确有多个前景物体的场景，该数据集为每个物体提供了独自的实在标注，以此来反对实例宰割。

3.1.14. 斯坦福背景数据集

该数据集蕴含了从现有公开数据集中采集的户外场景图片，包含LabelMe, MSRC, PASCAL VOC 和Geometric Context。该数据集有715张图片（320x240分辨率），至多蕴含一个前景物体，且有图像的程度地位信息。该数据集被以像素级别标注（程度地位、像素语义分类、像素几何分类以及图像区域），用来评估场景语义了解办法。

3.1.15. SiftFlow

该数据集蕴含2688张齐全标注的图像，是LabelMe数据集的子集。少数图像基于8种不同的户外场景，包含街道、平地、田地、沙滩、修建等。图像是256x256的，别离属于33个语义类别。未标注的或者标为其余语义类别的像素被认为是空。

3.2. 半平面（2.5维）数据集

随着便宜的扫描器的到来，带有深度信息的数据集开始呈现并被宽泛应用。咱们回顾最出名的2.5维数据集，其中蕴含了深度信息。

3.2.1. NYUDv2数据集

该数据集蕴含1449张由微软Kinect设施捕捉的室内的RGB-D图像。其给出密集的像素级别的标注（类别级别和实力级别的均有），训练集795张与测试集654张均有40个室内物体的类，该数据集因为其刻画室内场景而分外重要，使得它能够用于某种家庭机器人的训练任务。然而，它绝对于其余数据集规模较小，限度了其在深度网络中的利用。

3.2.2. SUN3D数据集

与NYUDv2数据集类似，该数据集蕴含了一个大规模的RGB-D视频数据集，蕴含8个标注了的序列。每一帧均蕴含场景中物体的语义宰割信息以及摄像机位态信息。该数据集还在裁减中，将会蕴含415个序列，在41座修建中的254个空间中获取。另外，某些中央将会在一天中的多个时段被反复拍摄。

3.2.3. SUNRGBD数据集

该数据集由四个RGB-D传感器得来，蕴含10000张RGB-D图像，尺寸与PASCAL VOC统一。该数据集蕴含了NYU depth v2 , Berkeley B3DO, 以及SUN3D 数据集中的图像，整个数据集均为密集标注，包含多边形、带方向的边界框以及三维空间，适宜于场景了解工作。

3.2.4. 物体宰割数据集（OSD）

该数据集用来解决未知物体的宰割问题，甚至是在局部遮挡的状况下进行解决。该数据集有111个实例，提供了深度信息与色彩信息，每张图均进行了像素级别的标注，以此来评估物体宰割办法。然而，该数据集并没有辨别各个类，使其进化为一个二值化的数据集，蕴含物体与非物体两个类。

3.2.5. RGB-D物体数据集

该数据集由视频序列形成，有300个常见的室内物体，分为51个类，应用WordNet hypernym-hyponym关系进行分类。该数据集应用Kinect型三维摄像机进行摄制，640x480RGB图像，深度信息30赫兹。对每一帧，数据集提供了RGB-D及深度信息，这其中蕴含了物体、地位及像素级别的标注。另外，每个物体放在旋转的桌面上以得出360度的视频序列。对于验证过程，其提供了22个标注的天然室内场景的蕴含物体的视频序列。

3.3. 三维数据集

纯正的三维数据集是稀缺的，通常能够提供CAD网格或者其余的体元示意如点云等。为宰割问题获取三维数据集是艰难的，因而很少有深度学习办法能够解决这种数据。也因而，三维数据集目前还不是很受欢迎。尽管如此，咱们还是介绍目前呈现的相干数据集来解决现有的问题。

3.3.1. ShapeNet局部数据集

该数据集是ShapeNet数据集的子集，关注于细粒度的三维物体宰割。蕴含取自元数据及16个类的31693个网格，每个形态类被标注为二到五个局部，整个数据集共有50个物体局部，也就是说，物体的每个局部比方飞机的机翼、机身、机尾、发动机等都被标注了。实在标注依照被网格宰割开的点出现。

3.3.2. 斯坦福2D-3D-S数据集

该数据集是一个多模态、大规模室内空间数据集，是斯坦福三维语义剖析工作的扩大。提供了多个模态：二维RGB，2.5维增加深度信息的图片、三维网格和点云，均提供宰割标注信息。该数据集有70496张高分辨率的RGB图像（1080x1080分辨率），以及其对应的深度图谱、外表法线、网格以及点云，军事带有像素级别及点级别的语义标注信息。这些数据取自6个室内区域，别离来自三个不同的教育与办公建筑。共有271个房间，大概7亿个点，被标以13个类。

3.3.3. 三维网格宰割基准数据集

该基准数据集有380个网格，被分为19个类。每个网格手动的被宰割为不同的性能区域，次要指标是提供对于人们如何调配网格性能的一个概率分布。

3.3.4. 悉尼城市物体数据集

该数据集蕴含多个常见的城市道路物体，由Velodyne HDK-64E LIDAR扫描失去，共有631个独立扫描的点云，由车辆、行人、标记、树木等类别组成。乏味的是，除了失常的扫描之外，还提供了全景360度的扫描标注。

3.3.5. 大规模点云分类基准数据集

该基准数据集提供手工标注的三维点云，面向天然与城市场景。该数据集在造成点云时保留了细节与密度等信息，训练集和测试集各蕴含15个大规模的点云，其规模达到超过十亿个标注点的级别。

4.前景瞻望

尽管语义宰割工作属于计算机图像视觉方向的根底工作之一，然而其对于很对高级工作的反对至关重要，目前也有着许多将来钻研的可能方向。

三维数据集：充分利用三维数据的一些办法曾经开始呈现，然而，即便是最新的计划，依然不足对于最重要的形成成分之一即数据的思考。目前急需一个大规模三维语义宰割数据集，但这绝对于其低维局部来说是较难创立的。尽管曾经有了一些不错的工作，依然须要更多、更好、更富变动的数据集的呈现。值得注意的是，真实世界的三维数据是极其重要的，因为目前简直所有的工作都是应用的合成数据集。三维数据重要性的一个证实便是，2018年ILSVRC将会创立三维数据。
序列数据集：三维数据集上大规模数据集不足的问题同样影响到了视频序列宰割问题。目前仅有少数几个数据集是基于序列的，这些数据集对于利用工夫序列信息的办法的倒退很无利。从实质上将二维及三维高质量数据分割起来必将引领新的钻研方向。
应用图卷积网络（GCN）对点云进行宰割：如之前所述，解决三维数据如点云等目前尚未解决，因为点云外在的无序性及非结构性，传统的架构如CNN等不能间接予以利用，除非应用某种离散化伎俩使其结构化。一个靠谱的钻研方向便致力于将点云解决为图，而后在其上利用卷积[109,110,111]。这种做法的益处便是在不量化数据的根底上保留了每个维度上的空间信息。
上下文常识：尽管FCN是语义宰割畛域中的一种松软的办法，然而FCN网络不足对于上下文等特色的建模，而这些信息有可能会进步准确率。将CRF重写为RNN来发明一种端对端的解决办法看起来是一个靠谱的办法，能够进步实在生存场景下的性能。多尺度及特色交融办法也获得了较大的停顿。总之，这些办法曾经获得了不小的提高，然而依然有许多问题亟待解决。
实时宰割：在很多利用场景下，准确率是重要的，然而，可能解决达到常见的摄像机帧率（至多25帧每秒）的输入速度也是很要害的。目前少数的办法远远达不到这个帧率，比方，FCN-8解决一张低分辨率的PASCAL VOC数据集中的图像须要100ms，同时，CRFasRNN须要500ms。因而，接下来几年，咱们期待会有一系列的工作关注于实时处理的限定，这些工作将必须在准确率与运行工夫之间寻求一个均衡。
存储空间：某些平台受限于其存储空间。宰割网络个别须要较大的存储空间，从而能够同时进行推理与训练。为了适应各种设施，网络必须要简略。尽管这能够通过升高复杂性（个别会就义准确率）来简略地实现，然而还是能够采取另外的方法。剪枝是一种靠谱的钻研方向，能够用来简化网络，使得网络在保留少数信息的同时变得轻量化，也因而同时保留了原网络的准确率。
序列数据的工夫一致性：一些办法解决了视频或序列宰割的问题，然而他们有些未利用工夫序列信息来进步准确率或效率。然而，没有一种办法解决了一致性的问题。对于一个利用在视频流上的宰割零碎来说，一致性信息是重要的，不仅能够逐帧地解决数据，还能够对整个片段的解决保持一致，而不须要通过平滑为序列预测出的像素级别的标签而产生人工的信息。
多视角整合：在最近提出的宰割网络上利用多视角信息目前仅仅限于RGB-D摄像机相干的场景，尤其是致力于繁多物体宰割的状况。

更多文章请关注公重号：汀丶人工智能

参考文献

[1] Image Segmentation Using Deep Learning: A Survey

[2] Global Convolutional Network(GCN)

[3] A survey on deep learning-based precise boundary recovery of semantic segmentation for images and point clouds

[4] Features to Text: A Comprehensive Survey of Deep Learning on Semantic Segmentation and Image Captioning

[5] Deep multimodal fusion for semantic image segmentation: A survey

[6] A survey of semi- and weakly supervised semantic segmentation of images

[7] A Brief Survey on Semantic Segmentation with Deep Learning

[8] A survey on indoor RGB-D semantic segmentation: from hand-crafted features to deep convolutional neural networks

[9] A Review on Deep Learning Techniques Applied to Semantic Segmentation