关于人工智能:用于语义图像分割的弱监督和半监督学习弱监督期望最大化方法

这时一篇 2015 年的论文，然而他却是最早提出在语义宰割中应用弱监督和半监督的办法，SAM 的火爆证实了弱监督和半监督的学习办法也能够用在宰割上。

这篇论文只有图像级标签或边界框标签作为弱 / 半监督学习的输出。应用冀望最大化 (EM) 办法，用于弱 / 半监督下的语义宰割模型训练。

1、符号定义

X 是图像。Y 是宰割映射。其中，ym∈{0，…，L}是地位 m∈{1，…，m}处的像素标签，假如咱们有背景和 L 个可能的前景标签，m 是像素个数。

2、有监督学习的流程

在上述齐全监督状况下，指标函数为:

这里的 θ 为模型参数向量。每个像素的标签散布计算如下:

其中 fm(ym|x，θ)为模型在像素 m 处的输入。J(θ)采纳小批量 SGD 优化。

当只有图像级标注时，能够察看到的是图像值 x 和图像级标签 z，但像素级宰割 y 是潜在变量。那么咱们有如下的概率图形模型:

给定之前的参数估计 θ ‘，冀望的残缺数据对数似然为:

其中能够采纳 em 近似，在算法的 e 步中预计潜在宰割:

论文对 EM 进行了批改，减少了偏差 Bias

在这种变体中，假如 log P(z|y)对像素地位进行因式分解为:

这样能够在每个像素上别离预计 e 步宰割:

参数 bl=bfg，如果 l > 0, b0=bbg，且 bfg > bbg > 0。

能够简略的解释为：激励将一个像素调配给图像级标签之一。bfg > bbg 比背景更能加强当前景类，激励残缺的对象笼罩并防止进化的解决方案。

论文的参数是：BFG = 5, BBG = 3，除此以外，论文还应用了自适应的值：

EM-Adapt 没有在 EM-Fixed 中应用固定值，而是激励至多将图像区域的 ρl 局部调配给类 l(如果 zl = 1)，并强制不将像素调配给类 l(如果 zl = 0)，这样 EM-Adapt 能够自适应地设置图像和类相干的偏差 bl。ρfg = 20%，ρbg = 40%。

Bbox-Rect 办法相当于简略地将边界框内的每个像素视为各自对象类的侧面示例。通过将属于多个边界框的像素调配给具备最小面积的边界框来解决歧义。尽管边界框齐全突围了对象，但也蕴含背景像素，这些像素是假阳性示例净化训练集。

为了过滤掉这些背景，论文还应用了 DeepLab 中应用的 CRF。边界框的核心区域 (框内像素的 %) 被束缚为前景。用 hold -out 集预计 CRF 参数。

论文的办法 Bbox-EM-Fixed：该办法是后面提到的 EM-Fixed 算法的一种变体，其中仅晋升以后前景指标在边界框区域内的分数。

在混合标注的状况下，就变成了一种半监督的状况。在深度 CNN 模型的 SGD 训练中，每个 mini-batch 具备固定比例的强 / 弱标注图像，并应用论文提出的 EM 算法在每次迭代中预计弱标注图像的潜在语义宰割。

在 EM-Fixed 半监督设置中应用 1464 个像素级和 9118 个图像级正文，性能显著进步了，达到 64.6%，靠近齐全监督 67.6%。

在半监督设置中应用 2.9k 像素级正文和 9k 图像级正文，失去 68.5%，靠近齐全监督 70.3%。

Bbox-Seg 比 Bbox-Rect 进步了 8.1%，并且在像素级标注后果的 7.0% 以内。1464 个像素级标注与弱边界框标注相结合，失去的后果为 65.1%，仅比像素级标注差 2.5%。

Bbox-EM-Fixed 在增加更多标注时比 Bbox-Seg 有所改进，当在增加 2.9k 标注时，它的性能进步了 1.0% (69.0% vs 68.0%)。

能够说的 EM 算法的 e 步比前景 - 背景宰割预处理步骤能更好地预计指标掩模。

这尽管是一篇很老的论文，然而它提出的思维到当初还是可用的，这对于咱们理解当初的弱监督和半监督的学习办法也是十分有帮忙的，所以举荐对于钻研 SAM 方向的小伙伴都浏览一下，论文地址：

https://avoid.overfit.cn/post/36b0fbd642d640ceab41d0dfb885a95d

背景常识