本文首发于: 行者 AI
在整篇文章阐述开始之前,咱们先做一些概念性的解说铺垫。卷积神经网络的各层卷积单元在模型网络中实际上有充当了指标检测器的作用,只管没有提供对指标地位的监督。尽管其领有在卷积层中定位对象的不凡能力,但当应用全连贯层进行分类时,这种能力就会丢失。基于此,提出了 CAM(类激活映射)的概念,采纳全局均匀池化,以热力求的模式通知咱们,模型通过哪些像素点得悉图片属于某个类别,使模型透明化和具备可解释性,如下图所示:
1. Global Average Pooling 的工作机制
这里咱们假如最初的类别数为 n,最初一层含有 n 个特色图,求每张特色图所有像素的平均值,后接入一个有 n 个神经元的全连贯层。要有 n 个特色图的起因在于,每个特色图次要提取了某一类别相干的某些特色。
2. 什么是 CAM?
CNN 最初一层特色图富含有最为丰盛类别语意信息(能够了解为高度形象的类别特色),因而 CAM 基于最初一层特色图进行可视化。CAM 能让咱们对 CNN 网络有很好的解释作用,利用特色图权重叠加的原理取得热图,具体工作原理如下图所示。
设最初一层有 n 张特色图,记为 $A^1,A^2,…A^n$,分类层中一个神经元有 n 个权重,一个神经元对应一类,设第 $i$ 个神经元的权重为 $w^1,w^2,…w^n$,则第 c 类的 CAM 的生成形式为:
$$
L_{CAM}^c = \sum_{i=1}^n w_i^cA^i (式 1)
$$
生成的 CAM 大小与最初一层特色图的大小统一,接着进行上采样即可失去与原图大小统一的 CAM。
2.1. 为什么如此计算能够失去类别相干区域
用 GAP 示意全局均匀池化函数,沿用上述符号,第 c 类的分类得分为 $S_c$,GAP 的权重为 $w_i^c$,特色图大小为 $c_1*c_2$,第 $i$ 个特色图第 $k$ 行第 $j$ 列的像素值为 $A_{kj}^i$,则有:
$$
S_c = \sum_{i=1}^n w_i^c GAP(A_i)
$$
$$
= \sum_{i=1}^n w_i^c \frac 1Z \sum_{k=1}^{c_1} \sum_{j=1}^{c_2}A_{kj}^i
$$
$$
= \frac 1Z \sum_{i=1}^n \sum_{k=1}^{c_1} \sum_{j=1}^{c_2} w_i^c A_{kj}^i
(式 2)
$$
特色图中的一个像素对应原图中的一个区域,而像素值示意该区域提取到的特色,由上式可知 $S_c$ 的大小由特色图中像素值与权重决定,特色图中像素值与权重的乘积大于 0,有利于将样本分到该类,即 CNN 认为原图中的该区域具备类别相干特色。式 1 就是计算特色图中的每个像素值是否具备类别相干特色,如果有,咱们能够通过上采样,看看这个像素对应的是原图中的哪一部分。GAP 的出发点也是如此,即在训练过程中让网络学会判断原图中哪个区域具备类别相干特色,因为 GAP 去除了多余的全连贯层,并且没有引入参数,因而 GAP 能够升高过拟合的危险。可视化的后果也表明,CNN 正确分类确实是因为留神到了原图中正确的类别相干特色。
2.2. CAM 缺点
须要批改网络结构并从新训练模型,导致在理论利用中并不不便。
3. Grad-CAM
3.1. Grad-CAM 构造
Grad-CAM 和 CAM 基本思路一样,区别就在于如何获取每个特色图的权重,采纳了梯度的全局均匀来计算权重。定义了 Grad-CAM 中第 $\kappa$ 个特色图对应类别 c 的权重:
$$
\alpha_\kappa^c = \frac 1Z \sum_i \sum_j \frac {y^c}{\alpha A_{ij}^k} (式 3)
$$
其中,Z 示意特色图像素个数,$y^c$ 示意第 c 类得分梯度,$A_{ij}^k$ 示意第 $k$ 个特色图中,$(i,j)$ 地位处的像素值。而后再求得所有的特色图对应的类别的权重后进行加权求和,这样便能够失去最初的热力求,求和公式如下:
$$
L_{Grad-CAM}^c = ReLU(\sum_k \alpha_k^c A^k)(式 4)
$$
3.2. Grad-CAM 成果
4. 论断
可视化能够进一步区别分类,精确地更好地揭示分类器的可信赖性,并帮忙辨认数据集中的偏差。真正的 AI 利用,也更应该让人们信赖和应用它的行为。
5. 代码实现
https://github.com/jacobgil/keras-cam
参考文献
- B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. Object detectors emerge in deep scene cnns. International Conference on Learning Representations, 2015.
- Computers – Computer Graphics; Investigators from Georgia Institute of Technology Have Reported New Data on Computer Graphics (Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization). 2020, :355-.