关于深度学习:论文表情识别Region-Attention-Networks

20次阅读

共计 1394 个字符,预计需要花费 4 分钟才能阅读完成。

论文根本状况

发表工夫及刊物 / 会议:2019 TIP

问题背景

遮挡和姿势变动是表情辨认须要解决的两大难题,然而目前没有对于姿势变换和遮挡的表情辨认数据集。

论文翻新点

(1)在现有的表情辨认数据集选取了波及姿势变动和遮挡的图片,并标注了遮挡类型以及姿势变动角度。具体来说,论文选取了 RAF-DB,FerPlus,AffectNet 三个数据集的测试集,每个数据集别离抽取了局部含遮挡,姿势变动 >30 度,姿势变动 >45 度三种类型的图片,别离造成了三种测试集。

(2)搭建 Region Attention Network (RAN) 网络模型,来获取姿势变动或遮挡表情中的重要区域。
(3)提出 region biased loss(RB loss)激励网络给重要区域更高的权重。

网络结构


RAN 次要蕴含三个局部:
(1)裁剪和特征提取模块
(2)自注意力模块
(3)relation-attention 模块

裁剪和特征提取模块

通过固定地位裁剪、随机裁剪、基于人脸特色点等办法裁剪出 $K$ 张图片,和原图一起共 $K+1$ 张图片,一起送入同一个 CNN 网络进行特征提取。

  1. 对于固定裁剪,RAN 共裁剪 5 张图片。别离以左上角,右上角为顶点,以核心偏下地位为核心,0.75 为比例,裁剪出三张图片;以原图核心为核心,别离以 0.9, 0.85 为比例,裁剪出另外两张图片。
  2. 对于随机裁剪,RAN 共裁剪 $K$ 个区域,每张图片的裁剪比例为 0.7~0.95。
  3. 对于基于 landmark 的裁剪,RAN 应用 MTCNN 检测每个人脸图像的五个特色点,以特色点核心为核心,以 $r$ 为半径,裁剪出 $K$ 张图片。

注:本文的默认试验设置为固定裁剪。
原图 $I_0$ 以及裁剪后的图片 $I_1, I_2, …,I_k$ 别离送入同一个 CNN 网络,失去对应的特色,原图 $I_0$ 的特色汇合为公式中的 $X$

自注意力模块

RAN 应用 ResNet18 作为 backbone,并将 ResNet18 在最初全连贯层之前提取到的特色送入 self-attention 模块。公式(2)中的 $F_i$ 示意第 $i$ 张图片在全连贯层之前的特色,$f,q^0$ 别离示意 sigmoid 激活函数和注意力机制中全连贯层的参数。$\mu_i$ 示意失去的注意力权重。

通过子注意力模块,咱们让更重要的裁剪区域对应的权重 $\mu_i$ 更高。而通过公式(3)咱们让同一张图片对应的多个特色依据权重 $\mu_i$ 进行加权均匀,计算出全局特色 $F_m$。

为了进一步加强特色区域的特色,本文利用了 region biased loss(RB loss),RB loss 心愿各种不同的裁剪中,应该至多有一张裁剪图片可能比原图更加凸显表情特色,获取到更高的权重,因而,RB loss 中设置阈值,心愿注意力权重最高的裁剪图片对应的权重和原图相比超出肯定阈值。

通过下图,能够看出 RB loss 的作用

Relation-attention module

关系注意力模块进一步加强特色,通过将 backbone 提出的初始特色 $F_i$ 和自注意力模块失去的加权均匀特色 $F_m$ 进行矩阵拼接,之后再送入关系注意力模块的全连贯层 $q^1$ 提取特色,最初通过 sigmoid 激活函数 $f$ 失去增强特色 $v_i$

RAN 网络最终的输入如下:

试验

  1. RAN 在含有遮挡,姿势变动的数据集上的测试后果。

  1. 不同裁剪区域、不同交融形式对试验后果的影响

3. 网络结构中不同模块,以及人脸是否对齐对试验后果的影响

正文完
 0