关于深度学习:论文表情识别Region-Attention-Networks

论文根本状况

发表工夫及刊物/会议: 2019 TIP

问题背景

遮挡和姿势变动是表情辨认须要解决的两大难题,然而目前没有对于姿势变换和遮挡的表情辨认数据集。

论文翻新点

(1)在现有的表情辨认数据集选取了波及姿势变动和遮挡的图片,并标注了遮挡类型以及姿势变动角度。具体来说,论文选取了RAF-DB,FerPlus,AffectNet三个数据集的测试集,每个数据集别离抽取了局部含遮挡,姿势变动>30度,姿势变动>45度三种类型的图片,别离造成了三种测试集。

(2)搭建Region Attention Network (RAN)网络模型,来获取姿势变动或遮挡表情中的重要区域。
(3)提出region biased loss(RB loss)激励网络给重要区域更高的权重。

网络结构


RAN次要蕴含三个局部:
(1)裁剪和特征提取模块
(2)自注意力模块
(3)relation-attention模块

裁剪和特征提取模块

通过固定地位裁剪、随机裁剪、基于人脸特色点等办法裁剪出$K$张图片,和原图一起共$K+1$张图片,一起送入同一个CNN网络进行特征提取。

  1. 对于固定裁剪,RAN共裁剪5张图片。别离以左上角,右上角为顶点,以核心偏下地位为核心,0.75为比例,裁剪出三张图片;以原图核心为核心,别离以0.9, 0.85为比例,裁剪出另外两张图片。
  2. 对于随机裁剪,RAN共裁剪$K$个区域,每张图片的裁剪比例为0.7~0.95。
  3. 对于基于landmark的裁剪,RAN应用MTCNN检测每个人脸图像的五个特色点,以特色点核心为核心,以$r$为半径,裁剪出$K$张图片。

注:本文的默认试验设置为固定裁剪。
原图$I_0$以及裁剪后的图片$I_1, I_2, …,I_k$别离送入同一个CNN网络,失去对应的特色,原图$I_0$的特色汇合为公式中的$X$

自注意力模块

RAN应用ResNet18作为backbone,并将ResNet18在最初全连贯层之前提取到的特色送入 self-attention 模块。公式(2)中的$F_i$示意第$i$张图片在全连贯层之前的特色,$f,q^0$别离示意sigmoid激活函数和注意力机制中全连贯层的参数 。$\mu_i$示意失去的注意力权重。

通过子注意力模块,咱们让更重要的裁剪区域对应的权重$\mu_i$更高。而通过公式(3)咱们让同一张图片对应的多个特色依据权重$\mu_i$进行加权均匀,计算出全局特色$F_m$。

为了进一步加强特色区域的特色,本文利用了region biased loss(RB loss),RB loss心愿各种不同的裁剪中,应该至多有一张裁剪图片可能比原图更加凸显表情特色,获取到更高的权重,因而,RB loss中设置阈值,心愿注意力权重最高的裁剪图片对应的权重和原图相比超出肯定阈值。

通过下图,能够看出RB loss的作用

Relation-attention module

关系注意力模块进一步加强特色,通过将backbone提出的初始特色$F_i$和自注意力模块失去的加权均匀特色$F_m$进行矩阵拼接,之后再送入关系注意力模块的全连贯层$q^1$提取特色,最初通过sigmoid激活函数$f$失去增强特色$v_i$

RAN网络最终的输入如下:

试验

  1. RAN在含有遮挡,姿势变动的数据集上的测试后果。

  1. 不同裁剪区域、不同交融形式对试验后果的影响

3.网络结构中不同模块,以及人脸是否对齐对试验后果的影响

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理