共计 2130 个字符,预计需要花费 6 分钟才能阅读完成。
Occlusion Aware Facial Expression Recognition Using CNN With Attention Mechanism
Date: July 6, 2022
Topic: Occlusion
Where: TIP
Year: 2019
摘要
次要问题:实在环境中可能呈现表情遮挡问题。此前大部分模型是在 controlled face(大多数数据集都是由 CK+ , MMI , OuluCASIA 试验环境下失去的表情)上失去的后果
提出含注意力机制的卷积神经网络,能够构想出遮挡区域,并且将”注意力“集中在未遮挡的局部上。
此网络混合人脸中感兴趣的区域多种示意,每一种示意都有对应的权重。
含注意力机制的卷积神经网络有两种版本,一种是全局 - 部分的注意力机制(global–local-based ACNN),一种是基于 patch 的注意力机制(patch-based ACNN)。
次要思维
人们在生活中遇到遮挡物时,会把注意力集中在未遮挡的局部,或者是关注与遮挡局部对称或严密相干的局部。
如图中小女孩用手遮挡了嘴巴,因而后三个局部失去的权重较低,特地是最初一个局部,手指齐全遮住了嘴巴,无奈判断表情,则权重极低。
- pACNN:依据图片的 landmark 的地位把最初一层卷积层输入的特色图宰割成多个 patch,对于每个 patch,PG-Unit 学习给每个 patch 对应的权重。
- gACNN:同时整合 local 和 global 的示意,GG-Unit 给每一个全局示意一个权重。
相干工作
从两个方面介绍相干工作:
类似的工作:含遮挡的表情辨认
Holistic-based(基于整体的办法)
- 通过 designated regularization 形式,进步网络的鲁棒性(这个想法也实用于一般性物体遮挡)
- 通过生成模型补全成残缺的脸(相干钻研表明,等同状况下,对嘴巴的遮挡,相比对眼睛的遮挡会极大影响表情辨认模型的能力)
Part-based:将图片分块:依据 landmark 分块,或者均等分块,后 detecting 是否含遮挡
- 补全遮挡的块
- 对所有块调配不同权重
- 疏忽被遮挡的局部
- 类似的技术:注意力机制
网络结构
Overview
- 一张图片输出 VGG 网络,失去一些特色图
- ACNN 将特色图解构为小特色图,失去不同的 local patches。
- 每个 local patch 被 PG-Unit 编码为一个带权重的向量,权重示意被遮挡的水平。
- 带权重向量和 local representations 拼接
- 两层全连贯层用于分类
Patch Based ACNN
- Region Decomposition:首先检测出人脸中 68 个 landmark,在这 68 个点中,抉择或者从新计算 24 个更为重要的点,蕴含人脸的眼睛,鼻子,嘴巴,眉毛四个关键部位。
Occlusion Perception With Gate Unit:
- 被抉择进去的 裁剪后的特色图送入两层卷积层(不扭转空间分辨率)
最初一层特色图送入两个分支
- 第一个分支将输出的特色图编码成部分特征向量
- 第二个分支蕴含 Attention Net 应用一个标量取预计 local patch 的重要性。
数学示意如下:
Global-Local Based ACNN
pACNN 用于捕捉部分面部特色,gACNN 用于捕捉全局面部特色
Integration With Full Face Region:
- Global-Local Attention 能够帮忙推断部分特色
- Global-Local Attention 能够看作一种类型 ensemble learning(集成学习)
Global-Gated Unit (GG-Unit)
- 第一个分支将输出的特色图编码成全局特征向量
- 第二个分支蕴含 Attention Net 应用一个标量取预计 global patch 的重要性。
Landmark 的错误判断无疑会给模型带来消极影响。
留神,这种属于本文能够改良的中央,本文为 2018/2019 论文,后续曾经有论文将不依赖 landmark 作为翻新点
试验
试验数据集
- 原始残缺数据集:RAF-DB,AffectNet 这类
- 人工合成的遮挡图片(在原始数据集上进行人工遮挡):应用熊,帽子,书,头发等多个物体作为遮挡物,遮挡原始数据集中的图片。这个办法第一次见,不晓得之前是否有先例,之后的 RAN 中也是在原始数据集上新建了数据集,这种办法很讨巧。
- 含遮挡的实在图片,构建了一个数据集 FED-RO:利用搜索引擎收集含遮挡的图片,并确保选出来的 400 张图片和 RAF-DB 以及 AffectNet 中不重合,由 3 集体进行标注。
试验细节
Backbone:VGG-16 (只取前 9 个卷积层)
预训练模型:ImageNet
训练过程中:原始残缺数据集和人工合成的数据集依照 1;1 混合
优化器:SGD
初始学习率:0.001
学习率调整策略:polynomia,gamma 为 0.1
momentum:0.9
weight decay:0.0005
batch size:128
最大迭代次数:50K 共破费 2 天!!!
- 与其余注意力机制模型比照:
- Comparison With Other Methods Handling FER With Synthetic Occlusion
- Comparison With Inpainting Methods:(和其余修复办法比照)
4,跨数据集的测评