乐趣区

关于深度学习:论文笔记表情识别Occlusion-Aware-Facial-Expression-Recognition

Occlusion Aware Facial Expression Recognition Using CNN With Attention Mechanism

Date: July 6, 2022
Topic: Occlusion
Where: TIP
Year: 2019

摘要

次要问题:实在环境中可能呈现表情遮挡问题。此前大部分模型是在 controlled face(大多数数据集都是由 CK+ , MMI , OuluCASIA 试验环境下失去的表情)上失去的后果

提出含注意力机制的卷积神经网络,能够构想出遮挡区域,并且将”注意力“集中在未遮挡的局部上。

此网络混合人脸中感兴趣的区域多种示意,每一种示意都有对应的权重。

含注意力机制的卷积神经网络有两种版本,一种是全局 - 部分的注意力机制(global–local-based ACNN),一种是基于 patch 的注意力机制(patch-based ACNN)。

次要思维

人们在生活中遇到遮挡物时,会把注意力集中在未遮挡的局部,或者是关注与遮挡局部对称或严密相干的局部。

如图中小女孩用手遮挡了嘴巴,因而后三个局部失去的权重较低,特地是最初一个局部,手指齐全遮住了嘴巴,无奈判断表情,则权重极低。

  • pACNN:依据图片的 landmark 的地位把最初一层卷积层输入的特色图宰割成多个 patch,对于每个 patch,PG-Unit 学习给每个 patch 对应的权重。
  • gACNN:同时整合 local 和 global 的示意,GG-Unit 给每一个全局示意一个权重。

相干工作

从两个方面介绍相干工作:

  • 类似的工作:含遮挡的表情辨认

    • Holistic-based(基于整体的办法)

      • 通过 designated regularization 形式,进步网络的鲁棒性(这个想法也实用于一般性物体遮挡)
      • 通过生成模型补全成残缺的脸(相干钻研表明,等同状况下,对嘴巴的遮挡,相比对眼睛的遮挡会极大影响表情辨认模型的能力)
    • Part-based:将图片分块:依据 landmark 分块,或者均等分块,后 detecting 是否含遮挡

      • 补全遮挡的块
      • 对所有块调配不同权重
      • 疏忽被遮挡的局部
  • 类似的技术:注意力机制

网络结构

Overview

  1. 一张图片输出 VGG 网络,失去一些特色图
  2. ACNN 将特色图解构为小特色图,失去不同的 local patches。
  3. 每个 local patch 被 PG-Unit 编码为一个带权重的向量,权重示意被遮挡的水平。
  4. 带权重向量和 local representations 拼接
  5. 两层全连贯层用于分类

Patch Based ACNN

  1. Region Decomposition:首先检测出人脸中 68 个 landmark,在这 68 个点中,抉择或者从新计算 24 个更为重要的点,蕴含人脸的眼睛,鼻子,嘴巴,眉毛四个关键部位。
  2. Occlusion Perception With Gate Unit:

    1. 被抉择进去的 裁剪后的特色图送入两层卷积层(不扭转空间分辨率)
    2. 最初一层特色图送入两个分支

      1. 第一个分支将输出的特色图编码成部分特征向量
      2. 第二个分支蕴含 Attention Net 应用一个标量取预计 local patch 的重要性。

      数学示意如下:


Global-Local Based ACNN

pACNN 用于捕捉部分面部特色,gACNN 用于捕捉全局面部特色

  1. Integration With Full Face Region:

    • Global-Local Attention 能够帮忙推断部分特色
    • Global-Local Attention 能够看作一种类型 ensemble learning(集成学习)
  2. Global-Gated Unit (GG-Unit)

    • 第一个分支将输出的特色图编码成全局特征向量
    • 第二个分支蕴含 Attention Net 应用一个标量取预计 global patch 的重要性。

Landmark 的错误判断无疑会给模型带来消极影响。

留神,这种属于本文能够改良的中央,本文为 2018/2019 论文,后续曾经有论文将不依赖 landmark 作为翻新点

试验

试验数据集

  • 原始残缺数据集:RAF-DB,AffectNet 这类
  • 人工合成的遮挡图片(在原始数据集上进行人工遮挡):应用熊,帽子,书,头发等多个物体作为遮挡物,遮挡原始数据集中的图片。这个办法第一次见,不晓得之前是否有先例,之后的 RAN 中也是在原始数据集上新建了数据集,这种办法很讨巧。

  • 含遮挡的实在图片,构建了一个数据集 FED-RO:利用搜索引擎收集含遮挡的图片,并确保选出来的 400 张图片和 RAF-DB 以及 AffectNet 中不重合,由 3 集体进行标注。

试验细节

Backbone:VGG-16 (只取前 9 个卷积层)

预训练模型:ImageNet

训练过程中:原始残缺数据集和人工合成的数据集依照 1;1 混合

优化器:SGD

初始学习率:0.001

学习率调整策略:polynomia,gamma 为 0.1

momentum:0.9

weight decay:0.0005

batch size:128

最大迭代次数:50K 共破费 2 天!!!

  1. 与其余注意力机制模型比照:

  1. Comparison With Other Methods Handling FER With Synthetic Occlusion

  1. Comparison With Inpainting Methods:(和其余修复办法比照)

4,跨数据集的测评

退出移动版