关于算法:城南如何识别AI生成图视觉AIGC伪造检测技术综述

如何辨认 AI 生成图片？or 如何辨认 AIGC 图？or 如何辨认 AI 换脸？or AI生成图伪造检测？

相似的说法有很多种，总之就是利用AI技术来甄别一张图是不是AI生成的，这种AI技术就是本文的内容。

敌人好，我是卷了又没卷，薛定谔的卷的AI算法工程师「陈城南」~ 负责某大厂的算法工程师，带来最新的前沿AI常识和工具，欢送大家交换~，后续我还会分享更多 AI 乏味工具和实用玩法，包含 ChatGPT、AI绘图等。

公众号「陈城南」或加「cchengnan113」备注AI交换群
知乎账号「陈城南」

视觉AIGC辨认

现阶段视觉AIGC（AI-generated Content，人工智能生产内容）次要包含图片（Image）和视频（Video），视频的实质是间断的图片帧，疏忽其音频信息的状况下，视频生成则是图片生成的延长。因而，视觉AIGC辨认次要聚焦在AIG图片的辨认。

在AIGC这个概念爆火之前，图片生成的利用始终存在，比方利用GAN进行AI换脸等。因为AI绘图和ChatGPT等大规模语言模型（LLMs）别离在两个畛域体现出惊人的成果并胜利出圈，AIGC这一概念才开始被大家熟知。本文所说的「视觉AIGC辨认」则同时蕴含AI换脸等前AIGC时代的检测，也蕴含Midjourney、SD等AI绘图场景的辨认。

因为AI换脸等人脸伪造技术在利用和负面影响上较大，技术绝对成熟，其辨认难度也较大，辨认的相干钻研也便绝对集中。因而，本文依据已有的钻研工作调研，将视觉AIGC辨认粗略划分为：

人脸伪造检测（Face Forgery Detection）：蕴含人脸的AIG图片/视频的检测，例如AI换脸、人脸操控等。此类办法次要关注带有人脸相干的检测办法，检测办法可能会波及人脸信息的先验。
AIG整图检测（AI Generated-images Detection）：检测一整张图是否由AI生成，检测更加的泛化。这类办法绝对更关注生成图与实在图更通用的底层区别，通常专一于整张图，比方近年爆火的SD、Midjounery的绘图；
其余类型假图检测（Others types of Fake Image Detection）：此类办法更偏差于部分伪造、综合伪造等一系列更简单的图片造假，当然人脸伪造也属于部分、简单，然而是人脸场景。将AIG图与实在图拼凑、合成的图片辨认也属于这一类。

这三种类型之间划分并不清晰，很多办法同时具备多种检测能力，可划分为多种类型。严格意义上说AIG整图和其余造假图检测类型可能都会蕴含人脸信息，但三种类型办法往往技术出发点也不同。

生成式模型总览

图片生成模型比拟受欢迎的次要有3种基础架构[0]，变分主动编码器VAE系列（Variational Automatic Encoder）、反抗生成网络GAN系列（Generation Adversarial Network）和扩散模型DM系列（Diffusion Model）。其中AI绘图以2020年的去噪扩散概率模型DDPM（Denoising Diffusion Probabilistic Model）为一个较大的里程碑，在此之前的生成模型次要以GAN居多。当下最火的开源AI绘画模型 Stable Diffusion 则为扩散模型，据悉 MidJourney 是变形注意力GAN的变体[1]。

人脸伪造检测（Face Forgery Detection）

特指蕴含波及人脸相干内容生成的图片/视觉生成，例如AI换脸、人脸操控等；

人脸假装图生成

理解人脸假装检测技术前，须要先理解人脸造假图片生成的技术有哪些，不同的生成技术/场景可能有不同的检测办法。基于论文ForgeryNet[2]中的内容，人脸假装图片生成的相干办法（截止2021年前）能够总结如下：

其中，StarGAN2-BlendFace-Stack (SBS), DeepFakes-StarGAN2-Stack (DSS)

人脸假装图依据身份信息是否更改划分为身份信息不变类和身份替换类。

身份不变类伪造图在图片批改/生成时不批改图片中人物的身份信息，包含：

人脸编辑：编辑人脸的内部属性，如年龄、性别或种族等。
人脸再制订：保留源主体的身份，但操纵其口部或表情等固有属性；
- https://github.com/harlanhong/awesome-talking-head-generation
- https://github.com/Rudrabha/Wav2Lip

身份替换类伪造图在图片批改时同时扭转其中人的身份信息：

人脸转移：它将源脸部的身份感知和身份不相干的内容（例如表情和姿态）转移到指标脸部，换脸也换表情等等，相当于把本人脸贴在他人的头上；
换脸：它将源脸部的身份信息转移到指标脸部，同时保留身份不相干的内容。即换脸，但不换表情，本人的脸在他人脸上做不变的事件；
人脸重叠操作（FSM）：指一些办法的汇合，其中局部办法将指标图的身份和属性转移到源图上，而其余办法则在转移身份后批改替换后图的属性，多种办法的复合；

伪造图检测办法

本局部次要为相关检查办法的局部论文简介。

【综述】GAN-generated Faces Detection: A Survey and New Perspectives

Arxiv 2023 工作，介绍了DL办法、物理学办法（Physical-based Methods）、生理学办法（Physiological-based Methods）的检测办法，同时给出了不同生成模型的工夫线（上图）。文章指出依据调研显示，GAN-face当初AI检测性能高于人，因为有些图一眼看过来十分真，人的辨认准确率也只有50%~60%。在这三类办法中

DL办法的图片辨认（分类）可解释性不太行，如果人看不出来，AI辨认进去但又没有起因，比拟难解释；
基于物理的办法通过寻找人工信息或面部与物理世界之间的不统一，例如透视中的照明和反射，来辨认gan-face；
基于生理学的办法钻研人脸的语义方面[14]，包含对称性、虹膜色彩、瞳孔形态等线索，其中辨认的伪像用于裸露gan人脸。

作者还给出了归类的不同办法及性能（如下），但我剖析后发现这个表存在有余：
作者在第3章提到的很多DL办法的后果没有呈现在此表中；
该表格的测试集不对立，每个办法的后果不能与其余办法偏心的比拟，无奈较高凸显性能优劣；

【音画不同步】Not made for each other- Audio-Visual Dissonance-based Deepfake Detection and Localization

MM 2020 工作，针对虚伪视频问题，作者给视频定义了模态失调得分（Modality Dissonance Score, MDS) 来掂量其音画同步的水平。

视频支路 3D ResNet，把间断视频切成n个Seg，每个Seg又有m个帧，最终通过3D特色抽为 n 个特色；
音频支路，把间断声音1-秒距离转化为 MFCC特色（一种音频的热力求），而后同样是送入卷积网络失去n个音频特色。
而后两个特色进行比照学习，对于Fake video最大化不统一得分MDS，Real video最小化不统一得分MDS。另外还有分类损失进行分类。

该办法太依附同步信息了，很多网络提早引起音画不同步、或者视频中环境声较大的状况..都不能应用；

可检测场景：换脸、人脸操纵等；

【唇部变动辨认】Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery Detection

CVPR2021 工作，该文章也针对视频检测，利用唇部静止进行检测，是文章最大的亮点。

在lipreading工作上预训练CNN（freeze框内），作者称依据之前教训“在失常工作上训模型能进步模型对异样值（虚伪）的敏感性”，事实上他的试验证实了这一点，lipreading的预训练任务能大幅晋升其后果；
在虚伪检测（也就是假脸检测）工作上finetune 时空网络（我集体了解这里的时空网络其实就是一个多帧特色交融，间接用个Transformer应该成果一样甚至更优）
损失用穿插熵做 2 分类；

预处理方面细节：

应用25帧图作为输出，应用RetinaFace[16]检测每一帧的脸，只提取最大的脸同时Crop 1.3 倍避免失落信息；
用FAN[15]计算脸部 landmarks 进行唇部的裁剪，同时还做了对齐，作为模型输出；

试验：

lipreading的预训练任务能大幅晋升其后果
在其余数据集上泛化性也比拟好，毕竟次要针对唇部还用其余模型做了对齐，泛化性好能够了解；

【减弱身份信息】Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection Generalization

旷视科技的CVPR2023工作，开源在其官网github中，落地性应该有背书，属于训练简单推理简略的。

通常用一个二分类训deepfake模型时可能存在一个问题，模型会把身份信息也学到，导致在甄别fake图片时借用了id信息来辅助裁决（比方某ID的脸都是真脸，模型通过记住ID来检测虚实）。这些泄露的ID信息会在unseen数据上误导裁决，这显然是不利于模型泛化的。作者将这一景象称为 隐式身份泄露（Implicit Idenetity Leakage）。

作者认为ID信息通常是由全局信息反馈的，部分特色比拟难反映出这些信息（比方独自的嘴、鼻子等），因而为了避免“隐式身份泄露”，作者干了两件事：

提出人工假装检测模型（Artifact Detection Module，ADM）来使模型聚焦于部分信息；
同时为了配合ADM训练，设计了多尺度的面部替换办法（Multi-scale Facial Swap，MFS）来生成具备不同尺度的人工伪造信息（Artifact）的图片，加强数据集。

试验成果：

比下面的 LipForensices 在 FF++ 数据集上鲁邦性成果好；
在FF++，Celeb-DF 上成果略优于 SBI[17]

【自监督反抗】Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection

CVPR 2022 工作，论文通过3个角度来进步检测器的泛化能力（A数据训 B数据集测），泛化能力也是论文的次要卖点。如上图，训练框架由合成器G、图片合成和判断器 D 组成，造成反抗训练。

合成器：生成配置参数，用来合成更丰盛的自监督样本数据（留神是生成配置的参数）
1. 原生假图：不解决，即不进入合成器，间接用来训判断器；
2. 原生真图：不增广的真图不进入合成器，间接训判断器；
3. 合成假图：有肯定概率与一个随机图（Reference）进行增广，造成部分虚伪的假图；
图片合成：合成器G会生成配置计划（区域抉择10个；混合blending类型抉择；以及合成比例抉择ratio），基于此进行合成（即数据增广）
1. 其中合成器输入区域的下标index，具体的区域须要利用 landmarks 网络生成该脸的 landmarks并进行选取；
判断器G：对图片进行分类，同时增加辅助工作，用合成器的G的输入作为label
1. 区域预测：宰割Loss，label就是 landmarks 组成的掩码；
2. Blending type：分类loss
3. Blending ratio：L1间隔loss；

因而，3个角度为：1. 合成数据，数据量大；2. 反抗训练，优化配置和判断器；3. 辅助工作且自监督；

其余可参考论文/我的项目

人脸假装检测的论文太多了，下面总结的也只是其中一角，蕴含的类别也不够多。

比拟全的Github，蕴含各种数据集、办法等：https://github.com/Daisy-Zhang/Awesome-Deepfakes-Detection
Survey：https://github.com/clpeng/Awesome-Face-Forgery-Generation-and-Detection
Detecting and Grounding Multi-Modal Media Manipulation, CVPR 2023: Paper Github
End-to-End Reconstruction-Classification Learning for Face Forgery Detection (2022 CVPR) [Paper] [Code]
Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection (2022 CVPR) [Paper] [Code]
OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training, NIPS 2022: Paper Github；该作者代码基于下面的Self-supervised办法；
Leveraging Real Talking Faces via Self-Supervision for Robust Forgery Detection, CVPR 2022: Paper
Detecting Deepfakes with Self-Blended Images, CVPR 2022: Paper Github
Multi-Attentional Deepfake Detection, CVPR 2021: Paper Github
鲁邦的二分类：https://github.com/davide-coccomini/Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection

AIG整图检测（AI Generated-images Detection）

检测一张图是否由AI生成，即是否为 VAE、GAN、扩散模型DM生成的图（后简称为VAE图、GAN图和DM图）。通常这种判断是整图粒度的，但如果某个图的局部区域为生成图片，局部办法也是能够辨认的。

本类辨认生成图的办法大体上遵循一个整体的思路：将实在图（Real）和生成图（Fake）送到深度网络进行特征提取，并基于此构建一个二分类模型来进行最终的判断，细节差别在于：

模型不同。不同的办法采纳不同的模型提取实在图/生成图的特色，从而性能不同。
特色不同。不同的办法应用不同的特色参加训练。
1. 一些模型应用纯视觉信息辨别虚实图，包含伪影8、混合边界[10]、全局纹理一致性[11]等；
2. 一些模型引入图频率信息12，通过额定的频率信息辨别虚实图；
3. 一些模型通过重建待检测图来发现生产网络的固有属性[14]，利用重建图和待检测图间的差别来训练模型进行判断，以获取更泛化的检测办法；
数据不同。
1. 一些办法通过反抗伎俩生成更hard的图片，从而加强模型辨认能力；

目前这些大部分办法均有一个独特的有余：跨模型检测泛化性差。具体来说，训练集中的生成图（Fake）由特定的生成器G产生，检测器在检测同为生成器G生成的图片时体现很好，而对于新生成器生成的图片检测器体现会差很多。

举例说明：当初有图片生成器GAN-1，生成了一批数据Data-1参加检测器Det的训练，则Det在GAN-1的另一批数据Data-1'上体现会很好。可是如果有新的生产器GAN-2或者DM-1产生数据Data-2，在Det对Data-2的检测性能就会差很多。

GAN图辨认

在扩散模型呈现之前，检测办法大多是针对GAN图的。

【二分类】CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot.. For Now

CVPR 2020工作（github） Baseline办法

该办法应用最奢侈的二分类网络训练思路构建了一个“universial”检测器，在不同的网络结构上均能获得较好的后果，具体的：

二分类网络为 ResNet50；
训练集应用ProGAN进行图片生成，为了凸显其对不同构造的泛化性，测试集应用了 ProGAN，StyleGAN，BigGAN，Deepfakse等11个网络的生成图片。
数据增广应用了无增广、高斯模型、JPEG压缩和含糊+JPEG压缩等多个增广。

通过试验证实：

数据增广通常能无效进步检测器泛化性和鲁邦性；
1. 高斯含糊可能会掉点，比方SAN（超分辨模型）的生成图中高频信息比拟重要，应用高斯含糊的训练集会升高检测器对高频信息的获取，则成果变差。
在构建训练集时，更丰盛数据多样性能进步检测器的能力；

【二分类plus】Are Gan Generated Images Easy To Detect? A Critical Analysis of the State-of-the-Art

ICME 2021，Github

该办法连续了CNNDetection中的思路对现有的检测办法进行了剖析，在其根底上，

将ResNet50改为 XceptionNet 和 Efficient-B4；
对 XceptionNet 和 EffectionNet 不进行第一个Down-sampling的Trick，简称No-down，这个trick对性能晋升挺大的（论文中称这个idea援用自steganalysis问题，“to preserve features related to noise residual, it performs no down-sampling in the first layers of the network”, 在我看来其实是从网络最后去掉了一个降采样，增大了特色图的大小，细粒度特色更多）。
1. 代码试验：就是把 https://github.com/grip-unina/GANimageDetection/blob/main/resnet50nodown.py#L87 的步长 stride 由2改为1

【频率特色】BiHPF: Bilateral High-Pass Filters for Robust Deepfake Detection

WACV 2022 工作

作者认为频率空间也有人工信息，并构建了上述模型进行人工信息提取和证实。

利用可学习的人工压缩映射（ACM）模块压缩频率空间的人工信息，与判断器组成反抗学习进行训练，最终训练好的ACM就能提取出伪影区域。
通过剖析，作者得出结论：伪影在高频重量中有很大的幅度；伪影位于图像的四周背景，而不是核心区域；

基于这些剖析，作者提出 双边机制高通滤波器(BiHPF) 对原图进行解决，它能放大了生成模型合成图像中常见的频率级伪影的影响。BiHPF由两个高通滤波器(HPF)组成:

频率级HPF用于放大高频重量中伪像的幅度；
像素级HPF用于在像素主体中强调四周背景中的像素值。

最终将解决后的加强图片进行分类训练。

【频率扰动】FrepGAN: Robust deepfake detection using frequency-level perturbations

AAAI 2022 工作

作者发现疏忽频率的人工信息能提供检测模型对不同GAN模型的泛化能力，而间接训一个分类器容易对训练集过拟合，所以要在训练集上做频率扰动；

外围思路是在Fake图片生成时，同时让频率信息参加，这样生成图的频率就被扰动了，并用此来训练检测分类器。检测分类器从而进步对频率的抗干扰能力。
频率扰动生成器G：让频率信息参加图片生成。具体来说，输出图片 $x$ 通过疾速傅里叶变换（Fast Fourier Transform, FFT）失去 $x~$，其size为hw2c，通道数为2倍。通过一个image-to-image的生成器H，失去输入$z~$，再通过逆FFT。通过这种形式，频率信息在生成时也被思考，生成图G(x)（称为扰动特色图）就具备频率信息。整体的频率扰动生成器为：

扰动判断器D（Perturbation Discriminator）：规范的反抗生成思路，用来强化G(x)假图，使其生成的图片不能被辨认进去，这样的话频率信息参加了生成，但生成的图与实在图无奈被视觉辨别。
检测识别器C：让图片x和其扰动特色G(x)一起当做输出进行二分类，这样频率信息就能被思考进去并疏忽。

【梯度特色】Learning on Gradients: Generalized Artifacts Representation for GAN-Generated Images Detection

CVPR2023，Github

应用Transformation model （转换模型，预训练的CNN模型，各种现有的模型都行，VGG，ResNet50，ProGAN的判断器，StyleGAN等等）将图片转化为梯度图，作为该图的人工特色；
将梯度图送进分类器进行分类训练，判断其是否伪造；

跨模型能力比照

Wang42是CNNDetection 2分类，比起纯2分类要好很多，也比频率办法也好。
其中StyleGAN-badroom作为转换模型最优；

TransformationModel比照

TransModel应用不同模型成果不一样，StyleGAN-Bedroom绝对最优；

DM图辨认

扩散模型的生成图辨认属于摸索阶段，偏探索性的论文也较多。

【DM图与GAN图检测可行性剖析】Towards the Detection of Diffusion Model Deepfakes

ICLR 2023 在投，Github

这篇文章作者摸索了之前的GAN识别方法（CNNDetection, Grag[4] 等模型）是否用于 DM 模型图的辨认，是否有对立的检测器能够辨认两种模型生成的图：

应用的数据集是LSUN Bedroom[6]，包含卧室（Bedroom）、客厅（Living Room）、餐厅（Dining Room）、办公室（Office）、厨房（Kitchen）、街景（Street View）等场景。
测了5个GAN和5个DM模型，发现GAN上的模型间接用在DM模型的图上检测成果会变差很多，但Finetune一下性能就会复原；
相比于GAN图，DM图在频率人工信息更少；
DM图辨认比GAN图辨认更难；

【DM图检测剖析】On the detection of synthetic images generated by diffusion models

Arxiv 2023，Github

该文章也是做检测剖析的，通过频域剖析、模型检测能力剖析（将之前GAN辨认的CNNDetection[3]模型和 Grag[4] 模型用于 DM检测，当做鲁邦的二分类进行）。论文通过试验剖析认为：

雷同网络结构生成的图片有类似的痕迹（比方DM图的暗影和反射不对称等等），这些痕迹有些在空间域能够发现；
通过对现有的12个检测器进行训练和测试（实在数据源自COCO、ImageNet和UCID；合成图来自COCO的langage prompts应用ProGAN生成），结果表明现有模型的泛化性能仍然无限，比方在DM上训，在DM的图上测试，成果还能够，但跨模型测就不行了。
另外，如果图片通过二次解决（比方压缩等社交媒体的变换），这些生成图就更难判断了，因为压缩会损失一些痕迹（比方高频信息等）。

作者还用了一些训练方法（Platt scaling method [34]），在多模型交融根底上，比单个模型性能要好。在作者测试的几个模型中，Grag2021[4]单模型最优（应用了No-down ResNet）；这些篡改模型局部来自于IEEE VIP Cup [5]较量。

ProGAN上训，跨模型测，发现在泛滥模型中，DALL·E 2 和 ADM 的泛化能力最差。这一难度也从频域的指纹剖析上能够看出，ADM和DALL · E 2 的频率特色与其余模型的差异最大。

【误差特色】DIRE for Diffusion-Generated Image Detection

Arxiv 2023

作者发现DM 图能够被近似地被扩散模型重建，但实在图片不行。将重建图和原图的图片差别记为扩散重建差（DIffusion Reconstruction Error，DIRE），则DIRE能够作为特色进行2分类训练，判断是否虚伪，泛化性会高很多；

重建图像差DIRE能够辨别实在图和合成图的起因如下图：

合成图在重建后变动往往较小；
实在图在重建后变动绝对较大；

我得了解是，实在图在重建时会失落很多信息，而生成图因为自身就是模型生成的，重建时信息变动绝对不大。因而差别能够反映其虚实。

该办法通过预训练的扩散模型（Denoising Diffusion Implicit Models，DDIMs[7]）对图片过程重建，测量输出图像与重建图像之间的误差。其实这个办法和下面梯度特色的办法LGrad很像，区别在于下面是通过 Transformation Model转换模型取得图像梯度，这里通过 DDIM 重建图计算差。

此外，作者提出了一个数据集 DiffusionForensics，同时复现了8个扩散模型对提出办法进行辨认（ADM、DDPM、iDDPM, PNDM, LDM, SD-v1, SD-v2, VQ-Diffusion）；

跨模型泛化较好：比方ADM的DIRE 对 StyleGAN 也反对，
跨数据集泛化：LSUN-B训练模型在ImageNet上也很好；
抗扰动较好：对JPEG压缩和高斯含糊的图，性能很好；

最初看下试验指标，看起来在扩散模型上成果很好，这ACC/AP都挺高的，不晓得在GAN图上成果如何。

其余可参考论文/我的项目

DM检测的二分类baseline代码：https://github.com/jonasricker/diffusion-model-deepfake-detection
生成模型综述：https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
Papers with Code - Detecting Images Generated by Diffusers
https://github.com/davide-coccomini/detecting-images-generated-by-diffusers

其余类型假图检测（Others types of Fake Image Detection）

社交媒体中发的篡改图：Robust Image Forgery Detection Against Transmission Over Online Social Networks, CVPR 2022: Paper Github
通用图片造假检测（部分造假等）：Hierarchical Fine-Grained Image Forgery Detection and Localization, CVPR 2023: Paper Github

Reference

[0] AIGC图像生成模型倒退与高潜方向

[1] 绘图软件midjourney的底层模型是什么？ - 互联网前沿资讯的答复 - 知乎 https://www.zhihu.com/question/585975898/answer/3013595427

[2] ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis

[3] CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot.. For Now

[4] D. Gragnaniello, D. Cozzolino, F. Marra, G. Poggi, and L. Ver- doliva, “Are GAN generated images easy to detect? A critical analysis of the state-of-the-art,” in IEEE ICME, 2021.

[5] R Corvi, D. Cozzolino, K. Nagano, and L. Verdoliva, “IEEE Video and Image Processing Cup,” https://grip-unina.github.io/vipcup2022/, 2022.

[6] Yu, F., Seff, A., Zhang, Y., Song, S., Funkhouser, T., and Xiao, J. LSUN: Construction of a large-scale image dataset using deep learning with humans in the loop, June 2016.

[7] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020.

[8] Lucy Chai, David Bau, Ser-Nam Lim, and Phillip Isola. What makes fake images detectable? understanding prop- erties that generalize. In European conference on computer vision, pages 103–120. Springer, 2020.

[9] Ning Yu, Larry S Davis, and Mario Fritz. Attributing fake images to gans: Learning and analyzing gan fingerprints. In Proceedings of the IEEE/CVF international conference on computer vision, pages 7556–7566, 2019.

[10] Lingzhi Li, Jianmin Bao, Ting Zhang, Hao Yang, Dong Chen, FangWen, and Baining Guo. Face x-ray for more general face forgery detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5001–5010, 2020.

[11] Zhengzhe Liu, Xiaojuan Qi, and Philip HS Torr. Global texture enhancement for fake face detection in the wild. In Pro- ceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 8060–8069, 2020.

[12] Yonghyun Jeong, Doyeon Kim, Youngmin Ro, and Jongwon Choi. Frepgan: Robust deepfake detection using frequency-level perturbations. arXiv preprint arXiv:2202.03347, 2022.

[13] FrepGAN: Robust deepfake detection using frequency-level perturbations

[14] DIRE for Diffusion-Generated Image Detection

[15] Adrian Bulat and Georgios Tzimiropoulos. How far are we from solving the 2d & 3d face alignment problem?(and a dataset of 230,000 3d facial landmarks). In Proceedings of the IEEE International Conference on Computer Vision, pages 1021–1030, 2017.

[16] Jiankang Deng, Jia Guo, Evangelos Ververas, Irene Kot- sia, and Stefanos Zafeiriou. Retinaface: Single-shot multi-level face localisation in the wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5203–5212, 2020.

[17] Detecting Deepfakes with Self-Blended Images