关于算法:城南如何识别AI生成图视觉AIGC伪造检测技术综述

3次阅读

共计 13103 个字符,预计需要花费 33 分钟才能阅读完成。

如何辨认 AI 生成图片?or 如何辨认 AIGC 图?or 如何辨认 AI 换脸?or AI 生成图伪造检测?

相似的说法有很多种,总之就是利用 AI 技术来甄别一张图是不是 AI 生成的,这种 AI 技术就是本文的内容。

敌人好,我是卷了又没卷,薛定谔的卷的 AI 算法工程师「陈城南」~ 负责某大厂的算法工程师,带来最新的前沿 AI 常识和工具,欢送 大家交换~,后续我还会分享更多 AI 乏味工具和实用玩法,包含 ChatGPT、AI 绘图等。

  • 公众号「陈城南」或 加「cchengnan113」备注 AI 交换群
  • 知乎账号「陈城南」

视觉 AIGC 辨认

现阶段视觉 AIGC(AI-generated Content,人工智能生产内容)次要包含图片(Image)和视频(Video),视频的实质是间断的图片帧,疏忽其音频信息的状况下,视频生成则是图片生成的延长。因而,视觉 AIGC 辨认次要聚焦在 AIG 图片的辨认。

在 AIGC 这个概念爆火之前,图片生成的利用始终存在,比方利用 GAN 进行 AI 换脸等。因为 AI 绘图和 ChatGPT 等大规模语言模型(LLMs)别离在两个畛域体现出惊人的成果并胜利出圈,AIGC 这一概念才开始被大家熟知。本文所说的「视觉 AIGC 辨认」则同时蕴含 AI 换脸等前 AIGC 时代的检测,也蕴含 Midjourney、SD 等 AI 绘图场景的辨认。

因为 AI 换脸等人脸伪造技术在利用和负面影响上较大,技术绝对成熟,其辨认难度也较大,辨认的相干钻研也便绝对集中。因而,本文依据已有的钻研工作调研,将 视觉 AIGC 辨认粗略划分为

  • 人脸伪造检测(Face Forgery Detection):蕴含 人脸 的 AIG 图片 / 视频的检测,例如 AI 换脸、人脸操控等。此类办法次要关注带有人脸相干的检测办法,检测办法可能会波及人脸信息的先验。
  • AIG 整图检测(AI Generated-images Detection):检测 一整张图 是否由 AI 生成,检测更加的泛化。这类办法绝对更关注生成图与实在图更通用的底层区别,通常专一于整张图,比方近年爆火的 SD、Midjounery 的绘图;
  • 其余类型假图检测(Others types of Fake Image Detection):此类办法更偏差于 部分伪造、综合伪造等一系列更简单的图片造假,当然人脸伪造也属于部分、简单,然而是人脸场景。将 AIG 图与实在图拼凑、合成的图片辨认也属于这一类。

这三种类型之间划分并不清晰,很多办法同时具备多种检测能力,可划分为多种类型。严格意义上说 AIG 整图和其余造假图检测类型可能都会蕴含人脸信息 但三种类型办法往往技术出发点也不同。

生成式模型总览

图片生成模型比拟受欢迎的次要有 3 种基础架构[0],变分主动编码器 VAE 系列(Variational Automatic Encoder)、反抗生成网络 GAN 系列(Generation Adversarial Network)和扩散模型 DM 系列(Diffusion Model)。其中 AI 绘图以 2020 年的去噪扩散概率模型 DDPM(Denoising Diffusion Probabilistic Model)为一个较大的里程碑,在此之前的生成模型次要以 GAN 居多。当下最火的开源 AI 绘画模型 Stable Diffusion 则为扩散模型,据悉 MidJourney 是变形注意力 GAN 的变体[1]。

人脸伪造检测(Face Forgery Detection)

特指蕴含波及人脸相干内容生成的图片 / 视觉生成,例如 AI 换脸、人脸操控等;

人脸假装图生成

理解人脸假装检测技术前,须要先理解人脸造假图片生成的技术有哪些,不同的生成技术 / 场景可能有不同的检测办法 。基于论文 ForgeryNet[2] 中的内容,人脸假装图片生成的相干办法(截止 2021 年前)能够总结如下:

其中,StarGAN2-BlendFace-Stack (SBS), DeepFakes-StarGAN2-Stack (DSS)

人脸假装图依据身份信息是否更改划分为身份信息不变类和身份替换类。

身份不变类 伪造图在图片批改 / 生成时不批改图片中人物的身份信息,包含:

  • 人脸编辑:编辑人脸的内部属性,如年龄、性别或种族等。
  • 人脸再制订:保留源主体的身份,但操纵其口部或表情等固有属性;

    • https://github.com/harlanhong/awesome-talking-head-generation
    • https://github.com/Rudrabha/Wav2Lip

身份替换类 伪造图在图片批改时同时扭转其中人的身份信息:

  • 人脸转移:它将源脸部的身份感知和身份不相干的内容(例如表情和姿态)转移到指标脸部,换脸也换表情等等,相当于把本人脸贴在他人的头上;
  • 换脸:它将源脸部的身份信息转移到指标脸部,同时保留身份不相干的内容。即换脸,但不换表情,本人的脸在他人脸上做不变的事件;
  • 人脸重叠操作(FSM):指一些办法的汇合,其中局部办法将指标图的身份和属性转移到源图上,而其余办法则在转移身份后批改替换后图的属性,多种办法的复合;

伪造图检测办法

本局部次要为相关检查办法的局部论文简介。

【综述】GAN-generated Faces Detection: A Survey and New Perspectives

Arxiv 2023 工作,介绍了 DL 办法、物理学办法(Physical-based Methods)、生理学办法(Physiological-based Methods)的检测办法,同时给出了不同生成模型的工夫线(上图)。文章指出依据调研显示,GAN-face 当初 AI 检测性能高于人,因为有些图一眼看过来十分真,人的辨认准确率也只有 50%~60%。在这三类办法中

  • DL 办法的图片辨认(分类)可解释性不太行,如果人看不出来,AI 辨认进去但又没有起因,比拟难解释;
  • 基于物理的办法通过寻找人工信息或面部与物理世界之间的不统一,例如透视中的照明和反射,来辨认 gan-face;
  • 基于生理学的办法钻研人脸的语义方面[14],包含对称性、虹膜色彩、瞳孔形态等线索,其中辨认的伪像用于裸露 gan 人脸。
  1. 作者还给出了归类的不同办法及性能(如下),但我剖析后发现这个表存在有余:
  2. 作者在第 3 章提到的很多 DL 办法的后果没有呈现在此表中;
  3. 该表格的测试集不对立,每个办法的后果不能与其余办法偏心的比拟,无奈较高凸显性能优劣;

【音画不同步】Not made for each other- Audio-Visual Dissonance-based Deepfake Detection and Localization

MM 2020 工作,针对虚伪视频问题,作者给视频定义了模态失调得分(Modality Dissonance Score, MDS) 来掂量其音画同步的水平。

  • 视频支路 3D ResNet,把间断视频切成 n 个 Seg,每个 Seg 又有 m 个帧,最终通过 3D 特色抽为 n 个特色;
  • 音频支路,把间断声音 1 - 秒距离转化为 MFCC 特色(一种音频的热力求),而后同样是送入卷积网络失去 n 个音频特色。
  • 而后两个特色进行比照学习,对于 Fake video 最大化不统一得分 MDS,Real video 最小化不统一得分 MDS。另外还有分类损失进行分类。

该办法太依附同步信息了,很多网络提早引起音画不同步、或者视频中环境声较大的状况.. 都不能应用;

可检测场景:换脸、人脸操纵等;

【唇部变动辨认】Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection

CVPR2021 工作,该文章也针对视频检测,利用唇部静止进行检测,是文章最大的亮点

  1. 在 lipreading 工作上预训练 CNN(freeze 框内),作者称依据之前教训“在失常工作上训模型能进步模型对异样值(虚伪)的敏感性”,事实上他的试验证实了这一点,lipreading 的预训练任务能大幅晋升其后果;
  2. 在虚伪检测(也就是假脸检测)工作上 finetune 时空网络(我集体了解这里的时空网络其实就是一个多帧特色交融,间接用个 Transformer 应该成果一样甚至更优)
  3. 损失用穿插熵做 2 分类;

预处理方面细节:

  1. 应用 25 帧图作为输出,应用 RetinaFace[16]检测每一帧的脸,只提取最大的脸同时 Crop 1.3 倍避免失落信息;
  2. 用 FAN[15]计算脸部 landmarks 进行唇部的裁剪,同时还做了对齐,作为模型输出;

试验:

  1. lipreading 的预训练任务能大幅晋升其后果
  2. 在其余数据集上泛化性也比拟好,毕竟次要针对唇部还用其余模型做了对齐,泛化性好能够了解;

【减弱身份信息】Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection Generalization

旷视科技的 CVPR2023 工作,开源在其官网 github 中,落地性应该有背书,属于训练简单推理简略的。

通常用一个二分类训 deepfake 模型时可能存在一个问题,模型会把身份信息也学到,导致在甄别 fake 图片时借用了 id 信息来辅助裁决(比方某 ID 的脸都是真脸,模型通过记住 ID 来检测虚实)。这些泄露的 ID 信息会在 unseen 数据上误导裁决,这显然是不利于模型泛化的。作者将这一景象称为 隐式身份泄露(Implicit Idenetity Leakage)。

作者认为 ID 信息通常是由全局信息反馈的,部分特色比拟难反映出这些信息(比方独自的嘴、鼻子等),因而为了避免“隐式身份泄露”,作者干了两件事:

  1. 提出人工假装检测模型(Artifact Detection Module,ADM)来使模型聚焦于部分信息;
  2. 同时为了配合 ADM 训练,设计了多尺度的面部替换办法(Multi-scale Facial Swap,MFS)来生成具备不同尺度的人工伪造信息(Artifact)的图片,加强数据集。

试验成果:

  1. 比下面的 LipForensices 在 FF++ 数据集上鲁邦性成果好;
  2. 在 FF++,Celeb-DF 上成果略优于 SBI[17]

【自监督反抗】Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection

CVPR 2022 工作,论文通过 3 个角度来进步检测器的泛化能力(A 数据训 B 数据集测),泛化能力也是论文的次要卖点。如上图,训练框架由 合成器 G、图片合成 和 判断器 D 组成,造成反抗训练。

  1. 合成器:生成配置参数,用来合成更丰盛的自监督样本数据(留神是生成配置的参数)

    1. 原生假图:不解决,即不进入合成器,间接用来训判断器;
    2. 原生真图:不增广的真图不进入合成器,间接训判断器;
    3. 合成假图:有肯定概率与一个随机图(Reference)进行增广,造成部分虚伪的假图;
  2. 图片合成:合成器 G 会生成配置计划(区域抉择 10 个;混合 blending 类型抉择;以及合成比例抉择 ratio),基于此进行合成(即数据增广)

    1. 其中合成器输入区域的下标 index,具体的区域须要利用 landmarks 网络生成该脸的 landmarks 并进行选取;
  3. 判断器 G:对图片进行分类,同时增加辅助工作,用合成器的 G 的输入作为 label

    1. 区域预测:宰割 Loss,label 就是 landmarks 组成的掩码;
    2. Blending type:分类 loss
    3. Blending ratio:L1 间隔 loss;

因而,3 个角度为:1. 合成数据,数据量大;2. 反抗训练,优化配置和判断器;3. 辅助工作且自监督;

其余可参考论文 / 我的项目

人脸假装检测的论文太多了,下面总结的也只是其中一角,蕴含的类别也不够多。

  • 比拟全的 Github,蕴含各种数据集、办法等:https://github.com/Daisy-Zhang/Awesome-Deepfakes-Detection
  • Survey:https://github.com/clpeng/Awesome-Face-Forgery-Generation-and-Detection
  • Detecting and Grounding Multi-Modal Media Manipulation, CVPR 2023: Paper Github
  • End-to-End Reconstruction-Classification Learning for Face Forgery Detection (2022 CVPR) [Paper] [Code]
  • Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection (2022 CVPR) [Paper] [Code]
  • OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training, NIPS 2022: Paper Github;该作者代码基于下面的 Self-supervised 办法;
  • Leveraging Real Talking Faces via Self-Supervision for Robust Forgery Detection, CVPR 2022: Paper
  • Detecting Deepfakes with Self-Blended Images, CVPR 2022: Paper Github
  • Multi-Attentional Deepfake Detection, CVPR 2021: Paper Github
  • 鲁邦的二分类:https://github.com/davide-coccomini/Combining-EfficientNet-and-Vision-Transformers-for-Video-Deepfake-Detection

AIG 整图检测(AI Generated-images Detection)

检测一张图是否由 AI 生成,即是否为 VAE、GAN、扩散模型 DM 生成的图(后简称为 VAE 图、GAN 图和 DM 图)。通常这种判断是整图粒度的,但如果某个图的局部区域为生成图片,局部办法也是能够辨认的。

本类辨认生成图的办法大体上遵循一个整体的思路:将实在图(Real)和生成图(Fake)送到深度网络进行特征提取,并基于此构建一个二分类模型来进行最终的判断,细节差别在于:

  1. 模型不同。不同的办法采纳不同的模型提取实在图 / 生成图的特色,从而性能不同。
  2. 特色不同。不同的办法应用不同的特色参加训练。

    1. 一些模型应用纯视觉信息辨别虚实图,包含伪影 8、混合边界 [10]、全局纹理一致性[11] 等;
    2. 一些模型引入图频率信息 12,通过额定的频率信息辨别虚实图;
    3. 一些模型通过重建待检测图来发现生产网络的固有属性[14],利用重建图和待检测图间的差别来训练模型进行判断,以获取更泛化的检测办法;
  3. 数据不同。

    1. 一些办法通过反抗伎俩生成更 hard 的图片,从而加强模型辨认能力;

目前这些大部分办法均有一个独特的有余:跨模型检测泛化性差 。具体来说, 训练集中的生成图(Fake)由特定的生成器 G 产生 检测器在检测同为生成器 G 生成的图片时体现很好 ,而对于 新生成器 生成的图片检测器体现会差很多。

  • 举例说明:当初有图片生成器 GAN-1,生成了一批数据 Data- 1 参加检测器 Det 的训练,则 Det 在 GAN- 1 的另一批数据 Data-1’ 上体现会很好。可是如果有新的生产器 GAN- 2 或者 DM- 1 产生数据 Data-2,在 Det 对 Data- 2 的检测性能就会差很多。

GAN 图辨认

在扩散模型呈现之前,检测办法大多是针对 GAN 图的。

【二分类】CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot.. For Now

CVPR 2020 工作(github)Baseline 办法

该办法应用最奢侈的二分类网络训练思路构建了一个“universial”检测器,在不同的网络结构上均能获得较好的后果,具体的:

  1. 二分类网络为 ResNet50;
  2. 训练集应用 ProGAN 进行图片生成,为了凸显其对不同构造的泛化性,测试集应用了 ProGAN,StyleGAN,BigGAN,Deepfakse 等 11 个网络的生成图片。
  3. 数据增广应用了 无增广、高斯模型、JPEG 压缩和含糊 +JPEG 压缩等多个增广。

通过试验证实:

  1. 数据增广通常能无效进步检测器泛化性和鲁邦性;

    1. 高斯含糊可能会掉点,比方 SAN(超分辨模型)的生成图中高频信息比拟重要,应用高斯含糊的训练集会升高检测器对高频信息的获取,则成果变差。
  2. 在构建训练集时,更丰盛数据多样性能进步检测器的能力;

【二分类 plus】Are Gan Generated Images Easy To Detect? A Critical Analysis of the State-of-the-Art

ICME 2021,Github

该办法连续了 CNNDetection 中的思路对现有的检测办法进行了剖析,在其根底上,

  1. 将 ResNet50 改为 XceptionNet 和 Efficient-B4;
  2. 对 XceptionNet 和 EffectionNet 不进行第一个 Down-sampling 的 Trick,简称 No-down,这个 trick 对性能晋升挺大的(论文中称这个 idea 援用自 steganalysis 问题,“to preserve features related to noise residual, it performs no down-sampling in the first layers of the network”, 在我看来其实是从网络最后去掉了一个降采样,增大了特色图的大小,细粒度特色更多)。

    1. 代码试验:就是把 https://github.com/grip-unina/GANimageDetection/blob/main/resnet50nodown.py#L87 的 步长 stride 由 2 改为 1

【频率特色】BiHPF: Bilateral High-Pass Filters for Robust Deepfake Detection

WACV 2022 工作

作者认为 频率空间也有人工信息,并构建了上述模型进行人工信息提取和证实。

  • 利用可学习的人工压缩映射(ACM)模块压缩频率空间的人工信息,与判断器组成反抗学习进行训练,最终训练好的 ACM 就能提取出伪影区域。
  • 通过剖析,作者得出结论:伪影在高频重量中有很大的幅度;伪影位于图像的四周背景,而不是核心区域;

基于这些剖析,作者提出 双边机制高通滤波器 (BiHPF) 对原图进行解决,它能 放大了生成模型合成图像中常见的频率级伪影的影响 。BiHPF 由两个高通滤波器(HPF) 组成:

  1. 频率级 HPF 用于放大高频重量中伪像的幅度;
  2. 像素级 HPF 用于在像素主体中强调四周背景中的像素值。

最终将解决后的加强图片进行分类训练。

【频率扰动】FrepGAN: Robust deepfake detection using frequency-level perturbations

AAAI 2022 工作

作者发现 疏忽频率的人工信息能提供检测模型对不同 GAN 模型的泛化能力,而间接训一个分类器容易对训练集过拟合,所以要在训练集上做频率扰动;

  • 外围思路 是在 Fake 图片生成时,同时让频率信息参加,这样生成图的频率就被扰动了,并用此来训练检测分类器。检测分类器从而进步对频率的抗干扰能力。
  • 频率扰动生成器 G :让频率信息参加图片生成。具体来说,输出图片 $x$ 通过疾速傅里叶变换(Fast Fourier Transform, FFT)失去 $x~$,其 size 为 h w2c,通道数为 2 倍。通过一个 image-to-image 的生成器 H,失去输入 $z~$,再通过逆 FFT。通过这种形式,频率信息在生成时也被思考,生成图 G(x)(称为扰动特色图)就具备频率信息。整体的频率扰动生成器为:
  • 扰动判断器 D (Perturbation Discriminator):规范的反抗生成思路,用来强化 G(x)假图,使其生成的图片不能被辨认进去,这样的话频率信息参加了生成,但生成的图与实在图无奈被视觉辨别。
  • 检测识别器 C :让图片 x 和其扰动特色 G(x)一起当做输出进行二分类,这样频率信息就能被思考进去并疏忽。

【梯度特色】Learning on Gradients: Generalized Artifacts Representation for GAN-Generated Images Detection

CVPR2023,Github

  1. 应用 Transformation model(转换模型,预训练的 CNN 模型,各种现有的模型都行,VGG,ResNet50,ProGAN 的判断器,StyleGAN 等等)将图片转化为梯度图,作为该图的人工特色;
  2. 将梯度图送进分类器进行分类训练,判断其是否伪造;

跨模型能力比照

  • Wang42 是 CNNDetection 2 分类,比起纯 2 分类要好很多,也比频率办法也好。
  • 其中 StyleGAN-badroom 作为转换模型最优;

TransformationModel 比照

TransModel 应用不同模型成果不一样,StyleGAN-Bedroom 绝对最优;

DM 图辨认

扩散模型的生成图辨认属于摸索阶段,偏探索性的论文也较多。

【DM 图与 GAN 图检测可行性剖析】Towards the Detection of Diffusion Model Deepfakes

ICLR 2023 在投,Github

这篇文章作者摸索了之前的 GAN 识别方法(CNNDetection, Grag[4] 等模型)是否用于 DM 模型图的辨认,是否有对立的检测器能够辨认两种模型生成的图:

  1. 应用的数据集是 LSUN Bedroom[6],包含卧室(Bedroom)、客厅(Living Room)、餐厅(Dining Room)、办公室(Office)、厨房(Kitchen)、街景(Street View)等场景。
  2. 测了 5 个 GAN 和 5 个 DM 模型,发现 GAN 上的模型间接用在 DM 模型的图上检测成果会变差很多,但 Finetune 一下性能就会复原;
  3. 相比于 GAN 图,DM 图在频率人工信息更少;
  4. DM 图辨认比 GAN 图辨认更难;

【DM 图检测剖析】On the detection of synthetic images generated by diffusion models

Arxiv 2023,Github

该文章也是做检测剖析的,通过频域剖析、模型检测能力剖析(将之前 GAN 辨认的 CNNDetection[3]模型和 Grag[4] 模型用于 DM 检测,当做鲁邦的二分类进行)。论文通过试验剖析认为:

  1. 雷同网络结构生成的图片有类似的痕迹(比方 DM 图的暗影和反射不对称等等),这些痕迹有些在空间域能够发现;
  2. 通过对现有的 12 个检测器进行训练和测试(实在数据源自 COCO、ImageNet 和 UCID;合成图来自 COCO 的 langage prompts 应用 ProGAN 生成),结果表明现有模型的泛化性能仍然无限,比方在 DM 上训,在 DM 的图上测试,成果还能够,但跨模型测就不行了。
  3. 另外,如果图片通过二次解决(比方压缩等社交媒体的变换),这些生成图就更难判断了,因为压缩会损失一些痕迹(比方高频信息等)。

作者还用了一些训练方法(Platt scaling method [34]),在多模型交融根底上,比单个模型性能要好。在作者测试的几个模型中,Grag2021[4]单模型最优(应用了 No-down ResNet);这些篡改模型局部来自于 IEEE VIP Cup [5]较量。

  • ProGAN 上训,跨模型测,发现在泛滥模型中,DALL·E 2 和 ADM 的泛化能力最差。这一难度也从频域的指纹剖析上能够看出,ADM 和 DALL · E 2 的频率特色与其余模型的差异最大。

【误差特色】DIRE for Diffusion-Generated Image Detection

Arxiv 2023

作者发现 DM 图能够被近似地被扩散模型重建,但实在图片不行。将重建图和原图的图片差别记为扩散重建差(DIffusion Reconstruction Error,DIRE),则 DIRE 能够作为特色进行 2 分类训练,判断是否虚伪,泛化性会高很多;

重建图像差 DIRE 能够辨别实在图和合成图的起因如下图:

  1. 合成图在重建后变动往往较小;
  2. 实在图在重建后变动绝对较大;

我得了解是,实在图在重建时会失落很多信息,而生成图因为自身就是模型生成的,重建时信息变动绝对不大。因而差别能够反映其虚实。

该办法通过预训练的扩散模型(Denoising Diffusion Implicit Models,DDIMs[7])对图片过程重建,测量输出图像与重建图像之间的误差。其实这个办法和下面梯度特色的办法 LGrad 很像,区别在于下面是通过 Transformation Model 转换模型取得图像梯度,这里通过 DDIM 重建图计算差。

此外,作者提出了一个数据集 DiffusionForensics,同时复现了 8 个扩散模型对提出办法进行辨认(ADM、DDPM、iDDPM, PNDM, LDM, SD-v1, SD-v2, VQ-Diffusion);

  • 跨模型泛化较好:比方 ADM 的 DIRE 对 StyleGAN 也反对,
  • 跨数据集泛化:LSUN- B 训练模型在 ImageNet 上也很好;
  • 抗扰动较好:对 JPEG 压缩 和 高斯含糊的图,性能很好;

最初看下试验指标,看起来在扩散模型上成果很好,这 ACC/AP 都挺高的,不晓得在 GAN 图上成果如何。

其余可参考论文 / 我的项目

  • DM 检测的二分类 baseline 代码:https://github.com/jonasricker/diffusion-model-deepfake-detection
  • 生成模型综述:https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
  • Papers with Code – Detecting Images Generated by Diffusers
  • https://github.com/davide-coccomini/detecting-images-generated-by-diffusers

其余类型假图检测(Others types of Fake Image Detection)

  • 社交媒体中发的篡改图:Robust Image Forgery Detection Against Transmission Over Online Social Networks, CVPR 2022: Paper Github
  • 通用图片造假检测(部分造假等):Hierarchical Fine-Grained Image Forgery Detection and Localization, CVPR 2023: Paper Github

Reference

[0] AIGC 图像生成模型倒退与高潜方向

[1] 绘图软件 midjourney 的底层模型是什么?– 互联网前沿资讯的答复 – 知乎 https://www.zhihu.com/question/585975898/answer/3013595427

[2] ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis

[3] CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot.. For Now

[4] D. Gragnaniello, D. Cozzolino, F. Marra, G. Poggi, and L. Ver- doliva,“Are GAN generated images easy to detect? A critical analysis of the state-of-the-art,”in IEEE ICME, 2021.

[5] R Corvi, D. Cozzolino, K. Nagano, and L. Verdoliva,“IEEE Video and Image Processing Cup,”https://grip-unina.github.io/vipcup2022/, 2022.

[6] Yu, F., Seff, A., Zhang, Y., Song, S., Funkhouser, T., and Xiao, J. LSUN: Construction of a large-scale image dataset using deep learning with humans in the loop, June 2016.

[7] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020.

[8] Lucy Chai, David Bau, Ser-Nam Lim, and Phillip Isola. What makes fake images detectable? understanding prop- erties that generalize. In European conference on computer vision, pages 103–120. Springer, 2020.

[9] Ning Yu, Larry S Davis, and Mario Fritz. Attributing fake images to gans: Learning and analyzing gan fingerprints. In Proceedings of the IEEE/CVF international conference on computer vision, pages 7556–7566, 2019.

[10] Lingzhi Li, Jianmin Bao, Ting Zhang, Hao Yang, Dong Chen, FangWen, and Baining Guo. Face x-ray for more general face forgery detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5001–5010, 2020.

[11] Zhengzhe Liu, Xiaojuan Qi, and Philip HS Torr. Global texture enhancement for fake face detection in the wild. In Pro- ceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 8060–8069, 2020.

[12] Yonghyun Jeong, Doyeon Kim, Youngmin Ro, and Jongwon Choi. Frepgan: Robust deepfake detection using frequency-level perturbations. arXiv preprint arXiv:2202.03347, 2022.

[13] FrepGAN: Robust deepfake detection using frequency-level perturbations

[14] DIRE for Diffusion-Generated Image Detection

[15] Adrian Bulat and Georgios Tzimiropoulos. How far are we from solving the 2d & 3d face alignment problem?(and a dataset of 230,000 3d facial landmarks). In Proceedings of the IEEE International Conference on Computer Vision, pages 1021–1030, 2017.

[16] Jiankang Deng, Jia Guo, Evangelos Ververas, Irene Kot- sia, and Stefanos Zafeiriou. Retinaface: Single-shot multi-level face localisation in the wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5203–5212, 2020.

[17] Detecting Deepfakes with Self-Blended Images

正文完
 0