共计 1966 个字符,预计需要花费 5 分钟才能阅读完成。
在本篇文章中咱们将介绍如何开发一个深度学习模型来检测人工智能生成的图像
大多数用于检测人工智能生成图像的深度学习办法取决于生成图像的办法,或者取决于图像的性质 / 语义,其中模型只能检测人工智能生成的人、脸、汽车等特定对象。
然而这篇论文“Rich and Poor Texture Contrast: A Simple yet Effective Approach for AI-generated Image Detection”所提出的办法克服了上述问题,适用范围更广。咱们将解释这篇论文,以及它是如何解决许多其余检测人工智能生成图像的办法所面临的问题的。
泛化性问题
当咱们训练一个模型 (如 ResNet-50) 来检测人工智能生成的图像时,模型会从图像的语义中学习。如果训练一个通过应用实在图像和人工智能生成的不同汽车图像来检测人工智能生成的汽车图像的模型,那么目前的模型只能从该数据中取得无关汽车的信息,而对于其余的物体就无奈进行判断
尽管能够在各种对象的数据上进行训练,但当咱们尝试这样做时,这种办法慢得多,并且只可能在未见过的数据上给出大概 72% 的准确率。尽管能够通过更多的训练和更多的数据来进步准确率,但咱们不可能找到无穷无尽的数据进行训练。
也就是说目前检测模型的泛化性有很大的问题,为了解决这个问题,论文提出了以下的办法
Smash&Reconstruction
这篇论文提出了一种独特的办法来避免模型从图像的形态 (在训练期间) 学习人工智能生成的特色。它通过一个名为 Smash&Reconstruction 的办法来实现这一点。
在该办法将图像分成预约大小的小块,并对它们进行打乱洗牌生成造成新图像。这只是一个简略的解释,因为在形生成模型最终的输出图像之前还有一个额定的步骤。
将图像宰割成小块后,咱们将小块分成两组,一组是纹理丰盛的小块,另一组是纹理较差的小块。
图像中细节丰盛的区域,如物体或两个对比色区域之间的边界,就成为一个丰盛的纹理块。与次要是背景的纹理区域 (如天空或静止的水) 相比,丰盛的纹理区域在像素上有很大的变动。
计算纹理丰盛的指标
首先将图像分成预先确定大小的小块,如上图所示。而后找到这些图像块的像素梯度(即找出程度方向、对角线方向和反对角线方向上的像素值之差并将它们相加),并将它们拆散成丰盛纹理块和纹理较差块。
与纹理较差的块相比,纹理丰盛的块具备更高的像素梯度值,计算图像梯度值得公式如下:
在像素对比度的根底上对图像进行拆散,失去两幅合成图像。这一过程是本文称之为“Smash&Reconstruction”的残缺过程。
这样就让模型学习到得是纹理的细节,而不是物体的内容表征
fingerprint
大多数基于指纹的办法受到图像生成技术的限度,这些模型 / 算法只能检测由特定办法 / 相似办法 (如扩散、GAN 或其余基于 CNN 的图像生成办法) 生成的图像。
为了准确地解决这个问题,论文曾经将这些图像块划分为丰盛或贫乏的纹理。而后作者又提出了一种辨认人工智能生成图像指纹的新办法,这也就是论文的题目。他们提出在利用 30 个高通滤波器后,找到图像中丰盛和贫乏纹理斑块之间的对比度。
丰盛和贫乏的纹理块之间的对比度有什么帮忙呢?
为了更好了解,咱们将图像并排比拟,实在图像和人工智能生成的图像。
这两张图像应用肉眼观看也是很难查看他们的去别的对吧
论文首先应用Smash&Reconstruction 过程:
在每个图像上利用 30 个高通滤波器后,它们之间的对比度:
从这些后果中咱们能够看到,人工智能生成的图像与实在图像的对比度相比,纹理斑块丰盛和贫乏的对比度要高得多。
这样咱们用肉眼就能够看到区别了,所以能够将对比度的后果放入可训练模型,并将后果数据输出分类器,这样就是咱们这篇论文的模型架构:
分类器的构造如下:
论文中提到了 30 个高通滤波器,这些滤波器最后是为隐写剖析而引入的。
注:
图片隐写的形式有很多种。狭义上,只有通过某种形式将信息暗藏到图片中而难以通过一般形式发现,就能够称为图片隐写,对于隐写剖析有很多相干的钻研,有趣味的能够查阅相干材料。
这里的过滤器是应用卷积办法利用于图像的矩阵值,所应用的滤波器是高通滤波器,它只容许图像的高频特色通过它。高频特色通常包含边缘、精密细节和强度或色彩的疾速变动。
除 (f) 和(g)外,所有滤波器在从新利用于图像之前都以肯定角度旋转,因而总共造成 30 个滤波器。这些矩阵的旋转是用仿射变换实现的,而仿射变换是用 SciPy 实现的。
总结
论文的后果曾经达到了 92% 的验证精度,并且据说如果训练的更多还会有更好的后果,这是一个十分有意思的钻研,我还找到了训练的代码,有趣味的能够深入研究:
论文:
https://avoid.overfit.cn/post/3aa6760ae9a9409896683fb17af7f876
作者:Hriday Keswani