网站开发背景图,装修公司的网站怎么做,科技特长生,怎么做刷会员的网站CNN-generated images are surprisingly easy to spot… for now----《目前CNN生成的图像非常容易被发现》 背景#xff1a; 研究者们发现#xff0c;仅仅对一种由CNN模型生成的图像进行训练的分类器#xff0c;也可以检测许多其他模型生成的结果。由此提出这样的观点#…CNN-generated images are surprisingly easy to spot… for now----《目前CNN生成的图像非常容易被发现》 背景 研究者们发现仅仅对一种由CNN模型生成的图像进行训练的分类器也可以检测许多其他模型生成的结果。由此提出这样的观点即目前CNN生成的图像存在一些常见的系统缺陷导致它们无法实现真实的图像合成。 动机 随着生成模型的快速发展对无法分辨真假的担忧。 最简单的方法
引言 近年来深度图像合成技术例如生成对抗网络GAN的快速发展引起了公众的极大兴趣和关注同时人们担心我们正在进入一个无法辨别哪些图像是真实的、哪些图像是假的世界[14]。这种担忧主要针对特定的操纵技术例如“深度伪造”式面部替换[2]和逼真的合成人类[20]。其实这些方法仅仅是一种广泛应用技术中的两个实例基于卷积神经网络CNN的图像生成。我们这项工作的目标是找到一种通用的图像取证方法来检测 CNN 生成的图像。 检测图像是否是由特定合成技术生成的相对简单 - 只需在由真实图像和通过相关技术合成的图像组成的数据集上训练分类器即可。然而这种方法可能与图像生成中使用的数据集例如面部相关联并且由于数据集偏差[35]在新数据例如汽车上进行测试时可能无法泛化。更糟糕的是随着生成方法的发展以及它所训练的技术变得过时特定技术的检测器可能很快就会变得无效。 因此很自然地会问今天的 CNN 生成的图像是否包含常见的伪影例如某种可检测的 CNN 指纹这将允许分类器泛化到整个生成方法系列而不是单个生成方法。不幸的是先前的工作表明泛化是图像鉴别取证方法的一个重大问题。例如最近的几项工作 [44,12,37] 观察到在一种 GAN 架构生成的图像上训练的分类器在其他架构上进行测试时表现不佳并且在许多情况下当仅更改分类器训练数据集而不是架构或任务时它们也无法泛化。这是有道理的因为图像生成方法多种多样它们使用不同的数据集、网络架构、损失函数和图像预处理。 在本文中我们表明与当前的理解相反经过训练来检测 CNN 生成图像的分类器可以在数据集、架构和任务中表现出惊人的泛化能力。我们遵循惯例以简单的方式训练我们的分类器使用单个 CNN 模型生成大量假图像我们使用 ProGAN一种高性能无条件 GAN 模型 [19]并训练二元分类器来检测假图像使用模型的真实训练图像作为反例。 为了评估我们的模型我们创建了一个新的 CNN 生成图像数据集即 ForenSynths 数据集由 11 个模型的合成图像组成范围从无条件图像生成方法如 StyleGAN [20]到超分辨率方法 [13] 以及深度伪造[33]。每个模型都在适合其特定任务的不同图像数据集上进行训练。 在这种方法看似简单的背后我们发现存在许多微妙的挑战我们通过一组实验和经过训练的图像生成模型的新数据集来研究这些挑战。我们表明当采取正确的步骤时分类器对于 JPEG 压缩、模糊和调整大小等常见操作确实具有鲁棒性。我们还发现训练图像的多样性很重要从CNN合成方法中采样的大数据集导致分类器在一定程度上优于在较小数据集上训练的分类器。最后检查后处理对模型泛化能力的影响至关重要这通常发生在图像创建的下游例如在存储和分发期间。我们表明当采取正确的步骤时分类器对于 JPEG 压缩、模糊和调整大小等常见操作确实具有鲁棒性。 总之我们的主要贡献是 1我们表明在CNN生成的图像上训练的取证模型对其他CNN合成方法表现出惊人的泛化能力 2我们提出了一种新的数据集和评估指标用于检测CNN生成的图像 3我们通过实验分析了跨模型泛化的因素。
相关工作 检测CNN生成的技术。 最近的几项工作已经解决了检测 CNN 生成的图像的问题。Rossler 等人[33]评估了检测面部操纵技术的方法包括基于 CNN 的面部和嘴巴替换方法。虽然他们表明简单的分类器可以检测同一模型生成的赝品但他们没有研究模型或数据集之间的泛化。Marra 等人 [24] 同样表明简单的分类器可以检测由图像翻译网络 [17] 创建的图像但没有考虑跨模型迁移。 最近Cozzolino 等人 [12] 发现取证分类器在模型之间的迁移很差常常获得近乎偶然的性能。他们提出了一种基于自动编码器的新表示学习方法以提高各种生成方法的零和低样本训练方案中的传输性能。虽然他们的最终目标与我们相似但他们采取了正交方法。他们专注于改进迁移学习方法并将其应用于各种模型包括 CNN 和非 CNN。相比之下我们实证研究了简单“基线”分类器在不同训练和测试条件下基于 CNN 的图像生成的性能。Zhang 等人 [44] 发现分类器在 GAN 模型之间的泛化能力很差。他们提出了一种称为 AutoGAN 的方法用于生成包含 GAN 架构中常见的上采样伪影的图像并在两种类型的 GAN 上进行测试。其他工作提出使用手工制作的共现特征 [26] 或通过基于预训练的人脸检测器构建的异常检测模型来检测 GAN 图像 [37]。研究人员还提出了几种方法来识别哪些已知的 GAN 生成了给定的图像 [25, 41]。 图像取证。 研究人员提出了多种方法来检测更传统的操纵技术例如通过图像编辑工具进行的操纵技术。早期的工作侧重于手工制作的线索 [14]例如压缩伪影 [3]、重采样 [31] 或物理场景约束 [27]。最近研究人员将基于学习的方法应用于这些问题[45,16,11,32,38]。像我们一样这一行的工作发现简单的监督分类器通常可以有效地检测操作 [45, 38]。 CNN生成的共有特征 研究人员最近表明常见的 CNN 设计包含降低其表征能力的伪影。这项工作的大部分内容都集中在网络执行上采样和下采样的方式上。这种伪影的一个众所周知的例子是由反卷积层产生的棋盘伪影[28]。Azulay 和 Weiss [4] 表明卷积网络忽略了经典采样定理因此跨步卷积降低了平移不变性Zhang [43] 通过减少这些层中的混叠来改进平移不变性。最近Bau 等人 [5] 提出 GAN 的生成能力有限并分析了预训练的 GAN 无法生成的图像结构。
研究问题
是否有可能在一个生成模型的图像上训练一个取证分类器该模型可以推广到许多其他模型上。
分类器的训练
数据集构建 选择ProGAN作为生成模型无条件、结构简单、可生成任意数量、高质量图像LSUN为ProGAN的训练数据集共20个类别为每类生成36K训练图像和200个验证图像共720K训练图像和4K验证图像再取相同数量的真实图像共同组成分类器数据集。 模型选择 与训练的ResNet-50图像输入为224×224. 评价指标 平均精度 AP
实验结论分析
作者认为以前的分类器没有很好的泛化是因为图像没有后增强。由于真实图像存在后处理操作指压缩、模糊、裁剪等。而大多数合成图像不存在但不能让分类器通过学习是否有后处理进行分类。因为在现实场景使用过程中无论生成还是真实图像都会受到压缩或模糊处理使模型的鲁棒性降低导致在理想情况下训练的分类器不能很好泛化。训练数据类别的增加能够提升模型的泛化性能但类别达到一定数量后AP的增量变得很小说明可能存在一个对于实际泛化来说“足够多样性”的训练数据集。证明了摘要中提出的观点CNN生成的图像与真实图像存在不同并且可视化了合成图像和真实图像的频率并进行比较。
总结 和大多数方法一样都是训练一个分类器。改进在于根据现实场景存在的伪影情况对训练数据进行后增强使模型学习到生成图像和真实图像更本质的区别使得该分类器实现开箱即用的效果。 CNN分类器学习图像的高频和低频信息进行分类但在现实中图像会被压缩或模糊处理导致部分低频信息损失使模型失效这说明伪影可能不仅是高频的而且是跨频段存在的可以在模型训练阶段使用高通滤波过滤掉低频信息从而增强模型鲁棒性。