图像伪造照妖镜：北大发布多模态 LLM 图像篡改检测定位框架 FakeShield

人阅读 2024-10-24 23:57:39

北京大学的研究人员开发了一种新型多模态框架 FakeShield，能够检测图像伪造、定位篡改区域，并提供基于像素和图像语义错误的合理解释，可以提高图像伪造检测的可解释性和泛化能力。

随着生成式人工智能（AIGC）的迅猛发展，图像编辑与合成技术变得愈加成熟与普及。这一趋势为图像内容创作带来了便捷的同时，也显著增加了篡改检测的难度。

用户能够通过 Photoshop、DeepFake、AIGC 等工具对图像进行高质量编辑，且往往不留任何痕迹。在此背景下，如何准确检测并定位篡改区域，成为了学术界与工业界的关注重点。

尽管现有的图像篡改检测与定位（IFDL）算法在网络结构和训练策略上取得了一定进展，但仍存在几个主要问题：

1. 大多数方法采用黑箱模型，仅输出真实性概率，缺乏详细的检测解释，导致用户对结果的信任度降低。
2. 现有算法通常针对特定篡改技术，缺乏应对多样化篡改手段的能力，降低了实用性。

为了解决这些问题，如图 1 所示，北京大学与华南理工大学的研究团队提出了一种全新的任务：可解释的图像伪造检测与定位（e-IFDL），并设计了一个新颖的多模态伪造检测定位框架：FakeShield。

论文地址： https://arxiv.org/ abs / 2410.02761 项目主页： https://zhipeixu.github.io/ projects / FakeShield/ GitHub 地址： https://github.com/ zhipeixu / FakeShield

结合多模态大语言模型的视觉和语言理解能力，实现在检测图像真实性，生成篡改区域掩膜的同时，提供详细解释，进而增强了检测定位过程的透明性与泛化性。

图 1：(a) 传统 IFDL 方法，(b) 可解释的 IFDL 方法

为了解决现有 IFDL 方法的不足，FakeShield 提出了以下主要贡献：

1. 提出了首个多模态大模型框架用于图像篡改检测与定位，不仅实现了检测与定位过程的解耦，还提供了合理的判断依据，解决了现有方法的黑箱问题。
2. 利用 GPT-4o 丰富现有 IFDL 数据集，构建了多模态篡改描述数据集（MMTD-Set），通过关注不同篡改特征，生成「图像-掩膜-描述」三元组，提高了模型的分析能力。
3. 设计了基于领域标签引导的解释性篡改检测模块（DTE-FDM），在单一模型中检测多种篡改类型，缓解了数据域冲突问题。同时，通过多模态篡改定位模块（MFLM），对齐视觉和语言特征，实现精准的篡改区域定位。

基于上述创新，FakeShield 不仅提升了篡改检测定位的准确性和解释性，还显著增强了模型的适应性和实用性，为图像篡改检测领域提供了一种全面而高效的解决方案。

MMTD-Set 数据集

如图 2 所示，我们根据篡改方法，将篡改图片分为 PhotoShop、DeepFake、AIGC-Editing 三个数据域。基于现有的 IFDL 数据集，我们利用 GPT-4o 生成对于篡改图像的分析与描述，构建「图像-掩膜-描述」三元组，以支持模型的多模态训练。另外，针对不同篡改类型，我们设计了特定的描述提示，引导 GPT 关注不同的像素伪影和语义错误。

图 2：MMTD-Set 数据集构建过程

在 MMTD-Set 的构建过程中，prompt 设计是关键环节，旨在确保 GPT-4o 能准确生成与篡改图像相关的高质量描述。在输入编辑后的图像及其二值掩膜时，prompt 的设计围绕两个主要方面展开：篡改区域的定位和可见细节的捕捉。

在定位描述中，GPT-4o 需要对篡改区域的绝对位置和相对位置进行清晰表达。绝对位置指篡改区域在整个图像中的位置，如「图像的左上角」或「靠近图像下半部分」。相对位置则要求描述篡改区域与其他物体之间的关系，如「在桌面上方」或「靠近人群」。这种双重描述的设计可以帮助模型更准确地感知篡改区域在图像中的位置，确保输出的掩膜与实际篡改区域一致。

在可见细节的捕捉上，prompt 重点关注多种视觉异常，这些异常反映了篡改过程中可能留下的伪影和逻辑错误。

对于 Photoshop 篡改，prompt 重点关注像素级伪影和不自然的边缘，要求模型检查光照一致性、像素模糊和分辨率变化，同时判断是否违反物理规律，如缺失的阴影或透视关系不合理。在 DeepFake 数据中，prompt 强调面部细节和语义逻辑，要求模型注意皮肤纹理的连贯性、表情的自然性以及光影的匹配，留意面部对称性和眼睛反射的异常。

对于 AIGC 编辑，prompt 聚焦于文字生成和视觉逻辑，要求分析文字拼写是否正确、排列是否合理，并判断场景中光影和对象位置的合理性。这种针对不同篡改类型的 prompt 设计确保了 FakeShield 在检测与解释上的高效性和准确性。

FakeShield 框架

如图 3 所示，该框架包括域标签引导的可解释伪造检测模块（Domain Tag-guided Explainable Forgery Detection Module，DTE-FDM）和多模态伪造定位模块（Multi-modal Forgery Localization Module，MFLM）两个关键部分。

DTE-FDM 负责图像伪造检测与检测结果分析，利用数据域标签（domain tag）弥合不同伪造类型数据之间的数据域冲突，引导多模态大语言模型生成检测结果及判定依据。MFLM 则使用 DTE-FDM 输出的对于篡改区域的描述作为视觉分割模型的 Prompt，引导其精确定位篡改区域。

图 3：FakeShield 框架图

Domain Tag-guided Explainable Forgery Detection Module（DTE-FDM）

DTE-FDM 模块负责图像伪造检测与检测结果的分析，通过生成数据域标签（domain tag）来缓解不同伪造类型数据（如 Photoshop 编辑、DeepFake、AIGC 编辑）之间的数据域冲突。这些标签引导多模态大语言模型（LLM）聚焦于各类型篡改的特征，实现针对性检测与解释。

在检测过程中，输入图像 I_ori 通过数据域标签生成器 G_dt 分配特定标签 T_tag，表明该图像的伪造类型。接着，图像经过编码器 F_enc 和线性投影层 F_proj 转化为特征向量 T_img。

这些图像特征与指令文本 T_ins 一并输入 LLM，生成检测结果 O_det，包括是否篡改、具体的篡改区域描述以及解释性分析。

具体过程如下：

DTE-FDM 不仅判断图像的真实性，还根据不同伪造类型生成详细的判定依据，包括光照一致性、边缘伪影、分辨率差异等。这种设计确保模型能够应对多样化的伪造场景，增强了检测的准确性和解释性，使 FakeShield 在应对复杂篡改任务时具有更强的泛化能力与实用性。

Multi-modal Forgery Localization Module（MFLM）

MFLM 模块负责精准定位图像中的篡改区域，通过多模态特征对齐的方式将文本和视觉信息融合，从而生成准确的篡改掩膜。MFLM 的设计旨在解决仅依赖单一模态信息所带来的定位不准确问题，增强对复杂篡改区域的识别能力。

在 MFLM 中，输入的图像 I_ori 经过 Tamper Comprehension Module (TCM) 编码，将图像特征与解释性文本 O_det 进行对齐。对齐后的嵌入表示通过多层感知机（MLP）投影为特殊的令牌嵌入用于指导分割模型生成篡改区域掩膜，用于指导分割模型生成篡改区域掩膜 M_loc。

整个过程如下：

其中，S_enc 和 S_dec 分别为图像的编码器与解码器，Extract (⋅) 为提取嵌入的操作，通过上述步骤，MFLM 利用文本描述和图像特征的对齐生成准确的二值掩膜。

此外，MFLM 使用了 LoRA 微调技术，对模型进行轻量化优化，提高了处理效率并降低了计算成本。与单一模态分割方法相比，这种多模态交互的设计使得 MFLM 能够应对更加复杂的篡改场景，如光照不一致、透视错误和对象拼接，从而显著提升篡改区域的定位准确性。

实验结果

我们对 FakeShield 与多种 IFDL 方法和多模态大语言模型（MLLM）在检测、解释和定位方面的性能进行了全面对比。为了确保结果的公平性，所有 IFDL 方法均在与 FakeShield 相同的数据集上进行了训练和测试。

这一比较覆盖了 Photoshop、DeepFake 以及 AIGC 编辑等多种篡改场景，全面评估了各模型在多模态信息融合和复杂篡改检测中的表现。

检测性能对比

我们与 MVSS-Net，CAT-Net 等其他先进的 IFDL 方法进行了检测性能的对比，结果如表 1 所示。实验结果表明，FakeShield 在 Photoshop、DeepFake 和 AIGC 编辑等数据集上的检测准确率（ACC）和 F1 分数均显著优于其他方法。通过引入域标签引导策略（domain-tag guidance），FakeShield 能够有效处理多种篡改类型，增强跨领域的泛化能力。