Deepfakes论文总结

2023-11-03

Deepfakes论文总结(更新中)

目前的deepfake检测,从检测层级上讲有两类:

  • 一类工作认为,深度伪造检测,应该检测伪造过程中底层的artifact,比如本文中的[5,6,7,8]。这类文章通常非常善于设计网络架构、设计数据增强方式,设计loss等等,泛化性较差。

  • 另一类工作认为,深度伪造检测,应该关注伪造过程中难以复制的高层语义信息。比如本文中的[1,2,3,4,10]。这类文章通常不太在意底层网络架构(即使他们会使用各种各样的特征抽取器),而更关注网络抽取出的时序语义(目前还无工作基于图片语义),泛化性较好。

从实现方法上讲,基于个体的检测(identity-based)和有监督学习(supervised)两类:

  • 基于个体的方法通常是将视频映射到能够识别个体的特征空间,然后根据新样本和已有实例之间的距离做出决策。这类检测需要真实个体视频的参考集合(reference set)。

  • 监督学习方法把检测作为一个真假分类问题

从模态角度看,除了传统的视频和音频外,随着带有伪造音频的数据集的出现,多模态的检测也成为最新热点。

Identity-based

[1] ProtectingWorld Leaders Against Deep Fakes【CVPR 2019】

 190维特征可以被较好地聚类

标签:视频级别检测;SVM

先抽取人脸的运动单元,然后用运动单元之间的190维相关系数表示一段视频的特征,作者用TSNE做了可视化,发现不同人的特征可以被很好地分开。随后,作者用SVM在多种方法伪造的数据集上训练模型,取得了较好的效果。

[2] Detecting Deep-Fake Videos from Appearance and Behavior【IEEE-WIFS 2020】

网络架构,由一个人脸识别网络和一个行为网络并联而成

标签:视频级别检测;度量学习

先由Facial Attributes-Net抽取行为特征(基于帧的面部运动和表情,身份不可知),然后用行为特征预测Identity,从而得到一个行为网络的隐空间;另外单独由人脸识别模型(VGG)得到另一个隐空间;最后通过新样本在隐空间中与真实样本集的距离判断真伪。

1)面部和行为身份相同并且面部相似度高于指定阈值时为真;2)如果面部和行为的身份不同或面部相似度小于阈值则为假。

[3] ID-Reveal: Identity-aware DeepFake Video Detection【ICCV 2021】

ID-Reveal

标签:视频级别检测;度量学习

该网络主要由三个结构组成:(1)特征提取;(2)时序ID网络;(3)3DMM生成网络。

1)特征提取:输入的是视频,对视频中的每一帧提取出面部特征。然后通过一个3D形态模型来将每个脸映射成一个低维表示(也就是图中显示的人脸形态图)。该表示中包含了关于脸部形状,表情,外貌等信息。下一步是从该低维表示中取回人脸的这些信息参数,将这些信息再次映射成一个62个参数的向量。

时序ID网络:该网络的作用是比较输入的特征之间的相似度,同时也作为一个判别器来与接下来介绍的3DMM生成网络进行对抗学习。流程是:将传入该部分的两个特征向量进行特征映射然后来比较两者之间的相似度,将该相似度与标签对比,如果判定错误则更新3DMM生成网络的参数来使得其生成更能分辨真假之间关键信息的特征。

3DMM生成网络:该网络的作用是生成类似于经过deepfake篡改过的视频,如图上所示:将身份A的面部五官等放到身份B的面部背景上面,也就是与个人视觉身份一致但生物特征不一致的信息。一般被使用两次,将个体i变为身份c并将变为3DMM特征,之后将生成的3DMM特征再重新变换为i,生成器旨在增加相似性,而时序ID网络训练阻碍发生器,对抗训练的最终目标是提高时序ID网络区分真实身份与虚假身份的能力。

[4] Audio-Visual Person-of-Interest DeepFake Detection【arxiv】

Supervised Learning

[5] Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection【CVPR 2021】

 网络架构

FDFL 

标签:图像级别分类;loss设计

  1. 输入图像首先经过AFFGM和RGB分支分别提取频域和RGB域特征;

  2. 在融合模块中将两种特征进行融合;

  3. 融合后的特征经过进一步特征提取之后,得到一维的特征矢量;

  4. 框架的最后是一个分类器,输出输入样本的预测结果。整个网络在softmax loss和本文提出的SCL的联合监督下进行端到端训练,网络学习一个嵌入空间,其中自然人脸聚集在中心点周围,而被操纵的人脸远离中心点。

  5. 利用局部的离散余弦变换(DCT),提取频域特征;融合了度量学习使用单中心损失,保证真实人脸类内的紧密,避免伪造图片分布的多样性影响训练。

[6] Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features【CVPR 2021】

LR-Net

标签:视频级别分类;光流

  1. 作者提出的LRNet由四个部分组成:人脸预处理模块、校准模块、特征嵌入过程和RNN分类过程。它通过检测异常的面部运动模式和时间不连续性来暴露被操纵的面部。并且整个框架只需要训练RNNs部分。

  2. 先抽取人脸关键点,针对现有方法抽取人脸关键点精确率不高的问题,提出校准模块,利用光流预测下一帧的关键点位置后,和下一帧抽取的关键点用Kalman filter做融合,最后把校准后的关键点位置和速度输入到RNN中进行预测。

[7] Towards Solving the DeepFake Problem: An Analysis on Improving DeepFake Detection using Dynamic Face Augmentation【ICCV 2021】

流行数据集的统计量

标签:数据增强

文章认为,目前的Deepfake数据集是过采样的,在DFDC数据集中,一张脸在182个视频中出现,这会导致模型过拟合;提出了一种Face-Cutout的数据增强方法,先找到68个人脸关键点,然后尽可能地移除和真实图片差别较小的部分,这个差别是由真实和虚假图片局部的SSIM预先衡量好的。

[8] Multi-attentional Deepfake Detection【CVPR 2021】

网络架构

Multi-attentional Deepfake Detection 

标签: 图像级别分类

  • 多个空间注意力头,使网络关注不同的局部区域,并从多个人脸注意区域中获取局部区别特征;

  • 纹理增强块,放大浅层特征中的细微伪影;

  • 在注意力图的指导下,聚合低层纹理特征和高层语义特征。

  • 为了解决网络的学习困难,进一步引入了一个新的区域独立性损失和一个注意力引导的数据增强策略,以对抗学习的方式辅助网络训练。

  1. 用纹理增强浅层特征,用较深层特征去生成注意力图,把注意力图双线性插值后和纹理特征做逐点相乘;

  2. 为了避免不同的特征图聚焦到相同的区域,使用Regional Independence Loss(区域独立性损失),让特征图之间的距离尽可能远,同一个通道对不同图片生成的注意力图尽可能接近;

  3. 另外加入了Attention Guided Data Augmentations,即先随机选取一个注意力图,然后对原图的对应区域做高斯模糊,进一步解耦不同的attention maps。

[9] Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection【CVPR 2021】

finetune阶段的网络架构

标签:视频级别分类;预训练

唇部的高层时序语义特征是现有方法难以伪造的;作者先在唇读任务上预训练一个逐帧的ResNet-18特征抽取网络和一个时序网络,然后固定逐帧网络(防止过拟合到artifact上),只训练时序网络(此时输入图片被裁剪到唇部周围),从而抽取能够决定真假的唇部特征。实验证明该方法跨数据集和跨伪造方法泛化性较好。

[10] Protecting Celebrities with Identity Consistency Transformer【CVPR 2022】 

网络结构 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Deepfakes论文总结 的相关文章

随机推荐

  • 大数据学习必须掌握的五大核心技术有哪些?

    大数据技术的体系庞大且复杂 基础的技术包含数据的采集 数据预处理 分布式存储 NoSQL数据库 数据仓库 机器学习 并行计算 可视化等各种技术范畴和不同的技术层面 首先给出一个通用化的大数据处理框架 主要分为下面几个方面 数据采集与预处理
  • typora图片上传解决办法(可用)

    作者 杂食老翟 链接 https www zhihu com question 501075370 answer 2683954521 来源 知乎 著作权归作者所有 商业转载请联系作者获得授权 非商业转载请注明出处 Typora是一款非常好
  • 进程间通信——System V IPC 之进程信号量

    51 1 进程信号量 51 1 1 信号量 本质上就是共享资源的数目 用来控制对共享资源的访问 用于进程间的互斥和同步 每种共享资源对应一个信号量 为了便于大量共享资源的操作引入了信号量集 可对所有信号量一次性操作 对信号量集中所有操作可以
  • COLMAP生成MVSNet数据集

    一 colmap2mvsnet py COLMAP可以给图像数据集标定一套相机外参及视图选择 如果想用COLMAP导出的结果输入MVSNet测试 需要把数据集 图片 相机参数等 转化为MVSNet的输入格式 MVSNet的作者yaoyao在
  • 【Java笔记+踩坑】Spring基础2——IOC,DI注解开发、整合Mybatis,Junit

    导航 黑马Java笔记 踩坑汇总 JavaSE JavaWeb SSM SpringBoot 瑞吉外卖 SpringCloud SpringCloudAlibaba 黑马旅游 谷粒商城 目录 1 IOC DI配置管理第三方bean 1 1
  • ibatisNet 数据访问框架

    author skate time 2010 03 04 ibatisNet 数据访问框架 介绍欢迎来到iBATISNet Database Layer 这个框架将让你能够更好的在dotnet应用中设计和实现实体层 这个框架有两个主要的组成
  • yum简述

    1 什么是yum源 说到yum源就必须说到linux系统中特有的依赖关系问题 yum就是为了解决依赖关系而存在的 yum源就相当是一个目录项 当我们使用yum机制安装软件时 若需要安装依赖软件 则yum机制就会根据在yum源中定义好的路径查
  • 区块链 商品溯源

    商品溯源是指追踪记录商品从生产到零售的全部环节 它的实现需要产业链上下游各方共同参与 商品溯源属于一种多环节协同的综合性商业行为 集合了 IoT 技术 防伪技术 信息系统与溯源机制 今天 区块链技术作为支撑数字经济的基础设施技术 其分布式共
  • 替代Eureka,你可以试试Consul

    V xin ruyuanhadeng获得600 页原创精品文章汇总PDF 目录 1 Eureka官宣2 x版本不再开源 2 互联网大厂的基础架构 自研服务注册中心 3 中小公司的其他选择 Consul 1 Eureka官方宣布2 x不再开源
  • ucenter info:can not connect to MySQL server解决办法

    Discuz搬家之后 发现ucenter 进不去了 错误信息为 UCenter info Can not connect to MySQL server Error Access denied for user a localhost us
  • electron-vue 安装环境、构建+打包(mac和windows)这一篇就够了

    由于公司需要 下一个项目需要做CS开发 技术选型分析后 选择了electron Electron 是一个使用 JavaScript HTML 和 CSS 等 Web 技术创建原生程序的框架 研究发现 electron与vue cli3 0脚
  • git简单提交操作

    一 本地仓库操作 1 打开git命令行 先 到需要提交的目录 2 输入git init 初始化本地仓库 3 输入git add
  • mysql 索引优化实战 (续)

    分页查询优化 示例表 CREATE TABLE employees id int 11 NOT NULL AUTO INCREMENT name varchar 24 NOT NULL DEFAULT COMMENT 姓名 age int
  • 企业微信不支持在当前APP中打开该小程序,可前往微信打开

    最近因为业务需求 需要将原来的小程序添加到企业微信 在本地测试的时候一切正常 本以为这周任务做完了 结果遇到一个深坑 到处查资料 找了很久在开发者论坛发现有人遇到过类似的问题 这里记录一下 根据 企业微信官方文档在关联了微信小程序后 可以从
  • 传输层协议------TCP协议

    这里写目录标题 协议段格式 确认应答机制 超时重传机制 协议特性 面向连接 三次握手建立连接和四次挥手断开连接 理解TIME WAIT的状态 解决TIME WAIT状态引起bind失败的方法 理解CLOSE WAIT的状态 保活机制 可靠传
  • Hive doc

    https cwiki apache org confluence display Hive GettingStarted Table of Contents Hive introduction videos From Cloudera I
  • shell 判断操作系统类型

    文章目录 shell 判断操作系统类型 shell 判断操作系统类型 3 种 OSTYPE 旧版的shell 无法识别 uname uname substr 1 Administrator DESKTOP MR9A589 MINGW64 D
  • ajax请求设置同步,ajax 设置同步

    这个问题总是碰见 但是又总是记不住怎么拼写 这次直接写出来 长期保存 Ajax请求默认的都是异步的 如果想同步 async设置为false就可以 默认是true 例如 ajax url cache false dataType json t
  • 【亲测】postman下载需要注意的一些问题

    之前一直用postman传递普通参数 后来用了上传 最近使用了下载 下载会出现失败 原因看了很多问题都没解决 最后试了下接口变post就可以 但是get接口是可以下载的 只是postman里测试的话需要post
  • Deepfakes论文总结

    Deepfakes论文总结 更新中 目前的deepfake检测 从检测层级上讲有两类 一类工作认为 深度伪造检测 应该检测伪造过程中底层的artifact 比如本文中的 5 6 7 8 这类文章通常非常善于设计网络架构 设计数据增强方式 设