高清变脸更快更逼真!比GAN更具潜力的可逆生成模型来了

2023-10-27

昨天上市即破发的小米,今天上午股价大涨近10%。这下雷军要笑了。

而且可以笑得更灿烂。更灿烂是什么样?来,我们用OpenAI刚刚发布的人工智能技术,给大家展示一下。





当然这个最新的技术,不止这点本事。它的“想象力”很强大的说~

比如,留胡子的硬汉版雷布斯什么样?

以及,娘化的雷布斯又是什么样?

还有。

OpenAI这个称作Glow的生成模型,不仅能像上面这样自动处理高清图片,而且还能把两个人的照片MIX一下。

说到MIX,还是以小米举例吧。

想象一下,碧昂丝和雷布斯如果有后代的话,会是什么样?把他俩照片放在一起,MIX一下……结果如下图所示。而且还可以调整父母的影像力,比方如1/4碧昂丝+3/4雷军……





好像……毫无违和感。

而且,这个新技术还放出了可用的Demo,如果你也想试试变脸或者合成照片,可以前往OpenAI官网,传送门在此:

https://blog.openai.com/glow/

Glow:另辟蹊径

上面讲的就是OpenAI发布的新技术Glow,一个AI通过观察原始图片,学会如何根据不同的属性,生成全新的高清图片。

更厉害的是,这个生成模型,既不是基于大火的对抗生成网络GAN,也不是变分自编码器VAE

Glow是一种可逆的生成模型,也称为基于流的生成模型,它源于对NICE和RealNVP技术的扩展。与GAN和VAE两大流派相比,基于流的生成模型迄今为止在研究界很少受到关注。

NICE的论文最早发布于2014年,作者是来自蒙特利尔大学的Laurent Dinh、David Krueger、Yoshua Bengio。

传送门:https://arxiv.org/abs/1410.8516

RealNVP的论文最早发布于2016年,作者是蒙特利尔大学的Laurent Dinh以及谷歌大脑的Jascha Sohl-Dickstein、Samy Bengio。

传送门:https://arxiv.org/pdf/1605.08803.pdf

基于流的生成模型,有几个优点,例如:精确的潜变量推断和对数似然评估、可同时处理高效的推理和有效的合成、下游任务可用的潜在空间、显著节省内存空间等。

而且这种生成模型,并不限于图像处理,在语音合成、文本分析与合成、半监督学习和基于模型的控制等领域皆可应用。

开头演示的那些可调整属性,都不是预先标记好喂给神经网络的。朝怎样的方向变化,会产生发色啊,胡须量啊,诸如此类的改变,都是AI自己在潜在空间里面学到的。

OpenAI披露的信息显示,Glow模型在一块NVIDIA 1080 Ti GPU上生成256×256的样本,需要130ms。

这次的变脸,更流畅

为了让图像发生更流畅的变化,团队以Dinh等人2016年的研究为基础,提出了一种新的生成流 (Generative Flow) ,叫做Glow:





每一步 (绿框) ,都要从一个actnorm步骤开始,把激活神经元归一化 (Activation Normalization) 。

紧跟着,是一个可逆的1x1卷积,输入和输出通道数量一样多。

再往后,是一层仿射变换(Affine Transformation) 。Dinh团队提出的可逆转换,很强大,在这里被沿用了。

这三步组成一个绿框,无数的绿框连在一起,就有了周而复始的生成流。





然后,把这个流,跟右边的多尺度 (Multi-Scale) 架构结合在一起。

潺潺流淌,人脸就可以在神经网络里,发生安静又自然的变化了。

是AI自己找到的方向

在模型的训练数据上,研究人员没有手动添加任何标记。

AI会在潜在空间里,掌握各种各样的变化规律。

不论是把光滑的下颌变得胡子拉碴,还是为起气色红润的面孔完成卸妆。

没有地图,所有的方向,AI都要自己找到。

幸好,它没有迷路。

变成不一样的自己

不管是发色,面色,还是表情,这些语义特征AI或许并不懂,但这并不妨碍它实现这些属性的变化。

用编码器给图像编码,为有胡子和没胡子的样子,分别算出一个潜在向量

两个向量之间,相差的那个向量,就是调整胡子浓密程度的滑块了。

变成别人

用编码器,给两张不同人类的照片编码。可以产生二者之间的变换过程,很完整。

从换脸途中任取一张图,就能看到两个人的基因,和解之后的样子了。

除了肉眼可辨的效果之外,团队还对比了Glow和前辈RealNVP (来自2016年的Dinh实验室) ,处理数据集时的成绩——

结果是,在5个数据集里,这只闪闪发光的模型,表现都要优于RealNVP。完成相同的任务,Glow需要的数据量更少。

青出于蓝。

选择跟随Dinh的脚步,是因为OpenAI团队看到了可逆生成模型的优点。

它跟VAE不同,跟GAN也不同,潜变量 (Latent Variable) 有了确切的推断,不只是一个近似值了。

另外,可以给数据,生成确切的对数似然值(Log-Likelyhood) ,不只是一个下限了。

总而言之,这样的模型比起前辈们,拥有更多确定的答案。

论文+代码





Glow的作者是来自OpenAI的两位:Diederik P. Kingma、Prafulla Dhariwal。而且OpenAI这次一口气放出了Glow的论文以及代码。

论文传送门:

https://d4mucfpksywv.cloudfront.net/research-covers/glow/paper/glow.pdf

代码传送门:

https://github.com/openai/glow

原文:http://tech.ifeng.com/a/20180710/45056935_0.shtml
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

高清变脸更快更逼真!比GAN更具潜力的可逆生成模型来了 的相关文章

  • 【每日一题】ABC194E-Mex Min

    题目内容 原题链接 给定一个长度为 n n n 的整数数组 a a a 求所有长度为 m m
  • 【华为OD统一考试B卷

    题目描述 一群大雁往南飞 给定一个字符串记录地面上的游客听到的大雁叫声 请给出叫声最少由几只大雁发出 具体的 1 大雁发出的完整叫声为 quack 因为有多只大雁同一时间嘎嘎作响 所以字符串中可能会混合多个 quack 2 大雁会依次完整发
  • Spring概述 ——跟我学Spring3

    1 1 1 Spring是什么 Spring是一个开源的轻量级Java SE Java 标准版本 Java EE Java 企业版本 开发应用框架 其目的是用于简化企业级应用程序开发 应用程序是由一组相互协作的对象组成 而在传统应用程序开发
  • 打印机"启用双向支持"的意思

    在打印机的属性选项里面 有一项 启用双向支持 的选项 但是具体有什么作用 一直都不明白 今天特意查了一些资料 启用双向支持 简单来说就是来回打印 打印头从左向右走动时能打印 从右向左回来时不能打印 如果不启用 仅仅是从左向右走动时打印 重庆
  • Illegal processing instruction target ("xml"); xml (case insensitive) is reserved by the specs

    问题描述 当SoapUI访问一个webservice时 对于某些webserive服务 如果webserive的输入参数要求是xml格式 如果xml格式输入不正确 会报 Unmarshalling Error Illegal process

随机推荐

  • 工行数据中心高级经理 李雁南:接口冒烟测试方法

    原文出自 听云技术博客 http blog tingyun com web a 今年遇到了几个问题 与接口的功能和性能相关 恰巧最近公司也在组织以冒烟测试为主题的活动 于是乎突发奇想 寻思着能否将接口测试与冒烟测试结合起来 发掘一些新的接口
  • ICLR 2023

    PaperWeekly 原创 作者 叶振辉 单位 浙江大学博士生 研究方向 语音合成 说话人视频合成 语音驱动的说话人视频合成 Audio driven Talking Face Generation 是虚拟人领域的一个热门话题 它旨在根据
  • linux系统配置文件

    1 etc sysconfig i18n 语言配置文件 2 etc sysconfig network scripts ifcfg eth0 eth0配置文件 3 boot grub grub conf grup配置文件 或 boot gr
  • 【第04例】IPD进阶

    目录 前言 专栏目录 内容详解 IPD 相关专栏推荐 华为流程体系 CSDN学院相关内容
  • jdk8

    文章目录 1 场景再现 2 Supplier
  • 前端开发之走进Vue.js

    Vue js作为目前最热门最具前景的前端框架之一 其提供了一种帮助我们快速构建并开发前端项目的新的思维模式 本文旨在帮助大家认识Vue js 了解Vue js的开发流程 并进一步理解如何通过Vue js来构建一个中大型的前端项目 同时做好相
  • (转)JAVA常见异常

    0 需要标识符 a 不在函数内 1 非法表达式开始 b 可能 丢失括号 2 no data found a 可能 setInt 1 100 中 没有100这个值 3 找不到符号 a 可能 没导入包 4 指定了无效URL a 可能 数据库名或
  • pyqt_点击button("添加")弹出新的页面

    目标 通过点击主窗口中的button弹出另一个窗口页面 首先需要注意的是 两个窗口不能是同一类型 否则会崩溃 并保存为名称不同的ui文件 并使用UIC工具转成 py文件 因此在目前文件夹中既有mainwindow又有dialog窗体形式的界
  • CGAL的使用

    1 C 类的知识 因为CGAL是用C 实现的 所以需要先了解一下C 编程 C 是面向对象的编程 这也是C 对C语言改进的最重要的部分 C 也被叫做是 带类的 C 简单讲一下类的构成 成员函数以及对象的定义和使用 1 1 C 类的构成 首先从
  • godaddy服务器内网站转移,2021年Godaddy最新域名转出教程

    因为之前Goddady登录界面修改的原因 导致部分新手不知道Godaddy域名转出步骤 笔者特此做了一个简单的教程 供大家学习和参考 第一步 打开Godaddy官网 登录Godaddy账户 然后点击页面右侧的My Account 进入账号管
  • xmlns:android="http://schemas.android.com/apk/res/android"详解

    在Android的layout文件夹下的 xml文件中 开头有一条配置语句 xmlns android http schemas android com apk res android 1 整句话的作用是声明命名空间的引用 2 xmlns是
  • AI+无线通信

    1 赛题与数据 官方介绍已经比较清楚了 按照需要下载对应的文件 博主使用的是pytorch版本 2 代码的本地部署 2 1 文件列表 示例程序文件有以下几个文件 Model define pytorch py 在这个文件设计网络结构 设计
  • 独家

    作者 Faizan Shaikh 翻译 季洋 校对 王雨桐 本文约2700字 建议阅读10 分钟 本文将展示如何使用开源工具完成一个人脸识别的算法 引言 计算机视觉和机器学习已经开始腾飞 但是大多数人并不清楚计算机在识别一张图片的时候 它到
  • 分库表数据倾斜的处理让我联想到了AKF模型

    1 背景 最近在做需求的时候需要在一张表中增加一个字段 这张表情况如下 1 拆分了多个库多张表 2 库表拆分按表中商户编码字段hash之后取模进行拆分 由于库表拆分按照商户编码 有些大商家的单子数量远远要高于其他普通商家 这样就造成了严重的
  • Visual Studio中的Class Designer设计工具需要您的建议!

    2007年07月30日 23 01 00 帮同事Post一下相关调查 有兴趣的朋友可以参加一下 谈谈自己对Class Designer工具的看法 大家好 Class Designer是Visual Studio里的一个工具 可以将类之间的结
  • 7月7日下午!GLM大模型技术前沿与应用探索

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 随着AIGC时代的到来 大型语言模型逐渐成为学术界和工业界的关注焦点 近期 各种大语言模型的涌现给自然语言处理领域的研究带来了诸多挑战 也逐渐对计算机视觉和计算机生物等领域产生了
  • STM32 Keil:warning: #223-D: function "LED_Init" declared implicitly

    include stm32f10x h include led h int main LED Init while 1 GPIO SetBits GPIOD GPIO Pin 6 运行时警告 warning 223 D function L
  • 代码随想录训练营第十一天

    1 有效的括号 LeetCode 题20 https programmercarl com 0020 E6 9C 89 E6 95 88 E7 9A 84 E6 8B AC E5 8F B7 html E8 BF 9B E5 85 A5 E
  • day15

    LeetCode102 层序遍历二叉树 package algor trainingcamp import algor junior algor tree TreeNode import java util ArrayList import
  • 高清变脸更快更逼真!比GAN更具潜力的可逆生成模型来了

    昨天上市即破发的小米 今天上午股价大涨近10 这下雷军要笑了 而且可以笑得更灿烂 更灿烂是什么样 来 我们用OpenAI刚刚发布的人工智能技术 给大家展示一下 当然这个最新的技术 不止这点本事 它的 想象力 很强大的说 比如 留胡子的硬汉版