Pytorch之经典神经网络Generative Model(二) —— VAE (MNIST)

2023-11-09

变分编码器(Variational AutoEncoder)是自动编码器的升级版本，其结构跟自动编码器是类似的，也由编码器和解码器构成。

回忆一下，自动编码器有个问题，就是并不能任意生成图片， 因为我们没有办法自己去构造隐藏向量，需要通过一张图片输入编码我们才知道得到的隐含向量是什么，这时我们就可以通过变分自动编码器来解决这个问题。

其实原理特别简单，只需要在编码过程给它增加一些限制，迫使其生成的隐含向量能够粗略的遵循一个标准正态分布，这就是其与一般的自动编码器最大的不同。这样我们生成一张新图片就很简单了， 我们只需要给它一个标准正态分布的随机隐含向量，这样通过解码器就能够生成我们想要的图片，而不需要给它一张原始图片先编码。

一般来讲，我们通过 encoder 得到的隐含向量并不是一个标准的正态分布，为了衡量两种分布的相似程度，我们使用 KL divergence，这是用来衡量两种分布相似程度的统计量，它越小，表示两种概率分布越接近。

在实际情况中，需要在模型的准确率和encoder得到的隐含向量服从标准正态分布之间做一个权衡，所谓模型的准确率就是指解码器生成的图片与原始图片的相似程度。可以让神经网络自己做这个决定，只需要将两者都做一个loss，然后求和作为总的loss，这样网络就能够自己选择如何做才能使这个总的loss下降。

为了避免计算 KL divergence 中的积分，我们使用重参数的技巧，不是每次产生一个隐含向量，而是生成两个向量，一个表示均值，一个表示标准差，这里我们默认编码之后的隐含向量服从一个正态分布的之后，就可以用一个标准正态分布先乘上标准差再加上均值来合成这个正态分布，最后 loss 就是希望这个生成的正态分布能够符合一个标准正态分布，也就是希望均值为 0，方差为 1

所以标准的变分自动编码器VAE如下
import os
import torch
import torch.nn.functional as F
from torch import nn
from torch.utils.data import DataLoader
from torchvision.datasets import MNIST
from torchvision import transforms
from torchvision.utils import save_image
from visdom import Visdom

class VAE(nn.Module):
    def __init__(self):
        super(VAE, self).__init__()
        self.fc1 = nn.Linear(784, 400)
        self.fc21 = nn.Linear(400, 20) # mean 均值
        self.fc22 = nn.Linear(400, 20) # var  标准差

        self.fc3 = nn.Linear(20, 400)
        self.fc4 = nn.Linear(400, 784)

    def encode(self, x):
        x = self.fc1(x)
        h1 = F.relu(x)
        mean = self.fc21(h1)
        var = self.fc22(h1)
        return mean, var

    #重参数化
    def reparametrize(self, mean, logvar):
        std = logvar.mul(0.5).exp_()
        normal = torch.FloatTensor(std.size()).normal_() #生成标准正态分布
        if torch.cuda.is_available():
            normal = torch.tensor(normal.cuda())
        else:
            normal = torch.tensor(normal)
        return normal.mul(std).add_(mean)  #标准正态分布乘上标准差再加上均值
        #这里返回的结果就是我们encoder得到的编码，也就是我们decoder要decode的编码

    def decode(self, z):
        z = self.fc3(z)
        z = F.relu(z)
        z = self.fc4(z)
        z = torch.tanh(z)
        return z

    def forward(self, x):
        mean, logvar = self.encode(x) # 编码
        z = self.reparametrize(mean, logvar) # 重新参数化成正态分布
        return self.decode(z), mean, logvar # 解码， 同时输出均值方差

def loss_function(recon_image, image, mean, logvar):
    """
    recon_x: generating images
    x: origin images
    mu: latent mean
    logvar: latent log variance
    """
    reconstruction_function = nn.MSELoss(reduction='sum')
    MSE = reconstruction_function(recon_image, image)

    # loss = 0.5 * sum(1 + log(sigma^2) - mu^2 - sigma^2)
    KLD_element = mean.pow(2).add_(logvar.exp()).mul_(-1).add_(1).add_(logvar)
    KLD = torch.sum(KLD_element).mul_(-0.5)
    # KL divergence
    return MSE + KLD


def to_img(x):
    '''
    定义一个函数将最后的结果转换回图片
    '''
    x = 0.5 * (x + 1.)
    x = x.clamp(0, 1)
    x = x.view(x.shape[0], 1, 28, 28)
    return x

img_transforms = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize([0.5], [0.5]) # 标准化
])

train_set = MNIST(
                root='dataset/', 
                transform=img_transforms
)
train_data = DataLoader(
                dataset=train_set, 
                batch_size=128, 
                shuffle=True
)


net = VAE() # 实例化网络
if torch.cuda.is_available():
    net = net.cuda()

optimizer = torch.optim.Adam(net.parameters(), lr=1e-3)
viz = Visdom()
viz.line([0.], [0.], win='loss', opts=dict(title='loss'))



for epoch in range(100):
    for image, _ in train_data:
        image = image.view(image.shape[0], -1)
        image = torch.tensor(image)
        if torch.cuda.is_available():
            image = image.cuda()
        recon_image, mean, logvar = net(image)
        loss = loss_function(recon_image, image, mean, logvar) / image.shape[0] # 将 loss 平均
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()


    print('epoch: {}, Loss: {:.4f}'.format(epoch, loss.item()))
    save = to_img(recon_image.cpu().data)
    if not os.path.exists('./vae_img'):
        os.mkdir('./vae_img')
    save_image(save, './vae_img/image_{}.png'.format(epoch))

    viz.line([loss.item()], [epoch], win='loss', update='append')
运行100个eopch之后，可以看出来结果比自动编码器清晰一点，本质上VAE就是在encoder的结果添加了高斯噪声，通过训练要使得decoder对噪声有一定的鲁棒性，这样的话我们生成一张图片就没有必须用一张图片先做编码了，可以想象，我们只需要利用训练好的encoder对一张图片编码得到其分布后，符合这个分布的隐含向量理论上都可以通过decoder得到类似这张图片的图片。

KL越小，噪声越大（可以这麽理解，我们强行让z的分布符合正态分布，其和N(0,1)越接近，KL越小，相当于我们添加的噪声越大），所以直觉上来想loss合并后的训练过程：

当 decoder 还没有训练好时（重构误差远大于 KL loss），就会适当降低噪声（KL loss 增加），使得拟合起来容易一些（重构误差开始下降）；

反之，如果 decoder 训练得还不错时（重构误差小于 KL loss），这时候噪声就会增加（KL loss 减少），使得拟合更加困难了（重构误差又开始增加），这时候 decoder 就要想办法提高它的生成能力了。

变分自动编码器虽然比一般的自动编码器效果要好，而且也限制了其输出的编码(code) 的概率分布，但是它仍然是通过直接计算生成图片和原始图片的均方误差来生成 loss，这个方式并不好。

在之后生成对抗网络中，我们会讲一讲这种方式计算 loss 的局限性，然后会介绍一种新的训练办法，就是通过生成对抗的训练方式来训练网络而不是直接比较两张图片的每个像素点的均方误差

变分自编码器VAE：原来是这么一回事 | 附开源代码 - 知乎

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

autoencoder

VAE

python

Pytorch之经典神经网络Generative Model(二) —— VAE (MNIST) 的相关文章

如何在保留矩阵维度的同时序列化 numpy 数组？

numpy array tostring似乎没有保留有关矩阵维度的信息请参阅这个问题 https stackoverflow com q 30697769 1156707 要求用户发出调用numpy array reshape 有没有办法
发送自动电子邮件时安全输入密码

这很可能是重复的但我已经非常仔细地研究了类似的问题 This https stackoverflow com questions 28393750 secure email without prompting for password r
使用“iloc”时出现“尝试在 DataFrame 切片的副本上设置值”错误

Jupyter 笔记本返回此警告 C anaconda lib site packages pandas core indexing py 337 SettingWithCopyWarning A value is trying to be
当参数为 0 与任何其他整数时，如何为返回不同类型的函数创建重载注释？

是否可以为当参数为时返回不同类型的函数创建重载注释0与任何其他整数 def foo val int gt MyObjectA MyObjectB if val 0 return MyObjectA return MyObjectB 有没有办
出现异常时进行截图

嘿有没有一种方法可以在异常任何异常时捕获屏幕截图我的失败解决方案位于BaseTestCase unittest TestCase子类 class BaseTestCase unittest TestCase classmetho
如何将 Jupyter Notebook 的代码片段与 VSCode 结合使用？

我已经使用 VSCode 一段时间了目前我正在尝试设置代码片段来工作它们似乎适用于简单的 Python py 文件但不适用于 Jupyter Notebook ipynb 文件有什么办法可以让他们一起工作吗片段就在这里 Creat
pandas 系列值之间的过滤

If s is a pandas Series http pandas pydata org pandas docs stable dsintro html series 我知道我可以这样做 b s lt 4 or b s gt 0 但我做
代码运行时出现内存问题（Python、Networkx）

我编写了一个代码来生成具有 379613734 条边的图但由于内存问题代码无法完成当经过 6200 万行时大约会占用服务器内存的 97 所以我杀了它您有解决这个问题的想法吗我的代码是这样的 import os sys impor
Python 中字典的合并层次结构

我有两本词典而我想做的事情有点奇怪基本上我想合并它们这很简单但它们是字典的层次结构我想以这样的方式合并它们如果字典中的项目本身就是字典并且存在于两者中我也想合并这些字典如果它不是字典我希望第二个字典中的值覆盖第一个字典中
如何使用列表理解从列表中删除重复的项目？ [复制]

这个问题在这里已经有答案了如何使用列表理解从列表中删除重复的项目我有以下代码 a 1 2 3 3 5 9 6 2 8 5 2 3 5 7 3 5 8 b b item for item in a if item not in b 但它不
使用 Python 将 Json 转换为换行 Json 标准

我有一个获取嵌套对象并删除所有嵌套的代码使对象平坦 def flatten json y param y Unflated Json return Flated Json out def flatten x name if type x
如何在 Python 中从 C++/C# 紧密实现 ?: ？

在 C 中我可以轻松编写以下内容 string stringValue string IsNullOrEmpty otherString defaultString otherString 有没有一种快速的方法可以在 Python 中做同
Python 请求包含有值的参数和没有值的参数

我正在为 API 编写一个 Python 包装器该 API 支持具有值的查询参数例如param1如下和查询参数do not有价值观例如param2如下即 https example com service param1 value
调度算法，找到设定长度的所有非重叠区间

我需要为我的管理应用程序实现一种算法该算法将告诉我何时可以将任务分配给哪个用户我实现了一个蛮力解决方案它似乎有效但我想知道是否有更有效的方法来做到这一点为了简单起见我重写了算法以对数字列表进行操作而不是数据库查询等下面我将尝
有没有比 ` except: pass` 更简洁的替代方案？

我有一个函数可以按偏好顺序返回多个组的随机成员事情是这样的 def get random foo or bar I d rather have a foo than a bar if there are foos return get
如何在 django-rest-framework 查询集响应中添加注释数据？

我正在为查询集中的每个项目生成聚合 def get queryset self from django db models import Count queryset Book objects annotate Count authors
python 3 configparser.read() 在给定不存在的文件时不会引发异常

当我尝试使用 configparser read 读取不存在的文件时我认为它应该引发异常事实并非如此它返回一个空列表显然我可以测试空列表并引发异常在我看来如果 configparser read 引发 FileNotFound
Python 正则表达式中的 \B+ 与 [\B]+ 与 [^\b]+

我在回答 SO 问题时遇到了一个我不明白的问题我创建了一个简化的示例来说明该问题场景我正在测试两个标记不是随机的英语单词在字符串中至少相距一定距离在这个例子中我们有一个动物列表我们要确保在羊和狼之间至少还有其他三种动物否则
Python - 根据条件调用函数

我想知道是否有一种简洁的方法来根据条件调用函数我有这个 if list 1 some dataframe df myfunction 我想知道这是否有可能三元运算符 http book pythontips com en latest t
我可以在某些网格中打印带有颜色的 pandas 数据框吗？

我有一个 pandas DataFrame 我想突出显示一些数据例如 In 1 import pandas as pd In 2 import numpy as np In 3 df pd DataFrame np reshape ran

随机推荐

RX8025T RTC读写与秒中断

目录一精度二读写时序三写RTC对其内部ms计数的影响四在FPGA中用GPS校正RTC 五 ms维护六 IIC防锁死计数清零七日期计算星期公式一精度二读写时序接口为IIC 读写时序如下图注意 1 写操作写从
PHP常见问题总结

1 为什么会出现这种情况端口什么的都设置正确了解决方法请将本机的IIS服务关闭开启Apache服务 IIS服务的关闭方法可参见 https jingyan baidu com article 0f5fb099e0d7216d8334
理解JPEG文件头的格式

1 JPEG 1 why jpeg jpeg作为图片传输格式使用最为普遍压缩比最高每天我们都会产出和传输大量的jpeg格式数据手机拍出来的格式默认是jpeg 朋友圈各种分享磁盘上积累了大量的jpeg 因此本人一直对jpeg头部数据非
CLIP：创建图像分类器

介绍假设需要对人们是否戴眼镜进行分类但是没有数据或资源训练自定义模型在本教程中你将学习如何使用预训练的CLIP模型创建自定义分类器无需任何训练这种方法称为零快照图像分类它使得能够对在原始CLIP模型训练期间未明确观察到的的类进
并发基础知识(二)[进程间通信·信号]

1 信号信号是进程间通信的一种方式这种方式没有数据传输只是在内核中传递一个信号整数信号的表示是一个整数不同的信号值代表不同的含义当然用户可以自定义信号那么自定义的信号的含义和值由程序员来定和解释 Term Terminat
DVWA-15.Open HTTP Redirect

OWASP将其定义为当 Web 应用程序接受不受信任的输入时可能会导致 Web 应用程序将请求重定向到不受信任输入中包含的 URL 则可能会出现未经验证的重定向和转发通过修改恶意站点的不受信任的 URL 输入攻击者可以成功发起网络钓
OpenGL ES基本流程总结

作为一个学习总结绘制了OpenGL ES中完成一次渲染所需要的一些基本步骤离屏渲染此处是以离屏渲染为例离屏渲染是不直接上屏的而是渲染到缓冲区中那么这块缓冲区就需要我们手动创建也就是上图所示的Framebuffer 其中需要三个
车载以太网入门

车载以太网入门以太网的首要优势之一在于支持多种网络介质因此可以在汽车领域进行使用同时由于物理介质与协议无关因此可以在汽车领域可以做相应的调整与拓展形成一整套车载以太网协议该协议将会在未来不断发展并长期使用车载以太网总体架构正
spring事务传播机制使用及原理

事务事务是逻辑上的一组操作要么都执行要么都不执行事务的四大特性原子性构成事务的所有操作要么都执行完成要么全部不执行不可能出现部分成功部分失败的情况一致性在事务执行前后数据库的一致性约束没有被破坏隔离性数据库中的
Games104 引擎工具链笔记

一 GUI体系 1 Immediate Mode 比如UnityUGUI 优点直接快速缺点逻辑比重大 2 Retained Mode 把要绘制的指令存到一个buffer中统一绘制优点把游戏逻辑和UI渲染分开扩展性强例子 Un
StackOverflow 这么大，它的架构是怎么样的？

伯乐在线补充 Nick Craver 是 StackOverflow 的软件工程师网站可靠性工程师这是解密 Stack Overflow 架构系列的第一篇本系列会有非常多的内容欢迎阅读并保持关注为了便于理解本文涉及到的东西到底
QT5：VS创建的QT项目头文件标红和控件对象无法调用

最近使用VS QT编写代码除了界面和调试比较舒服以外感觉的很不习惯小问题不断问题1 解决方法 1 系统环境变量中添加bin路径 2 属性配置中添加包含目录和库目录问题2 上面这个问题会导致ui调用不了添加的控件对象搞到怀疑人生
SourceTree使用教程（七）--合并某次提交

概述在Git的实际使用场景中未必都是很规矩的拉一个分支开发一个功能等功能测试完成后合并到主分支有很多的场景都是很多人在同一个开发分支上开发然后按照上线的实际需要依次去上传自己的功能模块这个功能模块的提交记录很可能是交叉提交
vasp-自旋轨道耦合（SOC）计算步骤

在VASP中执行自旋轨道耦合 SOC 计算具体的计算步骤如下结构优化获取CONTCAR文件自洽计算 collinear normal VASP calculations 获取CHGCAR文件能带结构计算在此步骤中将KPOINTS
第二十六节：class和焦点的操作管理

1 关于class的操作 IE9以下的getElementsByClassName 方法兼容问题 p Hello World p p class a 增加样式 World p ul ul function getClass classA i
想要成为网络hacker黑客？先来学习这十方面的知识

黑客一词来源于 hacker 在英语中它实际是个中性词本身并没有褒贬之分指的是精通编程计算机网络的人另外专门有一个词 cracker 指那些利用计算机技术侵入他人系统从事非法活动的人但在国内这两个词都被翻译为黑客导致在大部
Unity制作Live2D（一）模型导入

目录序言前期准备导入模型序言在许多游戏当中 Live2D展现出来了优秀的游戏体验通过Live2D效果让平面的游戏人物看起来更加生动玩家也会感受到更多乐趣前期准备前往Live2DCubism官网下载Unity需要的SDKC
cenos6.4 mongodb shell模式常用指令

如果还没有安装mongodb DB服务端用户可以参考该篇文章尝试安装mongodb http blog csdn net zhouzhiwengang article details 51441638 我们的实验环境为操作系统 cent
Flutter中Provider的一般用法（一）

在flutter中Provider是比较常用的Widget Provider通常用来管理value的生命周期通过Create和Dispose 它们是成对出现的可以在Create进行value的初始化操作在dispose进行value的
Pytorch之经典神经网络Generative Model(二) —— VAE (MNIST)

变分编码器 Variational AutoEncoder 是自动编码器的升级版本其结构跟自动编码器是类似的也由编码器和解码器构成回忆一下自动编码器有个问题就是并不能任意生成图片因为我们没有办法自己去构造隐藏向量需要通过一张图

Pytorch之经典神经网络Generative Model(二) —— VAE (MNIST)

Pytorch之经典神经网络Generative Model(二) —— VAE (MNIST) 的相关文章

随机推荐

热门标签