DALL·E 2 解读

2023-11-04

一、导读

论文信息

论文标题: 《Hierarchical Text-Conditional Image Generation with CLIP Latents》
作者/单位：Aditya Ramesh et al. / Open AI
论文链接: http://arxiv.org/abs/2204.06125
代码链接: 非官方实现 https://github.com/lucidrains/DALLE2-pytorch （OpenAI官方实现待更新）
项目主页: 待更新

CLIP（打通文本-图像模型）相关讲解：

扩散模型Diffusion Model相关讲解:

Jonathan Ho et al.“Denoising diffusion probabilistic models.” arxiv Preprint arxiv:2006.11239 (2020).
xjtupanda：DDPM:Denoising Diffusion Probabiblistic Model 去噪扩散概率模型学习笔记
理想主义者：生成模型(四):扩散模型

二、DALL·E 2 模型解读

使用DALL·E 2 从文字（图片下方）生成对应的图像

DALL·E 2 模型总览

DALL·E 2 这个模型的任务很简单：输入文本text，生成与文本高度对应的图片。

它主要包括三个部分：CLIP，先验模块prior和img decoder。其中CLIP又包含text encoder和img encoder。（在看DALL·E 2之前强烈建议先搞懂CLIP模型的训练和运作机制）

DALL·E 2 模型框架总览。虚线上方：训练CLIP过程；虚线下方：由文本生成图像过程

DALL·E 2 训练过程

DALL·E 2是将其子模块分开训练的，最后将这些训练好的子模块拼接在一起，最后实现由文本生成图像的功能。

1. 训练CLIP，使其能够编码文本和对应图像

这一步是与CLIP模型的训练方式完全一样的，目的是能够得到训练好的text encoder和img encoder。这么一来，文本和图像都可以被编码到相应的特征空间。对应上图中的虚线以上部分。

2. 训练prior，使文本编码可以转换为图像编码

论文中对于该步骤作用的解释为：

A prior P(zi|y) that produces CLIP image embeddings zi conditioned on captions y .

实际的训练过程为：将CLIP中训练好的text encoder拿出来，输入文本y，得到文本编码zt。同样的，将CLIP中训练好的img encoder拿出来，输入图像 x 得到图像编码zi。我们希望prior能从zt获取相对应的zi。假设zt经过prior输出的特征为zi′，那么我们自然希望zi′与zi越接近越好，这样来更新我们的prior模块。最终训练好的prior，将与CLIP的text encoder串联起来，它们可以根据我们的输入文本y生成对应的图像编码特征zi了。关于具体如何训练prior，有兴趣的小伙伴可以精度一下原文，作者使用了主成分分析法PCA来提升训练的稳定性。

prior训练过程

在DALL·E 2 模型中，作者团队尝试了两种先验模型：自回归式Autoregressive (AR) prior 和扩散模型Diffusion prior [1]。实验效果上发现两种模型的性能相似，而因为扩散模型效率较高，因此最终选择了扩散模型作为prior模块。本文不具体解释扩散模型，大家可以查阅参考博文，或者我后期再整理相关知识。

3. 训练decoder生成最终的图像

论文中对于该步骤作用的解释为：

A decoder P(x|zi,y) that produces images x conditioned on CLIP image embeddingszi (and optionally text captions y ).

也就是说我们要训练decoder模块，从图像特征zi还原出真实的图像 x ，如下图左边所示。这个过程与自编码器类似，从中间特征层还原出输入图像，但又不完全一样。我们需要生成出的图像，只需要保持原始图像的显著特征就可以了，这样以便于多样化生成，例如下图右边的示例。

左：训练decoder的过程。右：图像经过img encoder再经decoder得到重建图像。顶部图像为输入。

DALL-E 2使用的是改进的GLIDE模型 [2]。这个模型可以根据CLIP图像编码的zi，还原出具有相同与 x 有相同语义，而又不是与 x 完全一致的图像。

DALL·E 2 推理过程（由文本生成图像过程）

经过以上三个步骤的训练，已经可以完成DALL·E 2预训练模型的搭建了。我们这事丢掉CLIP中的img encoder，留下CLIP中的text encoder，以及新训练好的prior和decoder。这么一来流程自然很清晰了：由text encoder将文本进行编码，再由prior将文本编码转换为图像编码，最后由decoder进行解码生成图像。

DALL·E 2 推理过程

三、DALL·E 2实验效果和不足之处

实验效果

看下DALL·E 2 在MS-COCO prompts上的生成效果：

DALL·E 2 在MS-COCO prompts上的生成效果

不足之处

本文作者提到了DALL·E 2的三个不足之处：

DALL·E 2 容易将物体和属性混淆，比如下图 DALL·E 2（unCLIP) 与GLIDE的对比。提示的文字为：“a red cube on top of a blue cube”。

DALL·E 2与GLIDE由“a red cube on top of a blue cube”生成的图像

DALL·E 2 不容易将红色和蓝色分辨出来。这可能来源于CLIP的embedding过程没有将属性绑定到物体上；并且decoder的重建过程也经常混淆属性和物体，如下图所示，例如中间的柯基图片，有的重建结果将其帽子和领结的颜色搞反了。

decoder经常混淆属性和物体

2. DALL·E 2对于将文本放入图像中的能力不足，如下图所示，我们希望得到一个写着deep learning的标志，而标志却将单词/词组拼写得很离谱。这个问题可能来源于CLIP embedding不能精确地从输入地文本提取出“拼写”信息。

DALL·E 2由“A sign that says deep learning.”生成的图像

3.DALL·E 2 在生成复杂场景图片时，对细节处理有缺陷，如下图所示生成Times Square的高质量图片。这个可能来源于decoder的分层（hierarchy）结构，先生成64 × 64的图像，再逐步上采样得到最终结果的。如果将decoder先生成的图像分辨率提高，比如从64 × 64提升到128 × 128，那么这个问题可能可以缓解，但要付出更大计算量和训练成本的代价。

DALL·E 2由“A high quality photo of Times Square.”生成的图像

待更新内容：代码实现以及上手使用（OpenAI仍未开源，目前可先使用非官方实现代码）

Reference

[1] Denoising diffusion probabilistic models

[2] GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DALL·E 2 解读的相关文章

LSTM 错误：AttributeError：“tuple”对象没有属性“dim”

我有以下代码 import torch import torch nn as nn model nn Sequential nn LSTM 300 300 nn Linear 300 100 nn ReLU nn Linear 300 7
为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

我试图找出 numpy pytorch gpu cpu float16 float32 数字之间的舍入差异而我发现的内容让我感到困惑基本版本是 a torch rand 3 4 dtype torch float32 b torch r
pytorch 中的 autograd 可以处理同一模块中层的重复使用吗？

我有一层layer in an nn Module并在一次中使用两次或多次forward步这个的输出layer稍后输入到相同的layer pytorch可以吗autograd正确计算该层权重的梯度 def forward x x self
BatchNorm 动量约定 PyTorch

Is the 批归一化动量约定 http pytorch org docs master modules torch nn modules batchnorm html 默认 0 1 与其他库一样正确例如Tensorflow默认情况下似乎
如何更新 PyTorch 中神经网络的参数？

假设我想将神经网络的所有参数相乘PyTorch 继承自的类的实例torch nn Module http pytorch org docs master nn html torch nn Module by 0 9 我该怎么做呢 Let n
pytorch 的 IDE 自动完成

我正在使用 Visual Studio 代码最近尝试了风筝这两者似乎都没有 pytorch 的自动完成功能这些工具可以吗如果没有有人可以推荐一个可以的编辑器吗谢谢你使用Pycharmhttps www jetbrains co
预期设备类型为 cuda 的对象，但在 Pytorch 中获得了设备类型 cpu

我有以下计算损失函数的代码 class MSE loss nn Module metric L1 L2 norms or cosine similarity mode training or evaluation mode def init
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
如何在不安装pytorch的情况下使用pytorch预训练模型？

我只想在 pytorch 中使用预先训练的模型而不安装整个包我可以从 pytorch 复制模型模块吗恐怕你不能这样做为了运行模型你不仅需要经过训练的权重 pth tar 文件还需要网络的结构即层它们如何相互连接等该网络结
Google Colab 使用 Transformers 和 PyTorch 微调 BERT Base Case 时出现间歇性“RuntimeError: CUDA out of memory”错误

我正在运行以下代码来微调 Google Colab 中的 BERT Base Cased 模型有时代码第一次运行良好没有错误其他时候相同的代码使用相同的数据会导致 CUDA 内存不足错误以前重新启动运行时或退出笔记本返回笔
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
Pytorch 中是否有一种方法可以以可反向传播的方式计算唯一值的数量？

给定以下张量这是网络的结果注意 grad fn tensor 121 241 125 1 108 238 125 121 13 117 121 229 161 13 0 202 161 121 121 0 121 121 242 125
无法在 Windows 10 上构建 Detectron2

尽管 Windows 上的 Detectron2 没有官方支持但有很多可用的说明我尝试按照这些说明进行操作但最终出现了相同的错误这是我的设置 OS Windows 10 专业版 19043 1466 微软视觉工作室 2019 CUD
softmax_cross_entropy_with_logits 的 PyTorch 等效项

我想知道 TensorFlow 是否有等效的 PyTorch 损失函数softmax cross entropy with logits TensorFlow 是否有等效的 PyTorch 损失函数softmax cross entropy
PyTorch 如何计算二阶雅可比行列式？

我有一个正在计算向量的神经网络u 我想计算关于输入的一阶和二阶雅可比矩阵x 单个元素有人知道如何在 PyTorch 中做到这一点吗下面是我项目中的代码片段 import torch import torch nn as nn class
PyInstaller 可执行文件无法获取 TorchScript 源代码

我正在尝试使包含 PyTorch 的脚本在 Windows 中可执行我的脚本的导入是 import numpy core multiarray which is a workaround for ImportError numpy cor
带有填充掩码的 TransformerEncoder

我正在尝试使用 src key padding mask 不等于 none 来实现 torch nn TransformerEncoder 想象输入的形状src 20 95 二进制填充掩码的形状为src mask 20 95 填充标记的位置
Pytorch LSTM：计算交叉熵损失的目标维度

我一直在尝试在 Pytorch 中使用 LSTM LSTM 后跟自定义模型中的线性层但在计算损失时出现以下错误 Assertion cur target gt 0 cur target lt n classes failed 我用以下函数
如何使用 PyTorch 沿特定维度进行热编码？

我有一个大小的张量 3 15 136 where 3 is batch size 15 sequence length and 136 is tokens 我想使用中的概率来单热我的张量tokens维度 136 为此我想提取序列长度中每个
CUDA 与 DataParallel：为什么有区别？

我有一个简单的神经网络模型我应用cuda or DataParallel 在模型上如下所示 model torch nn DataParallel model cuda OR model model cuda 当我不使用 DataPara

随机推荐

html——多文件上传（基于springboot后台）

一文件的上传 1 前端html上传文件 1 html代码
python定时运行py文件_Python 定时运行脚本

1 代码 Python 代码 coding utf 8 import sys import os import datetime import time class ArgsDealwith def arg environment self
ubuntu系统git代码提交

上传代码步骤 git status git add git commit m ti jiao dai ma 如果是多行log 则为如下命令 git commit m ti jiao dai ma 注意多行时对应的是单引号 git push
Mysql外键设置中CASCADE、NO ACTION、RESTRICT、SET NULL区别意义

CASCADE 对父表进行delete update操作时子表也会delete update掉关联的记录更新删除主表中记录时自动更新删除子表中关联记录 RESTRICT 如果想要删除更新父表的记录时而子表中有关联该父表的记录则
（23）目标检测算法之YOLOv6 (1)全流程指南：环境安装、模型配置、训练及推理

目标检测算法之YOLOv6 1 全流程指南环境安装模型配置训练及推理本文向将介绍 YOLOv6 的整体框架并提供详细的教程链接官方论文 YOLOv6 A Single Stage Object Detection Framewo
websocket 注入 service对象的方法

websocket注入service对象的方法 SpringBoot WebSocket SpringBoot WebSocket 本人使用 Autowired 发现注入不进去断点发现service对象为null 猜测是 ServerEn
Android Https相关完全解析当okHttp遇到Https

一概述其实这篇文章理论上不限于okhttp去访问自签名的网站不过接上篇博文了就叫这个了首先要了解的事 okhttp默认情况下是支持https协议的网站的比如https www baidu com https github com
输入网址后，会经历哪些步骤

一域名解析 DNS解析通过主机名最终得到该主机对应的IP地址的过程叫做域名解析 DNS的解析步骤参考文章 https blog csdn net Lammonpeter article details 81358387 1 检查浏
ESP32-C2模组使用AT固件示例

ESP32C2 AT固件使用 ESP32 C2模组如图1 1所示图1 1 ESP32 C2模组 ESP32 C2开发板如图1 2所示图1 2 ESP32 C2开发方案亮点 1 完整的 Wi Fi 子系统符合 IEEE 802 1
vscode java导入jar包

配置setting json include 列表中是jar包的路径 java project referencedLibraries include lib jar
jeesite4文件上传

图片上传一般情况下的图片上传 1 添加图片上传标签 2 修改service中的save方法将图片保存到实体属性中 1 修改图片上传标签修改后的如下效果将图片保存到对象的拓展表中 1 代码如下 2 注意事项一般情况下的图片上传 1
el-table :span-method=“arraySpanMethod“ 合并单元格 vue3

垂直方向上合并单元格具体使用data就是接口获取的值表格数据 state rowMergeArrs rowMergeHandle state needMergeArr data span method arraySpanMethod co
第10章生物医学信号小波分析

一小波的定义及特点二连续小波变换三离散小波变换第一部分是尺度函数相当于低通滤波第二部分是小波函数相当于高通滤波向下箭头是降阶处理抽取法四心电信号的小波分析去掉2 1 2 2 2 8对应的信号然后进行重构心电信
你真的了解SEO搜索引擎优化吗？

你真的了解SEO搜索引擎优化吗小陈这就带你了解seo 说到SEO搜索引擎优化谁都知道百度搜索引擎谷歌搜索引擎还有神马搜狗等朗朗上口似乎都挺了解的但你真的了解SEO搜索引擎优化吗近日小编看到了有关这方面的内容茅塞顿开想
C++实现弧度转角度，亲测可用

代码在这里拿走不谢
最近大火的 prompt 论文集锦

近来作为nlp领域新宠 prompt频频出现在大众视野小编整理了一些优质论文欢迎大家一起交流 1 论文名称 P Tuning v2 Prompt Tuning Can Be Comparable to Fine tuning Unive
Unity--Physics.OverlapSphere的参数LayerMask和GameObject的layer

Layer介绍 Unity中是用int32来表示32个Layer层 int32表示二进制一共有32位 0 31 在Unity中每个GameObject都有Layer属性默认的Layer都是Default 在Unity中可编辑的Layer共
buck芯片能产生负压吗？

buck芯片能产生负压吗 1 前言 2 分析 1 前言有的运放需要正负压供电负压的产生一般是由电源芯片处理将正压转换为负压那么问题来了 buck能产生负压么 2 分析开关电源有三种基本拓扑 buck boost buck boos
敏捷开发系列之旅第三站（认识FDD特征驱动开发）

上篇文章中我们探讨了什么是XP极限编程以及极限编程的管理思想核心价值观等等在敏捷开发之旅的第三站我想要和大家一起分享FDD特征驱动开发方法特征驱动开发 Feature Driven Development 还是老规矩讨论之前
DALL·E 2 解读

目录一导读论文信息 CLIP 打通文本图像模型相关讲解扩散模型Diffusion Model相关讲解二 DALL E 2 模型解读 DALL E 2 模型总览 DALL E 2 训练过程 DALL E 2 推理过程由文本生成