扩散模型实战(三):扩散模型的应用

2023-11-15

推荐阅读列表:

扩散模型实战(一):基本原理介绍

扩散模型实战(二):扩散模型的发展

       扩散只是一种思想,扩散模型也并非固定的深度网络结构。除此之外,如果将扩散的思想融入其他领域,扩散模型同样可以发挥重要作用。

​       在实际应用中,扩散模型最常见、最成熟的应用就是完成图像生成任务,本书同样聚焦于此。不过即使如此,扩散模型在其他领域的应用仍不容忽视,可能在不远的将来,它们就会像在图像生成领域一样蓬勃发展,一鸣惊人。

本文将介绍扩散模型在如下领域的应用:

  • 计算机视觉;
  • 时序数据预测;
  • 自然语言处理;
  • 基于文本的多模态;
  • AI基础科学;

1)计算机视觉

       计算机视觉包括2D视觉和3D视觉两个方面,这里仅介绍扩散模型在2D图像领域的应用。

       图像类的应用十分广泛,而且与人们的日常生活息息相关。在扩散模型出现之前,与图像处理相关的研究已经有很多了,而扩散模型在许多图像处理任务中都可以很好地发挥作用,具体如下。

  • 图像分割与目标检测,图像分割与目标检测是计算机视觉领域的经典任务,在智能驾驶方面备受关注。而在加入扩散的方法之后,就可以获取更精准的分割和检测结果了,例如Meta AI的Se 制扩散模型可以生成分割Mask图(如图3-1所示),检测扩散模型DiffusionDet同样可以端到端地从随权经光根逐步生成检测框(如图3-2所示)。不过,扩散模型仍然存在生成速度慢的问题,在应用于一些需检测的场景时还需继续化化。

图3-1 SegDiff生成的分割Mask图

图3-2 DiffusionDet生成的检测框

  • 图像超分钟率,图像超分钟率是一项能够将低分辨年图像重建为高分辨率图体,同时保证图像市药线贯的技术。CDM(Cascaded DiffusionModel,组联扩教模型)通过采用事联多个扩散模型的方式,分级式地逐步放大分钟率,实现了图像超分钟车,图3-3给出了一个使用CDM实现图像超分拼串的示例。

图3-3 使用CDM实现图像超分辨率

  • 图像修复、图像翻译和图像编辑。图像修复、图像翻译和图像编辑是对图像的部分或者全部区域执行的操作,包括缺失部分修补、分格迁移、内容替换等。Palette是一个集成了图像修复、图像翻译和图像编辑等功能的扩散模型。它可以在一个模型中完成不同的图像级任务。图3-4给出了一个使用Palette修复图像的示例。

图3-4 使用Palette修复图像

2)时序数据预测

       时序数据预测旨在根据历史观测数据预测未来可能出现的数据,如空气温度预测、股票价格预测、销售与产能预测等。时序数据预测同样可以视为生成任务,即基于历史数据的基本条件来生成未来数据,因此扩散模型也能发挥作用。

       TimeGrad是首个在多元概率时序数据预测任务中加入扩散思想的自回归模型。为了将扩散过程添加到历史数据中,TimeGrad首先使用RNN (Recurrent Neural Network,循环神经网络)处理历史数据并隐空间中,然后对历史数据添加噪声以实现扩散过程,由此处理数千维度的多元数据并完成预测任务。图3-5展示了TimeGrad在城市交通流量预测任务中的表现。

图3-5 TimeGrad在城市交通流量预测任务中的表现

       时序数据预测在实际生活中的应用非常广泛。在过去,传统机器学习算法以及深度学习的RNN系列方法一直处于主导地位。如今,扩散模型以及表现出巨大的潜力,而这仅仅是个开始。

3)自然语言处理

       自然语言领域也是人工智能的一个重要发展方向,旨在研究人类语言与计算机通信的相关问题,最近"爆火"的ChatGPT就是一个自然语言生成问答模型。

       实际上,扩散模型同样可以完成语言类的生成任务。只要将自然语言类的句子分调并转换为词向量之后,就可以通过扩散的方法来学习自然语言的语句生成,进而完成自然语言领域一些更复杂的任务,如语言翻译、问答对话、搜索补全、情感分析、文章续写等。

       Diffusion-LM是首个将扩散模型应用到自然语言领域的扩散语言模型。该模型旨在解决如何将连续的扩散过程应用到离散的非连续化文本的问题,由此实现语言类的高细粒度可控生成。经过测试,Diffusion LM在6种可控文本生成任务中取得非常好的生成效果。

       实际上,后续也有非常多的基于Diffusion-LM的应用。不过在自然语言领城,目前的主流模型仍然是GPT (Generative Pre-trained Transformer)。

4)基于文本的多模态

      多模态信息指的是多种数据类型的信息,包括文本、图像、音/视频、3D物体等、多模态信息的交互是人工智能领域的研究热点之一,对于AI理解人类世界、帮助人类处理多种事务具有重要意义。在诸如DALLE-2和StableDiffusion等图像生成扩散模型以及ChatGPT等语言模型出现之后,多模态开始逐渐演变为基于文本和其他模态的交互,如文本生成图像、文本生成视频、文本生成3D等。

  • 文本生成图像。文本生成图像是扩散模型最流行,最成熟的应用,输入文本提示语或仅仅输入几个词,扩散模型就能根据文字描述生成对应的图片。开头介绍的文名鼎磊的文容生成DALLE-2、Imagen以及完全开源的Stable Diffision等,都属于文本和图像的多模态扩散模型。图3-6给出了几个使用Imagen实现文字生成图像的示例,后面将重点介绍与文本生成图像相关的应用。

图3-6 使用Imagen实现文字生成图像的几个示例

  • 文本生成视频。与文本生成图像类似,文本生成视频扩散模型能够将输入的文本提示语转换为相应视频流。不同的是,视频的前后帧需要保持极佳的连贯性。文本生成视频也有非常广泛的应用,如Meta AI的Mate-A-Video(如图3-7所示)以及能够精细控制视频生成的ControlNet Video等。图3-8展示了Hugging Face上的ControlNet Video Space应用界面。

图3-7 Meta Al的Make-A-Video:一条身看超人外衣、肩披红色斗篷的狗在天空中翱翔

图3-8 Hugging Face上的ControlNet Video Space应用界面

  • 文本生成3D。同样,文本生成3D扩散模型能够将输入的文本转换为相应的3D物体。稍有不同的是,3D物体的表征有多种方式,如点云、网格、NeRF等。不同的应用在实现方式上也略有差异,例如:DiffRF提出了通过扩散的方法实现从文本生成3D辐射场的扩散模型,如图3-9所示;基于二维图像生成对应的3D点云,我们可以在Hugging Face上体验官方给出的演示实例,如图3-10所示。虽然目前文本生成3D技术仍处于起步阶段,但其应用前景非常广阔,包括室内设计、游戏建模、元宇宙数字人等。

图3-9 使用DiffRF生成3D沙发

图3-10 Hugging Face上的3DFuse Space界面

5)AI基础科学

       Al基础科学又称Al for Science,它是人工智能领域具有广阔前景的分支之一,甚至能够发展为造福人类的技术。与AI基础科学相关的研究成果也不止一次荣登《自然》杂志。例如,2021年DeepMind研究的AlphaFold 2可以预测人类世界98.5%的蛋白质,2022年DeepMind用强化学习控制核聚变反应堆内过热的离子体等。

       扩展模型对生成类的任务一直表现十分专业,AI基础科学中生成预测类的研究当然也少不了扩展模型的参与。SMCDIT创建了一种扩散模型,该扩散模型可以根据给定的模体结构生成多样化的支架蛋白质,如图3-11所示。CDVAE则提出了一种扩散晶体变分自编码器模型,旨在生成和优化具有固定周期性原子结构的材料,如图3-12所示。

图3-11 SMCDIT生成的多样化的支架蛋白质

图3-12 CDVAE生成的遵循Langevin动力学的不同原子结构的材料

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

扩散模型实战(三):扩散模型的应用 的相关文章

  • 用户画像-标签体系

    1 前言 最近在学习用户画像 翻看了 彭友会 的七十多份资料 简单过了一遍赵宏田老师的书 最近又看了许多微信公众号里的文章 整体感受就是 资料太杂 内容太乱 重复的太多 相互间也会有些冲突 但大致可以归为两类 赵宏田老师的一套 另外其它的一

随机推荐

  • PDF文件复制文字

    最近在看电子书时 发现有的一些 PDF 文件看起来像是扫描的 但能直接复制文字 有的则不能 查找相关资料后明白了 不能复制的pdf文件 01 pdf文件加密了 02 扫描和图形格式做的PDF文件 PDF文件如果加密了 对于一些不允许做修改
  • Android关于AutoService、Javapoet讲解

    AutoService会自动在META INF文件夹下生成Processor配置信息文件 该文件里就是实现该服务接口的具体实现类 而当外部程序装配这个模块的时候 就能通过该jar包META INF services 里的配置文件找到具体的实
  • ChatGPT不能代替人类写作的四个原因

    近期留学圈最火的C位当属ChatGPT 作为一款OpenAI开发的语言模型 ChatGPT在文本生成上的优秀表现大大助力了母语非当地语言的留学生们 写邮件 翻译并理解文本乃至写代码 ChatGPT似乎所向披靡 不少同学也产生了这个想法 用它
  • pageHelper分页失效解决方案

    前言 pageHelper是一款优秀的Mybatis分页插件 在项目中可以非常便利的使用 使开发效率得到很大的提升 但不支持一对多结果映射的分页查询 所以在平时的使用时 对于一对多分页会出现分页错误 这篇文章主要对pageHelper分页错
  • activiti学习之服务任务

    写在前面 对于工作流 我们使用最多的是用户任务节点 用户任务节点就是给用户来生成任务的 需要人来手动的处理 而与之对应的还有服务任务节点 这种类型的节点需要人手动的参与而是程序来执行 即执行某个类的某个方法 这个类一般是org activi
  • Java 实现 MD5 加密算法

    1 MD5 加密算法 1 1 MD5 算法介绍 MD5 消息摘要算法 英文 MD5 Message Digest Algorithm 一种被广泛使用的密码散列函数 可以产生出一个128位 16字节 的散列值 hash value 用于确保信
  • 子图匹配算法——VF2算法讲解

    讲的很通透了 https zhuanlan zhihu com p 259393192
  • CSS五款超好用的布局网站

    CSS Grid Generator https cssgrid generator netlify app CSS Layout https csslayout io Flexbox Generator https loading io
  • vtkdicom0.8_vtk9.2_dcmtk3.6.7_qt6.2编译OK

    目录 0 结果展示 1 cmake要点 2 编译报错解决 3 参考链接 0 结果展示
  • 吃透Chisel语言.23.Chisel时序电路(三)——Chisel移位寄存器(Shift Register)详解

    Chisel时序电路 三 Chisel移位寄存器 Shift Register 详解 上一篇文章介绍了Chisel计数器以及一些高级用法 内容很多 学下来肯定收获也会很多 除了计数器以外 还有一种寄存器的应用十分广泛 那就是移位寄存器 这一
  • Linux Test Project(一)

    http www vimlinux com lipeng 2014 09 12 ltp Testing Linux one syscall at a time LTP是从SGI开始的 后由IBM 思科 富士通 SUSE Redhat等组织开
  • Java多线程下 ThreadLocal 的应用实例

    ThreadLocal很容易让人望文生义 想当然地认为是一个 本地线程 其实 ThreadLocal并不是一个 Thread 而是 Thread 的局部变量 也许把它命名为 ThreadLocalVariable更容易让人理解一些 当使用
  • jQuery Ajax 初始化方法

    ajaxSetup headers Authorization auth token cache false 禁用缓存 dataType json contentType application json contentType appli
  • 《深入理解java虚拟机》笔记

    深入理解java虚拟机 走进java java不仅仅是一门编程语言 还是一个由一系列计算机软件和规范形成的技术体系 她有以下优点 结构严谨 面向对象 摆脱硬件平台的限制 实现了一次编写 到处运行 提供了一个相对安全的内存管理和访问机制 有一
  • 面向文本和视觉线索联合推断的多模态上下文推理方法

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 报告题目 面向文本和视觉线索联合推断的多模态上下文推理方法 内容简介 联合文本和视觉线索条件推理任务是一项复杂多模态推理任务 其中 文本线索提供与视觉内容互补的先验假设或者外部知
  • 学习笔记-创建赫夫曼树

    赫夫曼树 给定 n 个权值作为 n 个叶子结点 构造一棵二叉树 若该树的带权路径长度 wpl 达到最小 称这样的二叉树为最优二叉树 也称为哈夫曼树 Huffman Tree 还有的书翻译为霍夫曼树 赫夫曼树是带权路径长度最短的树 权值较大的
  • 学会项目成本管理计算,PMP计算题就是送分题

    学会项目成本管理计算 PMP计算题就是送分题 PMP中的计算主要在 lt 项目成本管理 gt 的控制成本部分 服务于挣值管理 EVM Earned Value Management 挣值分析 EVA Earned Value Analysi
  • 【知识图谱】基本概念&数据&综合应用&具体使用

    知识图谱 基本概念 数据 综合应用 具体使用 1 基本概念 1 1知识图谱组成 1 2 应用 1 2 1 应用一 医疗领域方向检索 1 2 2 应用二 金融领域反欺诈 金融知识图谱 1 2 3 推荐系统 2 数据 2 1 文本数据 2 2
  • vtk.js+react 实现ArrowSource 平移,缩放,旋转

    vtk js react 实现ArrowSource 平移 缩放 旋转 MatrixBuilder 矩阵构造器 ArrowSource 箭头 实现代码 MatrixBuilder 矩阵构造器 实现方法主要使用到的APIMatrixBuild
  • 扩散模型实战(三):扩散模型的应用

    推荐阅读列表 扩散模型实战 一 基本原理介绍 扩散模型实战 二 扩散模型的发展 扩散只是一种思想 扩散模型也并非固定的深度网络结构 除此之外 如果将扩散的思想融入其他领域 扩散模型同样可以发挥重要作用 在实际应用中 扩散模型最常见 最成熟的