DiffusionDet源码阅读(1)

2023-05-16

本文仅仅适用于已经通读过全文的小伙伴

本文代码节选自 mmdet 中的 DiffusionDet 代码，目前该代码还处于 Development 阶段，所以我博客里写的代码和之后的稳定版本可能稍有不同，不过不用担心，我们只看最关键的部分

DDPM中扩散部分有个参数 β \beta β:

q ( z t ∣ z t − 1 ) : = N ( z t ; 1 − β t z t − 1 , β t I ) q(z_t | z_{t-1}) := \mathcal{N} (z_{t}; \sqrt{1 - \beta_t} z_{t-1}, \beta_t \bf{I} ) q(zt∣zt−1):=N(zt;1−βt zt−1,βtI)

这就是每次的加噪过程，也可以视为 z t − 1 z_{t-1} zt−1先经过一个缩放，再加一个随机噪声之后，就成了 z t z_{t} zt。
每次加噪声通过一个参数 β t \beta_t βt来控制，这个参数是人为给定的，而不是可学习的，由于：

q ( z t ∣ z 0 ) : = N ( z t ; α ˉ t z 0 , ( 1 − α ˉ t ) I ) q(z_t | z_{0}) := \mathcal{N} (z_{t}; \sqrt{ \bar{\alpha}_t } z_{0}, (1-\bar{\alpha}_t) \bf{I} ) q(zt∣z0):=N(zt;αˉt z0,(1−αˉt)I)
即：

z t = α ˉ t z 0 + ϵ 1 − α ˉ t , w h e r e ϵ ∈ N ( 0 , I ) z_t = \sqrt{ \bar{\alpha}_t } z_{0} + \epsilon \sqrt{1 - \bar{\alpha}_t}, \ \ where \ \ \epsilon \in \mathcal{N}(0, \bf{I}) zt=αˉt z0+ϵ1−αˉt , where ϵ∈N(0,I)

在给定 z 0 z_{0} z0 的基础上， q ( z t ∣ z 0 ) q(z_t | z_{0}) q(zt∣z0) 也是一个高斯分布，其中：

α t = 1 − β t α ˉ t = Π s = 0 t α s \alpha_t = 1 - \beta_t \\ \bar{\alpha}_t = \Pi_{s=0}^t \alpha_s αt=1−βtαˉt=Πs=0tαs

当 α ˉ t \bar{\alpha}_t αˉt 取值趋近于0时， z t z_t zt 可以视为一个标准的高斯分布，在DiffusionDet中， β 1 : T \beta_{1:T} β1:T取了一系列零到一，且逐渐变大的值，以下是生成 β \beta β 的代码，这里我们取 T = 1000 T=1000 T=1000，即共采样 1000 1000 1000 步

def cosine_beta_schedule(timesteps, s=0.008):
    """Cosine schedule as proposed in
    https://openreview.net/forum?id=-NEXDKk8gZ."""
    steps = timesteps + 1
    x = torch.linspace(0, timesteps, steps, dtype=torch.float64)
    alphas_cumprod = torch.cos(
        ((x / timesteps) + s) / (1 + s) * math.pi * 0.5)**2
    alphas_cumprod = alphas_cumprod / alphas_cumprod[0]
    betas = 1 - (alphas_cumprod[1:] / alphas_cumprod[:-1])
    return torch.clip(betas, 0, 0.999)

c o s ( x ) cos(x) cos(x)和 c o s 2 ( x ) cos^2(x) cos2(x) 两个函数的曲线，红线是前者，蓝线是后者，二者有同一个零点 ( π 2 , 0 ) (\frac{\pi}{2}, 0) (2π,0)

请添加图片描述

这是 β \beta β的曲线

请添加图片描述

接下来就是上边计算 α \alpha α和 α ˉ \bar{\alpha} αˉ之类的代码：

    def _build_diffusion(self):
        betas = cosine_beta_schedule(self.timesteps)
        alphas = 1. - betas
        alphas_cumprod = torch.cumprod(alphas, dim=0)
        alphas_cumprod_prev = F.pad(alphas_cumprod[:-1], (1, 0), value=1.)

        self.register_buffer('betas', betas)
        self.register_buffer('alphas_cumprod', alphas_cumprod)
        self.register_buffer('alphas_cumprod_prev', alphas_cumprod_prev)

        # calculations for diffusion q(x_t | x_{t-1}) and others
        self.register_buffer('sqrt_alphas_cumprod', torch.sqrt(alphas_cumprod))
        self.register_buffer('sqrt_one_minus_alphas_cumprod',
                             torch.sqrt(1. - alphas_cumprod))
        self.register_buffer('log_one_minus_alphas_cumprod',
                             torch.log(1. - alphas_cumprod))
        self.register_buffer('sqrt_recip_alphas_cumprod',
                             torch.sqrt(1. / alphas_cumprod))
        self.register_buffer('sqrt_recipm1_alphas_cumprod',
                             torch.sqrt(1. / alphas_cumprod - 1))

        # calculations for posterior q(x_{t-1} | x_t, x_0)
        # equal to 1. / (1. / (1. - alpha_cumprod_tm1) + alpha_t / beta_t)
        posterior_variance = betas * (1. - alphas_cumprod_prev) / (
            1. - alphas_cumprod)
        self.register_buffer('posterior_variance', posterior_variance)

        # log calculation clipped because the posterior variance is 0 at
        # the beginning of the diffusion chain
        self.register_buffer('posterior_log_variance_clipped',
                             torch.log(posterior_variance.clamp(min=1e-20)))
        self.register_buffer(
            'posterior_mean_coef1',
            betas * torch.sqrt(alphas_cumprod_prev) / (1. - alphas_cumprod))
        self.register_buffer('posterior_mean_coef2',
                             (1. - alphas_cumprod_prev) * torch.sqrt(alphas) /
                             (1. - alphas_cumprod))

这三行计算了 β t \beta_t βt, α ˉ t \bar{\alpha}_t αˉt 和 α ˉ t − 1 \bar{\alpha}_{t-1} αˉt−1，其长度都是 T T T

        alphas = 1. - betas
        alphas_cumprod = torch.cumprod(alphas, dim=0)
        alphas_cumprod_prev = F.pad(alphas_cumprod[:-1], (1, 0), value=1.)

        self.register_buffer('betas', betas)
        self.register_buffer('alphas_cumprod', alphas_cumprod)
        self.register_buffer('alphas_cumprod_prev', alphas_cumprod_prev)

q ( z t ∣ z t − 1 ) : = N ( z t ; 1 − β t z t − 1 , β t I ) q(z_t | z_{t-1}) := \mathcal{N} (z_{t}; \sqrt{1 - \beta_t} z_{t-1}, \beta_t \bf{I} ) q(zt∣zt−1):=N(zt;1−βt zt−1,βtI)

接下来计算 α ˉ t \sqrt{\bar{\alpha}_{t}} αˉt ， 1 − α ˉ t \sqrt{1 - \bar{\alpha}_{t}} 1−αˉt ， log ⁡ ( 1 − α ˉ t ) \log{(1-\bar{\alpha}_{t})} log(1−αˉt)， 1 α ˉ t \frac{1}{\sqrt{\bar{\alpha}_{t}}} αˉt 1和 1 α ˉ t − 1 \sqrt{\frac{1}{\bar{\alpha}_t} - 1} αˉt1−1

        # calculations for diffusion q(x_t | x_{t-1}) and others
        self.register_buffer('sqrt_alphas_cumprod', torch.sqrt(alphas_cumprod))
        self.register_buffer('sqrt_one_minus_alphas_cumprod',
                             torch.sqrt(1. - alphas_cumprod))
        self.register_buffer('log_one_minus_alphas_cumprod',
                             torch.log(1. - alphas_cumprod))
        self.register_buffer('sqrt_recip_alphas_cumprod',
                             torch.sqrt(1. / alphas_cumprod))
        self.register_buffer('sqrt_recipm1_alphas_cumprod',
                             torch.sqrt(1. / alphas_cumprod - 1))

DDPM文中假设，后验分布 q ( z t − 1 ∣ z t , z 0 ) q(z_{t-1} | z_t, z_0) q(zt−1∣zt,z0)也是高斯分布，有：

q ( z t − 1 ∣ z t , z 0 ) = N ( z t − 1 ; μ ~ ( z t , z 0 ) , β t ~ I ) q(z_{t-1} | z_t, z_0) = \mathcal{N} (z_{t-1} ; \tilde{\mu}(z_t, z_0), \tilde{\beta_t} \bm{I}) q(zt−1∣zt,z0)=N(zt−1;μ~(zt,z0),βt~I)

算式整理后有：

μ ~ t ( z t , z 0 ) = α ˉ t − 1 β t 1 − α ˉ t z 0 + α t ( 1 − α ˉ t − 1 ) 1 − α ˉ t z t \tilde{\mu}_t(z_t, z_0) = \frac{ \sqrt{\bar{\alpha}_{t-1}} \beta_t }{ 1 - \bar{\alpha}_t } z_{0} + \frac { \sqrt{\alpha_t} (1 - \bar{\alpha}_{t-1}) } { 1 - \bar{\alpha}_t } z_{t} μ~t(zt,z0)=1−αˉtαˉt−1 βtz0+1−αˉtαt (1−αˉt−1)zt

β ~ t = 1 − α ˉ t − 1 1 − α ˉ t β t \tilde{\beta}_{t} = \frac { 1 - \bar{\alpha}_{t-1} } { 1 - \bar{\alpha}_t } \beta_{t} β~t=1−αˉt1−αˉt−1βt

接下来的几行代码用来计算这几个系数：

        # calculations for posterior q(x_{t-1} | x_t, x_0)
        # equal to 1. / (1. / (1. - alpha_cumprod_tm1) + alpha_t / beta_t)
        posterior_variance = betas * (1. - alphas_cumprod_prev) / (
            1. - alphas_cumprod)
        self.register_buffer('posterior_variance', posterior_variance)

        # log calculation clipped because the posterior variance is 0 at
        # the beginning of the diffusion chain
        self.register_buffer('posterior_log_variance_clipped',
                             torch.log(posterior_variance.clamp(min=1e-20)))
        self.register_buffer(
            'posterior_mean_coef1',
            betas * torch.sqrt(alphas_cumprod_prev) / (1. - alphas_cumprod))
        self.register_buffer('posterior_mean_coef2',
                             (1. - alphas_cumprod_prev) * torch.sqrt(alphas) /
                             (1. - alphas_cumprod))

以上就是函数 _build_diffusion 的全部内容，集中几个log项可能是之后计算loss用的

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DiffusionDet

源码阅读

DiffusionDet源码阅读(1) 的相关文章

DispatcherServlet 源码阅读（1）

有时间还是应该多看看源码 DispatcherServlet 是一个实实在在的 Servlet xff0c 所以 Spring MVC 引入后不会改变 Servlet 容器的行为 xff0c 仍然是解析 web xml 部署文件 xff0c
glibc源码阅读

FBI warning 本文仅仅是试图以二进制选手的方式来理解mallo c中所使用的堆机制 xff0c 不会对具体操作以及堆块结构作过多叙述 xff0c 敬请谅解水平欠佳 xff0c 有问题也欢迎留言指出先解释一些常用的宏与常量变量
使用DiffusionDet在mot数据集上训练

数据集处理在https github com facebookresearch detectron2 detectron2 data datasets builtin py 中 xff0c 可以看到 xff0c detectron2中可以
TeaPearce/Conditional_Diffusion_MNIST 源码阅读

文章目录 tqdm超参数预运算nn Module register buffer绘制动画ddpmforward U net噪声预测模型信息向量掩码向量conext mask上采样层的信息融合恢复阶段总结后记 tqdm dataset sp
DiffusionDet源码阅读(1)

本文仅仅适用于已经通读过全文的小伙伴本文代码节选自 mmdet 中的 DiffusionDet 代码 xff0c 目前该代码还处于 Development 阶段 xff0c 所以我博客里写的代码和之后的稳定版本可能稍有不同 xff0c 不
每日lodash源码阅读（一）——createMathOperation

每日lodash源码阅读 xff08 一 xff09 createMathOperation 一写在前面二使用举例三源码分析add jscreateMathOperation js 一写在前面 createMathOperation
kube-proxy源码阅读(iptables实现)

Reference 文章目录 1 入口2 ProxyServer创建及调用3 ProxyServer 核心调用流程3 1 func o Options Run err3 2 func o Options runLoop error3 3 f
MSCKF-vio源码阅读

作为一个菜狗来说 xff0c 一开始弄明白kf ekf等滤波方法实属不易 xff0c 但是一旦理解原理之后再发散到基于滤波的状态估计方法 xff0c 学习起来就会事半功倍 xff0c 就像导航包中的robot pose ekf xff0c
【cartographer_slam源码阅读】4-6激光雷达数据的转换

HandleLaserScanMessage 函数作用 xff1a 利用 ToPointCloudWithIntensities函数将ros中的数据转换为carto中定义的数据类型 xff1b 传入 HandleLaserScan 函数
DiffusionDet:Diffusion Model for Object Detection

Diffusion Model for Object Detection 一种用于目标检测的扩散模型 Motivation 1 如何使用一种更简单的方法代替可查询的object queries 2 Bounding box的生成方式过去是三
ReentrantLock源码阅读(1)(JDK1.8)

ReentrantLock 前言ReentrantLock JDK 1 8 实现了Lock接口Sync类NonfairSync类FairSync类重要属性和方法总结前言最近在使用Java 并发包时遇到一些问题 xff0c 感觉对于其还
REDIS 源码阅读

https redissrc readthedocs io en latest datastruct dict html 一个注释的开源项目 xff1a 书是redis的设计与实现 https github com huangz1990 r
【FreeRTOS源码阅读】<2> task.c （1）任务创建以及TCB、List的结构

上篇讲述了list c关于链表操作的源码阅读 xff0c 此片文章将开始阅读task c task h相关结构体由eTaskGetState返回的任务状态 typedef enum eRunning 61 0 一个任务查询自己的状态 xf
【Python源码阅读】PYC 文件剖析

pyc 文件相信大家见怪不怪 xff0c 大家经常在 pycache 里面见到这些文件这些文件存储了 python 编译出来的字节码文件 xff0c 还有一些元信息 xff08 例如版本号 xff0c 对应文件的修改时间 xff09 接下
源码阅读——validate-npm-package-name

文章目录前言一源码阅读工具二阅读源码1 目录结构2 package json3 index js 三使用该包1 vue cli中使用2 create react app 中使用总结前言 validate npm package
A-LOAM源码阅读

LOAM 论文地址 xff1a https www ri cmu edu pub files 2014 7 Ji LidarMapping RSS2014 v8 pdf A LOAM地址 xff1a https github com HKU
Deformable Detr代码阅读

前言本文主要是自己在阅读mmdet中Deformable Detr的源码时的一个记录如有错误或者问题欢迎指正 deformable attention的流程首先zq即为object query 通过一个线性层先预测出offset
leveldb官方手册摘录

本文内容摘自leveldb官方手册版权归其所有 CHAPTER 1 基本概念 leveldb是一个写性能十分优秀的存储引擎是典型的LSM树 Log Structured Merge Tree 实现 LSM树的核心思想就是放弃部分读的性能
“npm create vite“ 是如何实现初始化 Vite 项目？

欢迎关注我的公号前端我废了查看更多文章前言我们从 vite 的官方文档中看到可以使用 npm yarn pnpm create 命令来快速初始化一个基于 Vite 的项目其实很多框架或库都会开发相应的脚手架工具用于快速初始化项
Quartz框架多个trigger任务执行出现漏执行的问题分析

一问题描述使用Quartz配置定时任务配置了超过10个定时任务这些定时任务配置的触发时间都是5分钟执行一次实际运行时发现总有几个定时任务不能执行到二示例程序 1 简单介绍采用spring quartz整合方案实现定时任务

随机推荐

正确打开db文件的方式，避免乱码和无意义内容

db文件如果用记事本或者Notepad 43 43 打开 xff0c 会显示乱码 xff0c 改变编码不能解决问题 xff0c 如果用UltraEdit打开 xff0c 可以看到进制数据 xff0c 但是无意义的正确的方法有多种 xff1
深度优先搜索——枚举组合

所谓枚举组合 xff0c 其实就是从若干个选若干个数比如x 1 x 2 x 3 x 4 x n 每个数字时0 xff08 不选 xff09 和1 xff08 选 xff09 x表示当前选到第几个书 xff0c dep表示选了几个数对于每
更新个祥硕ASM1153E开卡转接板的固件，详细教程

固态硬盘开卡需要使用USB转接板连接电脑 xff0c 使用那些未经验证的普通硬盘盒开卡 xff0c 经常会碰到一些千奇百怪的错误而导致开卡失败 xff0c 专用开卡板可以让你少走很多弯路注意 xff1a 目前sata转usb的桥接芯片
Android获取OAID

目录写在最前面写在前面说明文档 SDK使用过程 xff1a 代码实现写在最前面看评论有好些朋友遇到了一些我没遇到的问题 xff0c 而且看官方文档也已经更新 xff0c 想着这些问题官方是不是已经优化解决了 xff0c 就按着最新
Java基础——隐式转换vs强制转换

在定义变量时 xff0c 有许多要注意的问题 xff0c 一不小心就会出现损失精度或者不兼容类型等问题例如 xff1a 1 定义长整型数据时 xff0c 必须加后缀 l 或 L long l 61 123456789012345L 2 定
【Open CASCADE -生成MFC和QT事例方式】

源代码目录 adm目录 xff1a 包含编译OCCT的相关工程 adm cmake目录 xff1a 包含使用CMake构建OCCT的相关处理脚本 adm msvc目录 xff1a 包含window平台 Visual C 43 43 2010
Kotlin学习笔记八、Kotlin简单控件的使用

1 按钮Button xff1a Button是Android最常用的控件之一其用法我们这里主要是关注三个方面 xff0c 一是点击事件 xff0c 二是长按事件 xff0c 三是设置文本点击背景效果等等其中点击事件和长按事件用法上跟
java代码实现将spark数据集json字符串转为具体对象

依赖引入 span class token generics span class token punctuation lt span dependency span class token punctuation gt span span
飞桨: Error: op accuracy does not have kernel for data_type[int64_t]:data_layout[ANY_LAYOUT]:place

当前版本的paddle是1 7 老铁们大家来看看完整的报错是不是这个 Error op accuracy does not have kernel for data type int64 t data layout ANY LAYOUT
adobe AE: 磁盘缓存文件夹所在的驱动器没有足够的可用空间来安全存储在首选项中指定的全部量

看着挺玄乎 xff0c 就是说 xff0c 该软件要求性能高 xff0c 你现在没用足够的磁盘空间给我缓存其默认为C盘 xff0c 故而大部分笔记本电脑可能不满足所以我们换一个目录就行了在其他盘新建一个文件夹选择即可 xff0c 但别
TypeError: `method` object is not subscriptable

今天遇到一个特别尴尬的问题 xff1a TypeError span class token punctuation span span class token string 39 method 39 span span class tok
教授、研究员、高级工程师、工程师，各系列职称体系对比

教授研究员高级工程师工程师 xff0c 各系列职称体系对比 xff1a 我找了好久 xff0c 终于找到一个全的 xff1a 一 xff1a 高校教育系列一般是即从事教学又从事科研的教师系列职称分为四级助教 xff0c 讲师 xf
C - 瑞神打牌（不支持C++11；G++和C++编译器都试试！） POJ - 1786

题目牌局由四个人构成 xff0c 围成一圈我们称四个方向为北东南西对应的英文是North xff0c East xff0c South xff0c West 游戏一共由一副扑克 xff0c 也就是52张构成开始 xff0c 我
Linux安装CUDA GCC版本不兼容

环境KALI 我估计Ubuntu也是一样的当前NVIDIA驱动版本 455 23 05 GCC版本 xff1a Debian 10 2 0 15 老铁们一定是这样操作的 xff1a span class token function su
LINUX设置临时路径

有时候需要设置下临时路径以方便使用 xff0c 在逛github FCOS配置的时候看到了这种使用方式 xff0c 觉得蛮有用的 xff0c 分享给大家 xff1a span class token function export span
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m

UPDATE 2023 01 11 我觉得评论区的方法比我的方法更加简单 xff0c 建议诸位老铁先看评论区 xff1a 好兄弟们看看是不是这个错 xff1a RuntimeError span class token punctuatio
TensorRT windows10 安装过程记录

这俩天摸鱼玩耍有些多比平时多 xff0c 电脑另一台有双系统的忘了带着了我的环境和代码都在那台机子上呢彳亍口巴 xff0c windows 上新配置一个TensorRT环境咱就根据官方指南 TensorRT 8 4 1 来搞 x
找不到 cl.exe 解决办法

本篇适用于由于安装VS全家桶失误 xff0c 导致确实没有 cl exe xff0c 而不是有cl exe xff0c 但是没找到的情况哈 xff08 当然 xff0c 后边有添加到环境变量中的方法 xff09 cl exe 是一种工具 x
余弦衰减学习率与linear warmup结合版代码

以下代码摘自tensorflow官方tpu仓库 span class token keyword def span span class token function cosine learning rate with linear war
DiffusionDet源码阅读(1)

本文仅仅适用于已经通读过全文的小伙伴本文代码节选自 mmdet 中的 DiffusionDet 代码 xff0c 目前该代码还处于 Development 阶段 xff0c 所以我博客里写的代码和之后的稳定版本可能稍有不同 xff0c 不

DiffusionDet源码阅读(1)

DiffusionDet源码阅读(1) 的相关文章

随机推荐

热门标签