[23] Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion

2023-10-30

本文提出一种3D-to-3D转换方法：Instruct 3D-to-3D；
借助预训练的Image-to-Image扩散模型，本文方法可以使各个视角图片的似然最大；本文方法显式地将source 3D场景作为condition，可以有效提升3D连续性和可控性。
同时，本文还提出dynamic scaling，使得几何变换的强度是可调整的。

目录

Text-to-3D models

Proposed Method

Pipeline of Instruct 3D-to-3D

Dynamic Scaling

Qualitative Evaluations

Quantitative Evaluations

Sensitivity to the Scaling Strategy

Text-to-3D models

DreamFields是第一个实现Text-to-3D的工作。DreamFields用CLIP引导生成，但是生成效果不佳。

DreamFusion是第一个将diffusion应用在Text-to-3D任务上的方法。对于任意输入图片，根据采样得到噪声和时间，生成噪声图像：。噪声图像可用于计算损失的梯度：

其中，y是文本描述。但是现有方法有两个问题：1）直接fine-tune 3D场景，可能到导致失去原3D场景的特征；2）需要对转换后的场景有详细的文本描述。

Proposed Method

Pipeline of Instruct 3D-to-3D

1. target model基于source model初始化；

2. 随机相机位姿c，用target model渲染目标图像I_tgt；将I_tgt送入StableDiffusion的encoder获得对应的隐码特征L_tgt。

3. 添加噪声：；

4. 用source model和相机位姿c，渲染source image I_src；

5. 将x_t送入InstructPix2Pix，其中，source image I_src和text instruction y是控制条件。

6. 由于有两个控制条件，最后的噪声由下式求得，其中s_I和s_T是用于控制图片和文本控制强度的超参数。

7. 梯度可求得：

Dynamic Scaling

本文使用DVGO，该方法是一中voxel grid-based implicit 3D representations，以3D vocel grid的形式保留密度和颜色信息。

voxel grid是3D空间的离散部分，每个vertex描述颜色和密度信息。体渲染是基于射线周围vertices的插值信息求得。

3D场景的分辨率由voxels数量决定。DVGO中使用progressive scaling策略，在训练过程中逐步增加voxels数量：

本文中，vocels的数量初始化为N，但这会导致形状较难改变，因此本文提出dynamic scaling。该方法从N到N/2^l，逐渐减少voxels的数量，随后再逐渐恢复至N。图（3-b）展示了该过程。

Experiments

Qualitative Evaluations

Quantitative Evaluations

计算CLIP score和BRISQUE score

User Study

Sensitivity to the Scaling Strategy

Limitations

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算机视觉

人工智能

AIGC

3Dto3D

NeRF

[23] Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion 的相关文章

扬帆证券：产业化破题在即人形机器人超预期演进

大模型助力下的拐点特斯拉A股产业链上两笔重磅出资几乎一起现身总规划超百亿元 1月4日拓普集团公告与宁波经济技能开发区办理委员会签署了机器人电驱系统研发生产基地项目出资协议书公司拟出资50亿元建设机器人核心部件生产基地此次出
毕业设计-基于深度学习的细菌微生物目标检测系统系统 YOLO python 目标检测人工智能卷积神经网络机器学习

目录前言设计思路一课题背景与意义二算法理论原理 2 1 CBAM模块 2 2 损失函数三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析实现效果图样例最后前言大四是整个大学期间最忙碌的时光一
比尔盖茨与萨姆.奥尔特曼的对话及感想

谈话内容比尔盖茨嘿萨姆萨姆奥尔特曼嘿比尔比尔盖茨你好吗萨姆奥尔特曼哦天哪这真的太疯狂了我还好这是一个非常激动人心的时期比尔盖茨团队情况怎么样萨姆奥尔特曼我想你知道很多人都注意到了这样一个事实
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
Creator AIGC插件！一句话生成人脸

近几个月以来 AIGC 一路高歌猛进让我们见证了一场行业革命然而 AIGC 在 3D 资产领域却仍是业内的难题少有突破小编今天给大家推荐一个 3D 角色 AIGC 利器 ChatAvatar 它可以算是 3D AIGC 领域的一匹黑
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本

随机推荐

Java中的equals方法和toString方法（基础四）

目录友情提醒第一章 Java中的两种比较方式比较和equals比较 1 Java中的比较 2 Java中的 equals比较第二章重写toString方法 1 toString方法 2 重写equals和toString方法快捷
基于7自由度模型的横摆力矩分配控制、车道保持和定速巡航

目录前言 1 道路设计 2 控制器设计 2 1 横向偏差和航向角偏差计算
多线程的创建3：实现Callable接口

1 创建一个实现Callabl的实现类 2 实现call方法将此线程需要做的操作声明在call 中 3 创建callable接口类实现的对象 4 将此callable接口实现类的对象作为参数传递到FutureTask的构造器中创建FUt
【算法】0-1背包问题

动态规划之详细分析0 1背包问题题目有 N 件物品和一个容量为 V 的背包第 i 件物品的费用是 w i 价值是 p i 求解将哪些物品装入背包可使这些物品的费用总和不超过背包容量且价值总和最大本文按照动态规划的标准模式解析 ht
CSS/CSS3 变量var()使用以及 calc()函数计算的使用

在这里记录一下开发过程中突然喜欢上的CSS CSS3 var 变量以及calc 函数让在不使用sass以及less的情况下也能进行一个比较高效的样式设置 var 变量 var变量的定义语法变量名两个短横线加上变量名 var变量的使用
Linux下编译链接多个源文件

Linux下编译链接多个源文件 add c 的内容 int Add int a int b int result result a b return result minus c 的内容 int Minus int a int b int
Apache常见报错问题

1 No space left on device 错误与解决办法解决办法查看httpd进程是否存在及httpd端口是否正常启动 ps ef grep httpd grep v grep wc l netstat ant grep 8
pycharm配置git

1 下载git客户端 2 File Default Setting Version Control Git 3 Path to Git executable 填写git客户端的git exe路径如果路径不清楚可以在终端输入 which
如何在Blender中压缩/减小GLTF模型的大小

GLTF 如何在Blender中压缩减小GLTF模型的大小 Blender是一款功能强大的开源软件旨在创建3D图形动画和视觉效果它支持多种文件格式的导入和导出包括GLB GLTF DAE OBJ ABC USD BVH PLY S
【华为OD机试真题 C++】小朋友高矮排序

前言本专栏将持续更新华为OD机试题目并进行详细的分析与解答包含完整的代码实现希望可以帮助到正在努力的你关于OD机试流程面经面试指导等如有任何疑问欢迎联系我 wechat steven moda email nansun09
如何查询某个会议或者期刊是否被EI收录

EI是什么 EI是一个数据库工程领域的权威数据库 EI主要收录EI会议CA以及EI期刊JA类型的文章如何查询某个会议或者期刊是否被EI收录注意时效性要解决这个问题之前先要了解什么是 Ei Compendex Ei Compend
optimize this sql to a count sql has error, sql:“...“, exception: java.lang.ClassCastException

简略异常提示 2023 04 19 17 53 03 228 WARN 5176 io 18888 exec 1 c b m e p i PaginationInnerInterceptor optimize this sql to a c
python 使用jieba.analyse提取句子级的关键字

安装所需要的库 jieba pip install jieba 方法参数解释 jieba analyse extract tags sentence topK 5 withWeight True allowPOS 参数说明 sentence
提高LLaMA-7B的数学推理能力

概述这篇文章探讨了利用多视角微调方法提高数学推理的泛化能力数学推理在相对较小的语言模型中仍然是一个挑战许多现有方法倾向于依赖庞大但效率低下的大语言模型进行知识蒸馏研究人员提出了一种避免过度依赖大语言模型的新方法该方法通过有效利用具
给出一个n位数，要求删掉其中k位数字，使得剩下的数字组成的数尽量大。

这个题就是把单调递增的读一个数删除代码如下 include
利用Vulnhub复现漏洞 - JBoss 4.x JBossMQ JMS 反序列化漏洞（CVE-2017-7504）

JBoss 4 x JBossMQ JMS 反序列化漏洞 CVE 2017 7504 Vulnhub官方复现教程漏洞原理复现过程启动环境漏洞复现发送POC 通过命令通过 BurpSuit 发送检测POC是否成功 Vulnhub
Scoop安装使用及卸载

1 卸载 scoop uninstall scoop scoop uninstall scoop 2 安装打开 PowerShell 设置用户安装路径 env SCOOP D scoop Environment SetEnvironmen
数据结构-使用邻接矩阵创建无向图

1 邻接矩阵邻接矩阵 Adjacency Matrix 是表示顶点之间相邻关系的矩阵 2 程序分析 W i j表示边上的权值表示计算机允许的大于所有边权值的数用邻接矩阵表示法表示图除了用一个存储邻接矩阵的二维数组外还需要用一个一
饥荒计算机丢失xinput1 3.dll,《德军总部：旧血脉》Win8运行提示丢失XINPUT1_3.dll解决方法...

混迹在一群瞎JB回答的人中间努力传播正确的电脑常识对于一些非常简单的问题的正确解决办法的我每次看到楼上这样的回答以及不论看到提问者说丢失的是什么dll都一概让对方去下载一个放到system32 有些自作聪明的还会说如果是64位系统就
[23] Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion

本文提出一种3D to 3D转换方法 Instruct 3D to 3D 借助预训练的Image to Image扩散模型本文方法可以使各个视角图片的似然最大本文方法显式地将source 3D场景作为condition 可以有效提升3D

热门标签