ICCV 2023

2023-11-01

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【3D点云和Transformer】交流群

本文介绍我们在ICCV 2023上接收的论文《PointCLIP V2: Adapting CLIP for Powerful 3D Open-world Learning》。

论文：https://arxiv.org/abs/2211.11682

开源代码（已开源）:

https://github.com/yangyangyang127/PointCLIP_V2

如下图，与baseline PointCLIP相比，本文方法在3个不同数据集的zero-shot分类准确率上，有了提升显著。

1. 概述

问题：当前，大规模数据预训练极大地提高了2D图像的open-world识别能力。但在3D领域，由于没有足够的可训练数据，各种3D open-world任务进展缓慢且性能较低如PointCLIP，所以提升3D open-world任务的性能是一个重要问题，这些任务包括zero-shot的分类，分割和检测等。

出发点：最近一段时间，大规模图像-文本预训练取得了较大的进步，比如CLIP，BLIP之于各种2D任务；同时大语言模型如GPT-3在文本理解上也有所突破。因此我们提问：是否能够结合图像文本模型和大语言模型来解决3D open-world任务？更具体地，能否实现CLIP + GPT-3 => 3D open-world tasks?

主要方法：为了结合两者，我们将3D点云投影成接近真实的2D图像，并使用GPT-3产生富含3D描述的文本，从而提升两种模态的匹配度。我们的实验证明，结合CLIP和GPT-3的方法，在3D open-world任务上取得了较好的性能，这些任务包括zero-shot和few-shot 3D classification，以及更一般的zero-shot 3D segmentation和3D detection任务。综上所述，论文的整体思路可以表示为下图：

2. 方法

为了将点云适配到图像和文本，我们基于PointCLIP主要做了两点改进，这两点改进对应于CLIP的两个编码器：

(1) 对于视觉编码器，设计了新的投影模块将点云投影成更加真实的深度图；

(2) 对于文本编码器，使用GPT-3产生包含丰富形状描述的文本。

以上的两点改进虽然简单但能够用于不同的任务，我们在zero-shot和few-shot 3D classification，zero-shot 3D segmentation, 和3D detection任务上验证。综合以上，论文整体的框架如下图所示，输入部分（左边）是两点改进，输出部分（右边）对应于不同的任务。

2.1 深度图合成

对于一个点云，我们主要通过量化（体素化），稠密化，平滑和维度压缩合成出一个比较贴近真实的深度图。首先一个不规则的点云被体素化，产生一个稀疏的3D网格，然后我们使用池化操作把网格变得稠密，接着我们使用高斯平滑消除噪声，最后在深度这个维度进行压缩，从3D网格得到一张2D图像。整体流程如下图左所示，最后的深度图与散点图相比，更加贴近现实中的深度图（图右）。

2.2 文本描述生成

大部分基于CLIP的工作都使用了形如“a photo of a {CLASS}.”的普通文本模板，这在一定程度上较为低效。考虑到当前大预言模型已经具有较强的文本生成能力，因此我们试图用GPT-3产生具有形状描述的prompt. 我们使用4种形式的命令激励GPT-3。(1)命令型，如：“Describe a depth map of a [window]:”；(2)疑问型，如：“How to describe a depth map of a [table]?”；(3)同义句，如：“Generate a synonym for the sentence: A grayscale depth map of an inclined [CLASS].”；(4)组词成句，如：“Make a sentence using these words: a [table], depth map, obscure.”。

使用GPT-3产生的文字描述能够与图像产生更好的匹配，如下图右的attention map所示。

2.3 Open-world任务

我们将CLIP和GPT-3结合用于多种open-world的3D任务，包括3D zero-shot分类, 3D few-shot分类, 3D zero-shot segmentation和3D detection。

对于分割任务，我们在深度图上完成分割然后反映射到3D点云上，主要包括part segmentation和scene segmentation。对于检测任务，我们使用一个预训练的region proposal network产生3D框，并使用我们的方法作为一个open-world的分类头进行分类。

3. 结果

在ModelNet10, ModelNet40, ScanObjectNN的三个子数据集上的zero-shot分类结果在下表中，我们达到了当前的SOTA结果。

在ModelNet40和ScanObjectNN的三个子数据集上的few-shot分类结果，相比于之前的方法也获得了提升。

在zero-shot分割任务上，我们尝试了part和scene的分割，结果分别如下。因为当前没有类似的设定，因此我们只和PointCLIP做了比较。

在3D detection任务上，在ScanNet V2上的结果如下所示。

感谢您的阅读，更多的实现细节和比较请看我们的文章，我们的代码已开源。感谢您提出宝贵意见。

点击进入—>【3D点云和Transformer】微信交流群

ICCV / CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

3D点云和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-3D点云或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如3D点云或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ICCV 2023 的相关文章

DirectX Release 构建可以通过 VS2010 运行，但不能运行 exe

我已经通过 Google 访问 Stack Overflow 几年了但到目前为止还没有询问回答任何问题所以就到这里吧基本上我有一个在 DirectX 11 中设置绘图模型和地形的 3D 渲染框架一切正常通过 Visual St
如何使用更少的包绘制二元正态分布的表面和轮廓

我将绘制二元正态分布的 3D 曲面及其轮廓可以是任何二元正态分布我想用persp and contour在我的画中我在网上搜索了一下但发现了很多方法大多数人都使用过一些软件包但我想以使用更少的软件包甚至不安装任何软件包的方式来执
Direct3D 中的矩阵多阶

关于在 Direct3D 中乘法矩阵以获得结果我收到了两个相互矛盾的答案教程确实规定从左到右相乘这很好但这不是我想象的方式这是一个例子 OpenGL 从上到下阅读 GLRotatef 90 0f GLTranslatef 20 0
点列表的 3D 轮廓（凹壳）

我有一个 C 中的 Vector3 点列表我需要计算这些点的凹轮廓确实有很多参考资料特别是对于凸分辨率由于格雷厄姆算法我已经成功实现了然而由于我现在需要有效地计算凹轮廓所以我迷失了维基百科确实列出了很多用于凸计算的资源
OpenGL Z 偏置（多边形偏移）限制

我有两个共面的多边形我尝试做 glEnable GL POLYGON OFFSET FILL glPolygonOffset 0 1 并期望其中一个明显位于另一个之上这种情况直到大约 70 75 个单位之外近剪裁平面为 1 远剪裁
在 Three.js 中将贝塞尔曲线转换为平面道路

我试图根据之前计算得到的一些贝塞尔曲线在 Three js 中绘制一条弯曲的道路问题是我找不到转换曲线序列的方法一条从上一条曲线的末尾开始到一个曲面我有一个 3D 场景其中有一些汽车一条用飞机创建的道路并且绘制了即将到来的道路
一次性渲染阴影

考虑到阴影投射的成本我想知道对于动态定位的静态对象例如程序城市是否有一个功能或可能实验性的方法可以在 Three js 中仅渲染一次阴影贴图甚至在 webgl 中因此结果可以在静态对象的下一帧中免费使用仅当物体移动时才会进
光线追踪三角形

我正在用java编写一个光线追踪器并且我能够追踪球体但我相信我追踪三角形的方式有问题据我了解这是基本算法首先确定射线是否与plane三角形已打开剪裁所有点使它们与三角形位于同一平面上因此xy以平面为例根据沿着新平面向任意方
Unity3D：在 AA 解析后绘制粒子以提高性能

我正在尝试评估 MSAA 对 Unity 中含有大量粒子的场景的影响为此我需要使用 8x MSAA 绘制场景中的所有非粒子对象使用上一个通道中解析的深度缓冲区来渲染所有将非遮挡粒子系统转移到较小的渲染目标上将 2 的颜色缓冲区与
如何创建热图来说明控制发散调色板中心颜色位置的网格差异？

我有两个人脸 3D 网格我希望使用热图来说明差异我想使用红蓝发散色阶我的数据可以查到here https github com Patricklv How to create heatmap illustraing 3D mesh d
使用文件 API 将资源加载到 Three.js 中

我想创建导入 3D 模型以在浏览器中查看的功能方法是使用File API http www html5rocks com en tutorials file dndfiles Three js 加载器在我托管的文件上运行良好我的理解是加
Matlab：3D 堆积条形图

我正在尝试创建一个 3D 堆积条形图如这个问题所示 Matlab 中的 3D 堆叠条形图 https stackoverflow com questions 13156133 3d stacked bars in matlab 5D 然而
判断点是否在截锥体内

我正在尝试找出确定一个点是否在截锥体内的最佳方法我有一些工作但不确定它是否太麻烦也许我应该有一种更优雅有效的方法来做到这一点假设我想查明点 x 是否在截锥体内一旦我知道了平截头体的 8 个点 4 个近点 4 个远点的位置我就
XNA中窗口系统的渲染策略（RenderTarget性能）

我目前正在从头开始为 XNA 游戏创建一个窗口系统我主要针对 Windows 进行开发但谁知道我将来可能支持哪些平台如果您知道本机 Direct3D 的这一点请随意回答因为性能语义应该类似如果可能请考虑如果目标平台是 X Bo
在 3D 场景中实现“抓取”相机平移工具

在我的场景中我有想要抓取的地形然后在移动光标时让相机平移其高度视图向量视野等全部保持不变因此最初的抓取点将是世界空间中的工作点我希望在拖动时该点保留在光标下方我当前的解决方案是获取前一个和当前的屏幕点取消投影它们
如何使用 matplotlib 将 3d 数据单位转换为显示单位？

这可能有点疯狂但我正在尝试使用 matplotlib v1 1 0 创建 3d 散点图的可点击图像图我已经阅读了如何对二维图进行操作参见这个博客 http hackmap blogspot com 2008 06 pylab matp
具有轴和角度的 3D 旋转

我知道 3D 旋转在 SO 和许多其他网站上都有详细记录但尽管阅读了无数的解释我仍然没有弄清楚我哪里出错了我的背景是艺术和设计而不是数学和编程而且我从来都不确定我的攻击角度没有双关语是否正确我没有粘贴我那令人沮丧的代码的拼凑
在 3d 空间中的两个平面之间进行插值

我正在开发一种工具可以让您在 3D 体积上圈出包围事物我想通过标记切片 1 和 3 并从该信息填充切片 2 来节省时间两个简单的解决方案是 1 slice2 slice1 AND slice3 gets the overla
加速球之间的碰撞检测

我正在编写一个物理引擎模拟器其中包含 3D 太空飞行行星恒星引力船舶推力和相对论效应到目前为止一切进展顺利但是我需要帮助的一件事是碰撞检测算法的数学我使用的运动迭代模拟基本上如下注意 3D 矢量全部大写 For eac
有人知道如何在android中实现像Unfold（这是iphone中的应用程序）这样的效果吗？

我怎样才能实现这个效果呢任何建议都会对我有帮助 None

随机推荐

JAVA之Thread类

一主线程主线程执行主方法的线程 main JVM执行main main 会进入到栈内存 JVM会找操作系统开辟一条main方法通向CPU的执行路径 CPu就可以通过这个路径来执行main方法而这个路径就叫做主 main 线程单线程
pptpd配置参数详解

在LINUX下搭建PPTPD服务器主要有3个配置文件分别如下 etc pptpd conf 主配置文件 debug 把所有的debug信息写入系统日志 var log messages option etc ppp options ppt
Hadoop是小象——YARN / Split&Block

了解Hadoop架构 Hadoop可运行于一般的商用服务器上具有高容错高可靠性高扩展性等特点特别适合写一次读多次的场景其架构如下 HDFS 分布式文件存储可靠性由心跳机制和冗余提供 YARN 分布式资源管理 MapReduce
mysql jdbcurl配置_jdbc的URL配置

Microsoft SQL Server Microsoft SQL Server JDBC Driver 一般用来连接 SQLServer 2000 驱动程序包名 msbase jar mssqlserver jar msutil jar
【金融申请评分卡】目标变量界定

一目标变量是什么目标变量就是假定申请客户的好坏逻辑回归公式里的Y 先来看下逻辑回归公式 y 11 e z y 1 1 e z
c++入门到精通教程 c++11/14/17-王健伟-专题视频课程

c 入门到精通教程 c 11 14 17 528人已学习课程介绍本教程适合那些只有一点点c语言编程知识的新手也适合那些c 98标准已经掌握的不错但对c 11 14 17新标准基本无所知的c 开发老手欢迎大家尽早加入学习请大家从授课
网络流媒体（七）———RTSP

RTSP协议介绍 RTSP协议的一些分析一一些字符串函数的使用 RTSP协议的一些分析二 printf类似函数 sscanf以及log保存到内存中 printf输入重定位 1 简介 DSP产生的媒体流需要通过网络传送到客户端如图1
python编程遵循哪些规律_Python实操（3）：python编程规范

选择pythoncharm作为Python开发ide也是在网上查了好长时间这两天了解到visual studio code强大易用同时也一直用visual studio做c c 开发所以决定把以后的开发平台切换到微软系换平台以后发
前后端分离:SpringBoot项目部署服务器操作步骤详细

部署后端 SpringBoot到服务器首先就是对自己项目application yaml进行配置此处使用过多mysql8 0 spring datasource url jdbc mysql 127 0 0 1 3306 book se
计算机网络笔记and题解

上次博客就写了一点划分子网和子网掩码相关的计算然后还要一个重要的五分类编址CIDR 也就是构造超网无分类编址CIDR Classless Inter Domain Routing 正式名字是无分类域间路由选择特点 1 CIDR消除了传
秒级数据转化为分钟级数据sql编写

前言利用python读取hive 将hive中秒级数据转化为以10分钟为间隔的数据除时间与设备id外所有字段的值求平均值代码连接hive 创建连接通道并且得到连接通道的钥匙句柄 conn connect host 地址 port
存储过程解析

使用存储过程来解决涨工资涨工资总裁涨1000 经理涨800 其他人涨400 伪代码 ResultSet rs select empno job from emp While rs next Int eno rs getInt empno
Stable diffusion加载safetensors 模型出现Exception: device privateuseone:0 is invalid

一问题博主用CPU硬解 Stable diffusion sd v1 4 ckpt能跑但换成v1 5 pruned emaonly safetensors等最新格式的模型就出现Exception device privateuseon
MATLAB数据可视化

MATLAB数据可视化二维绘图 plot命令 plot y plot x y plot x y s 常见的二维绘图常用设置选项 fplot 三维绘图 plot3 mesh 函数绘制参数网状表面图 surf 函数绘制三维阴影曲面图辅助
蓝桥杯：三羊献瑞（答案不唯一）

目录题目描述题目分析测试用的代码 Java 答案因为我个人做选择题有把所有可能性列举的习惯所以我习惯性列举一下发现答案并不像题目里面说的三羊献瑞是唯一的具体看我的测试用例 Test 但是结果呢题目描述本题为填空题只需要
软件测试和软件开发哪个发展更好

经常有想转IT行业的同学在了解软件测试和软件开发之后不知道转那个岗位好今天就系统的从多个维度来比较软件测试与软件开发具体包括从基本素质要求性格要求入职门槛知识结构竞争压力职业发展职业前景等希望能给在选择软件测试与开发朋
java设计模式之抽象工厂模式

什么是抽象工厂设计模式抽象工厂模式是一种创建型设计模式它提供了一种创建一系列相关或依赖对象的方法而无需指定它们具体的类抽象工厂模式是工厂方法模式的扩展它使用一组相关的工厂来创建对象而工厂方法模式只是使用一个单一的工厂在抽象工厂
APP移动端测试+安装+ADB命令的介绍

重点 app测试的内容 add命令 monkey命令次重点模拟器的安装雷电夜神 android的自带的模拟器使用常规测试真机测试简单了解云测Testing 腾讯云在职小伙伴下周演示了解市场有的移动端的操作系统有 1 an
LeetCode技巧篇（一）prefix sum 前缀和

介绍前缀和 prefix sum 是算法题中比较实用的一种技巧当算法题的背景是整数型数组且出现子数组和或者连续的子数组既可以考虑使用前缀和来求解会得到不错的效果假设给定的数组A各个元素分别为那么我们可以得到一个前缀和数组B
ICCV 2023

点击下方卡片关注 CVer 公众号 AI CV重磅干货第一时间送达点击进入 gt 3D点云和Transformer 交流群本文介绍我们在ICCV 2023上接收的论文 PointCLIP V2 Adapting CLIP for P

ICCV 2023

ICCV 2023 的相关文章

随机推荐

热门标签