R-CNN论文解读

2023-05-16

背景

R-CNN(Regions with CNN features)这篇论文是在2014年CVPR的论文,在此之前目标检测并未使用基于深度学习的方法,主流的目标检测思路还是基于传统的目标检测方法(SIFT,HOG等),所以R-CNN这篇论文围绕的核心观点就是用深度学习来替换传统的图片特征提取方法从而更好地实现目标检测的效果,相比于之前基于传统方法的目标检测,R-CNN在PASCAL VOC2012数据集上的mAP提高了30%以上,达到了53.3%。

R-CNN的两个重要贡献在于:

  1. 在候选区域上自下而上使用大型卷积神经网络(CNNs),用以定位和分割目标。
  2. 当带标签的训练数据不足时,先针对辅助任务进行有监督预训练,再进行特定领域的微调,就可以产生明显的性能提升。

R-CNN用于目标检测的流程图如下:

R-CNN 流程具体如下:

  1. 对输入的图片进行选择性搜索(selective search),得到大约2000个类别无关的候选区域。
  2. 不管候选区域的大小和宽高比如何,都将其变换为227*227的固定大小(CNN架构只能接受227*227的输入)。
  3. 将变换后的候选区域一个个输入到CNN中,CNN输出为一个4096维的特征向量。
  4. 将CNN输出的特征向量分别送入一系列的SVM用于分类,以及为了得到更精准的预测框,还会进行一个Bounding Box Regression。

Extract region proposal

  1. 使用Selective Search算法从输入图像中提取2000个Region Proposal。文中使用该算法是因为控制变量,方便与其他方法比较。

                 selective search算法主要步骤:

                1. 使用一种过分割手段,将图像分割成小区域 (1k~2k 个)

                2. 计算所有邻近区域之间的相似性,包括颜色、纹理、尺度等

                3. 将相似度比较高的区域合并到一起

                4. 计算合并区域和临近区域的相似度

                5. 重复3、4过程,直到整个图片变成一个区域

Feature extraction

        由于文中使用的CNN中包含有全连接层,这就需要输入神经网络的图片有相同的size:所以需要对每个Region Proposal都缩放到固定的大小(227*227)。

        在得到每个候选区域之后并不是直接截下来,而是截取比这个区域稍微更大点的区域,因为对这个区域进行卷积运算,边缘位置做卷积就会损失一些信息,所以在变形尺寸下,传入到神经网络的区域相比于比原始框会多出16个像素。

本文提了两种方法:

1. 不考虑图片的长宽比例,不考虑图片是否扭曲,直接缩放到CNN输入的大小227*227

2. 各向同性缩放:  

        先裁剪后扩展:先把bounding box图片裁剪出来,然后用固定的背景颜色填充成正方形图片(背景颜色也是采用bounding box的像素颜色均值),如下图(D)所示。                 

         先扩张后裁剪: 直接在原始图片中,把bounding box的边界进行扩展p像素延伸成正方形,然后再进行裁剪。如果已经延伸到了原始图片的外边界,那么就用bounding box中的颜色均值填充。如下图(B)(C)所示。

 

        一组试点实验表明,使用上下文填充(p = 16 像素)的变形在很大程度上优于替代方案(3-5 个 mAP 点)

        特征计算:将减去均值的 227 x227 RGB 图像(wrap)通过五个卷积层和两个完全连接层前馈传播来计算的。我们wrap的每个proposal通过 CNN 前馈传播它以计算特征。然后,对于每个类,我们使用 SVM 对每个proposal的特征向量进行评分。给定图像中的所有评分区域,我们用NMS,删除重复的proposal(如果区域具有交叉联合(IoU)与更高评分的选定区域重叠,则拒绝该区域)

Train CNN

利用Selective Search提取Region Proposal并resize后,接下来使用CNN从每个Region Proposal提取特征。本文训练CNN的方法,主要包括以下两步:

  1. Pre-training阶段:由于物体标签训练数据少,本文采用的是有监督的预训练,使用一个大的数据集(Image Net ILSVC 2012)来训练AlexNet,得到一个分类的预训练(Pre-trained)模型。
  2. Fine-tuning阶段:使用Region Proposal(PASCAL VOC)对Pre-trained模型进行fine-tuning。首先将原来预训练模型最后的1000-way的全连接层(分类层)换成21-way的分类层(20类物体+背景。然后计算每个region proposal和ground truth 的IoU,对于IoU>0.5的region proposal被视为正样本,否则为负样本(即背景)。在每次迭代的过程中,选取32个正样本和96个负样本(128)组成一个mini-batch(128,正负比:1:3)。我们使用0.001的学习率和SGD来进行训练。

Train SVM

在训练过程中,SVM的输入包括两部分:

(1) CNN feature:这个便是CNN网络为每个region proposal提取的feature,共2000*4096。

(2) Ground truth labels:在训练时,会为每个region proposal附上一个label(标注好的labels称为Ground truth labels)。

在SVM分类过程中,当IoU<0.3时,为负样本,正样本便是ground truth box。然后SVM分类器也会输出一个预测的labels,然后用labels和ground truth labels计算loss,然后训练SVM。

Non-maximum suppression(NMS)非最大抑制

目的:筛选候选区域,目标是一个物体只保留一个最优的框,来消除那些冗余的候选框。

过程:经过SVM之后,我们会得到2000个region proposal的class probability,然后我们可以根据‘有无物体’这一类过滤掉一大批region proposal,然后如果某个候选框的最大class probability<阈值,那也可以过滤掉这些region proposal,

那剩下的可能如图所示,就是有多个box相互重叠,目标检测的目标是一个物体有一个box即可,那这个时候就需要用到非极大值抑制(NMS)了,经过NMS之后,最终的检测结果如下图所示:

Bounding box regression

通过NMS筛选出来的候选框不一定非常准确,目标检测问题的衡量标准是重叠面积,许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。bbox回归用于修正筛选后的候选区域,使之回归于ground-truth。

在目标检测中,窗口一般用四维向量(x, y, w, h)来表示,分别表示窗口的中心点坐标和宽高。在下图中,粉色的窗口P为region proposal,蓝色的窗口G为ground truth,那bounding box regression的目标呢就是:找到一种映射关系,使得P经过映射后会得到一个和G比较接近的G’。

 。

即:给定(Px,Py,Pw,Ph) 寻找一种映射f,使得f(Px,Py,Pw,Ph)=(G’x,G’y,G’w,G’h)且(G’x,G’y,G’w,G’h)≈(Gx,Gy,Gw,Gh)

dx(P)、dy(p)、dw(p)、dh(p)这四个量分别与预测框的水平平移,垂直平移,水平缩放和垂直缩放有关。图像尺寸的缩放系数必须是个正数,而e^x具有恒正和单调递增的特性,所以作者dw( P ) 和dh(P)做了指数运算。

总结:

本文提出了一种简单且可扩展的目标检测算法,与 PASCAL VOC 2012 上的最佳先前结果相比,相对提高了 30%。

我们通过两个方法实现了这一性能。

        首先是将大容量卷积神经网络应用于自下而上的region proposal,以定位和分割目标。

        第二个是在标记训练数据稀缺时训练大型 CNN 的范例。对于具有丰富数据的辅助任务(图像分类),在有监督的情况下对网络进行预训练,然后针对数据稀缺的目标任务对网络进行微调是非常有效的。

        我们推测“有监督的预训练/特定领域的微调”范式对于各种数据稀缺的视觉问题将非常有效。使用计算机视觉和深度学习的经典工具(自下而上的区域建议和卷积神经网络)的组合来实现这些结果是非常重要的

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

R-CNN论文解读 的相关文章

随机推荐

  • 超详细的python调用树莓派的摄像头基本使用

    这里首先讲解的是CSI摄像头 picamera 1 1录制一段10秒的视频到本地 import picamera camera 61 picamera PiCamera camera resolution 61 640 480 camera
  • 手把手教你写MC9S12G128 Timer

    目录 一 TIM模块概述 1 定时器 计数器的特点 2 嵌入式系统中定时器 计数器模块的作用 二 TIM模块结构和工作原理 1 TIM结构模块 1 1 TIM组成 1 2 特点 2 TIM模块工作原理 2 1 工作模式 2 2 定时器模块框
  • opencv 显示图片

    import cv2 import numpy as np 读取图片 img 61 cv2 imread 39 test16 jpg 39 图片显示 cv2 imshow 39 picture 39 img cv2 waitKey 0 cv
  • VMware+Ubuntu与Windows宿主机文件共享的实现

    学习嵌入式开发 xff0c Linux环境是必不可少的 现在一般都会选择在Windows上用VMware 43 Ubuntu的方式来构筑交叉开发环境 这样的好处是 xff0c 既不离开Windows这个熟悉的环境 xff08 有很多Wind
  • 大数据概论

    一 xff0e 大数据 大数据 xff08 big data xff09 xff0c 指无法在一定时间范围内用常规软件工具进行捕捉 管理和处理的数据集合 xff0c 是需要新处理模式才能具有更强的决策力 洞察发现力和流程优化能力的海量 高增
  • 基于ESP32搭建物联网服务器十三(自已搭建一个MQTT服务器)

    在之前的文章中 ESP32搭建WEB服务器十二 使用MQTT协议与ESP32互动 你的幻境的博客 CSDN博客 我们已经实现了ESP32通过MQTT协议连接到公共MQTT服务器上 xff0c 但是公共服务器在稳定性或安全性上 xff0c 很
  • flash烧写uboot举例

    烧写uboot到QSPIFLASH 简述 xff1a 主要是讲ZYNQ7000系列的烧写文件方法 xff0c 衔接上文链接 Petalinux工具编译生成boot和kernel等流程 JTAG下载全部镜像到内存运行 以下操作在XSDK环境下
  • 1000+ 道 Java面试题及答案整理(2023最新版)

    作为 Java 程序员 xff0c 选择学习什么样的技术 xff1f 什么技术该不该学 xff1f 去招聘网站上搜一搜 看看岗位要求就十分清楚了 xff0c 自己具备的技术和能力 xff0c 直接影响到你工作选择范围和能不能面试成功 如果想
  • 锁与CAS详解

    一 悲观锁与乐观锁 乐观锁和悲观锁问题 xff0c 是出现频率比较高的面试题 本文将由浅入深 xff0c 逐步介绍它们的基本概念 实现方式 含实例 适用场景 xff0c 以及可能遇到的面试官追问 xff0c 希望能够帮助你打动面试官 乐观锁
  • PowerShell知识整理

    文章目录 前言一 快捷键二 符号2 1 常用符号2 2 条件运算符 三 常用辅助命令四 信息的筛选4 1 正则表达式4 2 管道4 2 1 基本概念4 2 2 Get Member4 2 3 Where Object4 2 4 Select
  • 树莓派登入ssh很慢和开机启动tightvncserver及其他问题

    树莓派登入ssh 很慢 关闭 ssh的gssapi认证 执行命令 xff1a sudo vim etc ssh ssh config 在该文件的末尾找到这两行设置并注释掉 span class token macro property GS
  • 光波长与RGB数值的转换

    最近做毕业设计时 xff0c 需要Matlab仿真计算彩色物体的散射图像 计算中需要用到彩色图片 xff08 RGB色彩模式 xff09 对应的光波长数值 查找资料发现可以实现 xff1a 由光波长求对应RGB数值 正在做尝试 xff0c
  • 【原创】Git删除暂存区或版本库中的文件

    0 基础 我们知道Git有三大区 xff08 工作区 暂存区 版本库 xff09 以及几个状态 xff08 untracked unstaged uncommited xff09 xff0c 下面只是简述下Git的大概工作流程 xff08
  • Ubuntu20.04和Ubuntu18.04更换清华镜像源

    1 备份Ubuntu默认的源地址 在终端输入 xff1a sudo cp etc apt sources list etc apt sources list backup 2 xff1a 更新源服务器列表 span class token
  • keil5安装后续 错误解决

    嵌入式 keil5安装 软件安装 STM32 有个博主讲的很好 xff0c 可以参考 xff0c 也有资源提供下载 点这里 xff0c 电梯直达 第一个错误解决 Fatal error cannot open the source file
  • gcc常用参数

    今晚看了些有关gcc的编译选项的内容 xff0c 记录下来以备查用 1 gcc c 只编译不链接 xff0c 生成 o文件 例如 xff0c gcc c hello c xff0c 将由hello c得到hello o 2 gcc o 直接
  • String类型的详解

    文章目录 一 字符串的定义方式二 String注意问题三 内存分布 xff08 注意问题详解 xff09 1 分布方式12 分布方式23 分布方式3常量池 四 练习问题问题一 xff1a 问题二 xff1a 五 字符串不可变更改String
  • 调整图片大小和像素

    在很多官方的系统中 xff0c 要求限制上传文件的大小 xff0c 有时候照片的大小太大 xff0c 怎么调整大小呢 xff1f 对于windows用户来说 xff0c 调整的方法很简单 xff0c 只需要利用Windows系统自带的工具就
  • python期末考试

    python期末考试 文章目录 python期末考试前言一 选择题二 多选题三 函数题四 xff0c 编程题 前言 提示 xff1a 这里可以添加本文要记录的大概内容 xff1a 记录本学期python期末考试 提示 xff1a 以下是本篇
  • R-CNN论文解读

    背景 R CNN Regions with CNN features 这篇论文是在2014年CVPR的论文 xff0c 在此之前目标检测并未使用基于深度学习的方法 xff0c 主流的目标检测思路还是基于传统的目标检测方法 SIFT HOG等