R-CNN论文解读

2023-05-16

背景

R-CNN(Regions with CNN features)这篇论文是在2014年CVPR的论文，在此之前目标检测并未使用基于深度学习的方法，主流的目标检测思路还是基于传统的目标检测方法(SIFT,HOG等)，所以R-CNN这篇论文围绕的核心观点就是用深度学习来替换传统的图片特征提取方法从而更好地实现目标检测的效果，相比于之前基于传统方法的目标检测，R-CNN在PASCAL VOC2012数据集上的mAP提高了30%以上，达到了53.3%。

R-CNN的两个重要贡献在于：

在候选区域上自下而上使用大型卷积神经网络（CNNs），用以定位和分割目标。
当带标签的训练数据不足时，先针对辅助任务进行有监督预训练，再进行特定领域的微调，就可以产生明显的性能提升。

R-CNN用于目标检测的流程图如下：

R-CNN 流程具体如下：

对输入的图片进行选择性搜索(selective search),得到大约2000个类别无关的候选区域。
不管候选区域的大小和宽高比如何，都将其变换为227*227的固定大小(CNN架构只能接受227*227的输入)。
将变换后的候选区域一个个输入到CNN中，CNN输出为一个4096维的特征向量。
将CNN输出的特征向量分别送入一系列的SVM用于分类，以及为了得到更精准的预测框，还会进行一个Bounding Box Regression。

Extract region proposal

使用Selective Search算法从输入图像中提取2000个Region Proposal。文中使用该算法是因为控制变量，方便与其他方法比较。

selective search算法主要步骤：

1. 使用一种过分割手段，将图像分割成小区域 (1k~2k 个)

2. 计算所有邻近区域之间的相似性，包括颜色、纹理、尺度等

3. 将相似度比较高的区域合并到一起

4. 计算合并区域和临近区域的相似度

5. 重复3、4过程，直到整个图片变成一个区域

Feature extraction

由于文中使用的CNN中包含有全连接层，这就需要输入神经网络的图片有相同的size：所以需要对每个Region Proposal都缩放到固定的大小（227*227）。

在得到每个候选区域之后并不是直接截下来，而是截取比这个区域稍微更大点的区域，因为对这个区域进行卷积运算，边缘位置做卷积就会损失一些信息，所以在变形尺寸下，传入到神经网络的区域相比于比原始框会多出16个像素。

本文提了两种方法：

1. 不考虑图片的长宽比例，不考虑图片是否扭曲，直接缩放到CNN输入的大小227*227

2. 各向同性缩放：

先裁剪后扩展：先把bounding box图片裁剪出来，然后用固定的背景颜色填充成正方形图片(背景颜色也是采用bounding box的像素颜色均值),如下图(D)所示。

先扩张后裁剪：直接在原始图片中，把bounding box的边界进行扩展p像素延伸成正方形，然后再进行裁剪。如果已经延伸到了原始图片的外边界，那么就用bounding box中的颜色均值填充。如下图(B)(C)所示。

一组试点实验表明，使用上下文填充（p = 16 像素）的变形在很大程度上优于替代方案（3-5 个 mAP 点）

特征计算：将减去均值的 227 x227 RGB 图像（wrap）通过五个卷积层和两个完全连接层前馈传播来计算的。我们wrap的每个proposal通过 CNN 前馈传播它以计算特征。然后，对于每个类，我们使用 SVM 对每个proposal的特征向量进行评分。给定图像中的所有评分区域，我们用NMS，删除重复的proposal（如果区域具有交叉联合（IoU）与更高评分的选定区域重叠，则拒绝该区域）

Train CNN

利用Selective Search提取Region Proposal并resize后，接下来使用CNN从每个Region Proposal提取特征。本文训练CNN的方法，主要包括以下两步：

Pre-training阶段：由于物体标签训练数据少，本文采用的是有监督的预训练，使用一个大的数据集（Image Net ILSVC 2012）来训练AlexNet，得到一个分类的预训练（Pre-trained）模型。
Fine-tuning阶段：使用Region Proposal（PASCAL VOC）对Pre-trained模型进行fine-tuning。首先将原来预训练模型最后的1000-way的全连接层（分类层）换成21-way的分类层（20类物体+背景。然后计算每个region proposal和ground truth 的IoU，对于IoU>0.5的region proposal被视为正样本，否则为负样本（即背景）。在每次迭代的过程中，选取32个正样本和96个负样本（128）组成一个mini-batch（128，正负比：1：3）。我们使用0.001的学习率和SGD来进行训练。

Train SVM

在训练过程中，SVM的输入包括两部分：

(1) CNN feature：这个便是CNN网络为每个region proposal提取的feature，共2000*4096。

(2) Ground truth labels：在训练时，会为每个region proposal附上一个label（标注好的labels称为Ground truth labels）。

在SVM分类过程中，当IoU<0.3时，为负样本，正样本便是ground truth box。然后SVM分类器也会输出一个预测的labels，然后用labels和ground truth labels计算loss，然后训练SVM。

Non-maximum suppression(NMS)非最大抑制

目的：筛选候选区域，目标是一个物体只保留一个最优的框，来消除那些冗余的候选框。

过程：经过SVM之后，我们会得到2000个region proposal的class probability，然后我们可以根据‘有无物体’这一类过滤掉一大批region proposal，然后如果某个候选框的最大class probability<阈值，那也可以过滤掉这些region proposal，

那剩下的可能如图所示，就是有多个box相互重叠，目标检测的目标是一个物体有一个box即可，那这个时候就需要用到非极大值抑制（NMS）了，经过NMS之后，最终的检测结果如下图所示：

Bounding box regression

通过NMS筛选出来的候选框不一定非常准确，目标检测问题的衡量标准是重叠面积，许多看似准确的检测结果，往往因为候选框不够准确，重叠面积很小。bbox回归用于修正筛选后的候选区域，使之回归于ground-truth。

在目标检测中，窗口一般用四维向量(x, y, w, h)来表示，分别表示窗口的中心点坐标和宽高。在下图中，粉色的窗口P为region proposal，蓝色的窗口G为ground truth，那bounding box regression的目标呢就是：找到一种映射关系，使得P经过映射后会得到一个和G比较接近的G’。

。

即：给定(Px,Py,Pw,Ph) 寻找一种映射f，使得f(Px,Py,Pw,Ph)=(G’x,G’y,G’w,G’h)且(G’x,G’y,G’w,G’h)≈(Gx,Gy,Gw,Gh)

dx(P)、dy(p)、dw(p)、dh(p)这四个量分别与预测框的水平平移，垂直平移，水平缩放和垂直缩放有关。图像尺寸的缩放系数必须是个正数，而e^x具有恒正和单调递增的特性，所以作者dw( P ) 和dh(P)做了指数运算。

总结：

本文提出了一种简单且可扩展的目标检测算法，与 PASCAL VOC 2012 上的最佳先前结果相比，相对提高了 30%。

我们通过两个方法实现了这一性能。

首先是将大容量卷积神经网络应用于自下而上的region proposal，以定位和分割目标。

第二个是在标记训练数据稀缺时训练大型 CNN 的范例。对于具有丰富数据的辅助任务（图像分类），在有监督的情况下对网络进行预训练，然后针对数据稀缺的目标任务对网络进行微调是非常有效的。

我们推测“有监督的预训练/特定领域的微调”范式对于各种数据稀缺的视觉问题将非常有效。使用计算机视觉和深度学习的经典工具（自下而上的区域建议和卷积神经网络）的组合来实现这些结果是非常重要的

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cnn

论文解读

R-CNN论文解读的相关文章

【目标检测】Fast R-CNN详解

前言 Fast R CNN是作者Ross Girshick继R CNN后的又一力作同样使用VGG16作为网络的骨架在训练速度比R CNN快了近9倍测试速度快了213倍在Pascal VOC数据集上accuracy从62 提升至66
【目标检测】25、Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

文章目录一背景二动机三方法 3 1 Backbone 3 2 Learnable proposal box 3 3 Learnable proposal feature 3 4 Dynamic instance interact
Pytorch Mask R-CNN 实例分割

Mask R CNN通过在 Faster RCNN 的基础上添加一个分支网络在实现目标检测的同时把目标像素分割出来图像分割是深度学习和神经网络的一个重要应用使用Pytorch自带的Mask R CNN模型在实例分割中每个实例根据不
AttributeError: ‘_SingleProcessDataLoaderIter‘ object has no attribute ‘next‘

由于pytorch版本不同函数用法不同改为即可解决
Open-Set Object Detection and Discovery (OSODD)

最近因为工程需要就去调研一下 open set detection 算法然后发现一篇不错的论文 Towards Open Set Object Detection and Discovery 论文使用了额外的 memory 来当做网络的
TensorFlow搭建CNN-LSTM混合模型实现多变量多步长时间序列预测（负荷预测）

目录 I 前言 II CNN LSTM III 代码实现 3 1 数据处理 3 2 模型训练测试 3 3 实验结果 IV 源码及数据 I 前言前面已经写了很多关于时间序列预测的文章深入理解PyTorch中LSTM的输入和输出从inp
卷积神经网络之计算机视觉应用（一）

卷积神经网络之计算机视觉应用一一引言 21世纪开始卷积神经网络就被成功的大量用于检测分割物体识别以及图像的各个领域值得一提的是图像可以在像素级别进行打标签这样就可以应用在比如自动电话接听机器人自动驾驶汽车等技术中尽管卷
理解图像卷积操作的意义

数字信号处理中卷积卷积一词最开始出现在信号与线性系统中信号与线性系统中讨论的就是信号经过一个线性系统以后发生的变化由于现实情况中常常是一个信号前一时刻的输出影响着这一时刻的输出所在一般利用系统的单位响应与系统的输入求卷积以求得系统
【CV】第 10 章：使用 R-CNN、SSD 和 R-FCN 进行目标检测

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
TensorFlow在MNIST中的应用识别手写数字（OpenCV+TensorFlow+CNN）

参考 1 TensorFlow技术解析与实战 2 http blog csdn net sparta 117 article details 66965760 3 http blog csdn net HelloZEX article de
CNN，Transformer，MLP三分天下

title 论文列表 1 MLP Mixer MLP Mixer An all MLP Architecture for Vision 2 MetaFormer MetaFormer is Actually What You Need fo
借助CIFAR10模型结构理解卷积神经网络及Sequential的使用

CIFAR10模型搭建 CIFAR10模型结构 0 input 3 32x32 3通道32x32的图片 gt 特征图 Feature maps 32 32x32即经过32个3 5x5的卷积层输出尺寸没有变化有x个特征图即有x个卷积核卷
MATLAB代码基于cnn-lstm的轴承寿命预测

一种结合卷积神经网络 convolution neural networks 简称CNN 和长短时记忆 long short term memory 简称LSTM 神经网络的滚动轴承RUL预测方法首先对滚动轴承原始振动信号作快速傅里叶变
基于CNN-GRU的多维数据预测算法——附带Matlab代码

基于CNN GRU的多维数据预测算法附带Matlab代码近年来卷积神经网络 CNN 和门控循环单元 GRU 在时序数据处理中的应用十分广泛本文提出了一种基于CNN GRU结构的多维数据预测算法并提供了相应的Matlab代码首先
复习整理 Mask R-CNN

理解Mask R CNN 文章目录理解Mask R CNN 前言一简介基础点名词解释简单复习前言为了综合复习 Mask R CNN 写一个博客简言之物体检测产生一个切割mask 识别和FasterR CNN区别能生
人工智能自然语言处理：语言之美，算法之智

导言自然语言处理 Natural Language Processing NLP 是人工智能领域中备受关注的分支致力于让计算机能够理解处理和生成人类语言本文将深入研究人工智能在自然语言处理领域的关键技术应用场景以及未来发展趋势 1
软件工程毕设基于深度学习的中文汉字识别 - 深度学习卷积神经网络机器视觉 OCR

文章目录 0 简介 1 数据集合 2 网络构建 3 模型训练 4 模型性能评估 5 文字预测 6 最后 0 简介最近在帮一位同学做中文汉字识别项目学长在这记录和发布一些项目相关知识基础和部分实现欢迎同学们讨论学习 1 数据集合学长手
【计算机毕设】基于深度学习的人脸表情识别 - 卷积神经网络毕设代码

文章目录 0 简介 1 项目说明 2 数据集介绍 3 思路分析及代码实现 3 1 数据可视化 3 2 数据分离 3 3 数据可视化 3 4 在pytorch下创建数据集
基于麻雀算法优化卷积神经网络-长短期记忆网络结合自注意力机制SSA-CNN-LSTM-selfAttention回归预测，多变量输入模型。matlab代码。优化参数，学习率，正则化，神经元个数。

清空环境变量 warning off 关闭报警信息 close all 关闭开启的图窗 clear 清空变量 clc 清空命令行导入数据 result1 xlsread 数据集 xlsx result result1 1 1000 数据分
振动信号数据如何制作特征？

对振动信号进行特征提取是故障诊断和预测中常见的任务下面是一些可能对振动信号有用的特征时域特征均值 Mean 标准差 Standard Deviation 峭度 Kurtosis 偏度 Skewness 峰值因子 Peak to Pea

随机推荐

超详细的python调用树莓派的摄像头基本使用

这里首先讲解的是CSI摄像头 picamera 1 1录制一段10秒的视频到本地 import picamera camera 61 picamera PiCamera camera resolution 61 640 480 camera
手把手教你写MC9S12G128 Timer

目录一 TIM模块概述 1 定时器计数器的特点 2 嵌入式系统中定时器计数器模块的作用二 TIM模块结构和工作原理 1 TIM结构模块 1 1 TIM组成 1 2 特点 2 TIM模块工作原理 2 1 工作模式 2 2 定时器模块框
opencv 显示图片

import cv2 import numpy as np 读取图片 img 61 cv2 imread 39 test16 jpg 39 图片显示 cv2 imshow 39 picture 39 img cv2 waitKey 0 cv
VMware+Ubuntu与Windows宿主机文件共享的实现

学习嵌入式开发 xff0c Linux环境是必不可少的现在一般都会选择在Windows上用VMware 43 Ubuntu的方式来构筑交叉开发环境这样的好处是 xff0c 既不离开Windows这个熟悉的环境 xff08 有很多Wind
大数据概论

一 xff0e 大数据大数据 xff08 big data xff09 xff0c 指无法在一定时间范围内用常规软件工具进行捕捉管理和处理的数据集合 xff0c 是需要新处理模式才能具有更强的决策力洞察发现力和流程优化能力的海量高增
基于ESP32搭建物联网服务器十三(自已搭建一个MQTT服务器)

在之前的文章中 ESP32搭建WEB服务器十二使用MQTT协议与ESP32互动你的幻境的博客 CSDN博客我们已经实现了ESP32通过MQTT协议连接到公共MQTT服务器上 xff0c 但是公共服务器在稳定性或安全性上 xff0c 很
flash烧写uboot举例

烧写uboot到QSPIFLASH 简述 xff1a 主要是讲ZYNQ7000系列的烧写文件方法 xff0c 衔接上文链接 Petalinux工具编译生成boot和kernel等流程 JTAG下载全部镜像到内存运行以下操作在XSDK环境下
1000+ 道 Java面试题及答案整理(2023最新版)

作为 Java 程序员 xff0c 选择学习什么样的技术 xff1f 什么技术该不该学 xff1f 去招聘网站上搜一搜看看岗位要求就十分清楚了 xff0c 自己具备的技术和能力 xff0c 直接影响到你工作选择范围和能不能面试成功如果想
锁与CAS详解

一悲观锁与乐观锁乐观锁和悲观锁问题 xff0c 是出现频率比较高的面试题本文将由浅入深 xff0c 逐步介绍它们的基本概念实现方式含实例适用场景 xff0c 以及可能遇到的面试官追问 xff0c 希望能够帮助你打动面试官乐观锁
PowerShell知识整理

文章目录前言一快捷键二符号2 1 常用符号2 2 条件运算符三常用辅助命令四信息的筛选4 1 正则表达式4 2 管道4 2 1 基本概念4 2 2 Get Member4 2 3 Where Object4 2 4 Select
树莓派登入ssh很慢和开机启动tightvncserver及其他问题

树莓派登入ssh 很慢关闭 ssh的gssapi认证执行命令 xff1a sudo vim etc ssh ssh config 在该文件的末尾找到这两行设置并注释掉 span class token macro property GS
光波长与RGB数值的转换

最近做毕业设计时 xff0c 需要Matlab仿真计算彩色物体的散射图像计算中需要用到彩色图片 xff08 RGB色彩模式 xff09 对应的光波长数值查找资料发现可以实现 xff1a 由光波长求对应RGB数值正在做尝试 xff0c
【原创】Git删除暂存区或版本库中的文件

0 基础我们知道Git有三大区 xff08 工作区暂存区版本库 xff09 以及几个状态 xff08 untracked unstaged uncommited xff09 xff0c 下面只是简述下Git的大概工作流程 xff08
Ubuntu20.04和Ubuntu18.04更换清华镜像源

1 备份Ubuntu默认的源地址在终端输入 xff1a sudo cp etc apt sources list etc apt sources list backup 2 xff1a 更新源服务器列表 span class token
keil5安装后续错误解决

嵌入式 keil5安装软件安装 STM32 有个博主讲的很好 xff0c 可以参考 xff0c 也有资源提供下载点这里 xff0c 电梯直达第一个错误解决 Fatal error cannot open the source file
gcc常用参数

今晚看了些有关gcc的编译选项的内容 xff0c 记录下来以备查用 1 gcc c 只编译不链接 xff0c 生成 o文件例如 xff0c gcc c hello c xff0c 将由hello c得到hello o 2 gcc o 直接
String类型的详解

文章目录一字符串的定义方式二 String注意问题三内存分布 xff08 注意问题详解 xff09 1 分布方式12 分布方式23 分布方式3常量池四练习问题问题一 xff1a 问题二 xff1a 五字符串不可变更改String
调整图片大小和像素

在很多官方的系统中 xff0c 要求限制上传文件的大小 xff0c 有时候照片的大小太大 xff0c 怎么调整大小呢 xff1f 对于windows用户来说 xff0c 调整的方法很简单 xff0c 只需要利用Windows系统自带的工具就
python期末考试

python期末考试文章目录 python期末考试前言一选择题二多选题三函数题四 xff0c 编程题前言提示 xff1a 这里可以添加本文要记录的大概内容 xff1a 记录本学期python期末考试提示 xff1a 以下是本篇
R-CNN论文解读

背景 R CNN Regions with CNN features 这篇论文是在2014年CVPR的论文 xff0c 在此之前目标检测并未使用基于深度学习的方法 xff0c 主流的目标检测思路还是基于传统的目标检测方法 SIFT HOG等

R-CNN论文解读

R-CNN论文解读 的相关文章

随机推荐

热门标签

R-CNN论文解读的相关文章