目标检测（object detection）

2023-10-30

目标检测

目标检测
目标检测的任务
R-CNN
- 目标检测-Overfeat模型
SPPNet
Fast R-CNN
Faster R-CNN
YOLO介绍
YOLOV2
YOLOV3
SSD算法原理

目标检测

目标检测的任务是找出图像中所感兴趣的目标，并确定它们的类别和位置。
算法分类：
两步走的目标检测：先进行区域推荐，然后进行目标分类。
R-CNN、 SPP-Net 、Fast R-CNN 、R-FCN
端到端的目标检测：直接在网络中提取特征来预测物体分类和位置。
OverFeat、YOLOv3、SSD和RetinaNet

目标检测的任务

分类的损失和优化
分类：评估指标Accuracy
定位：主要评估指标IOU（bbox，bounding box）

对于分类的概率使用交叉熵损失，位置信息具体数值可以使用MSE均方误差损失（L2损失）

R-CNN

目标检测-Overfeat模型

目标检测的暴力方法是从左到右、从上到小滑动窗口，利用分类识别目标。
滑动窗口需要初始设定一个固定大小的窗口，所以需要提前设定窗口数量和大小。
把图像变形为固定大小输入到CNN分类器后，提取特征后，使用一些分类器识别类别和该边界框的另一个线性回归分类器。

候选框区域提案+极大值抑制
选择性搜索候选框区域：是一个语义分割方法，它通过在像素级的标注，把颜色边界纹理等信息作为合并条件，多尺度的综合采样方法，划分出一系列的区域，这些区域要远远少于传统的滑动窗口的穷举法产生的候选区域。

首先通过CNN提取高级特征作为下一步的分类器、回归的输入数据。
CNNs需要固定尺寸，因为后面的全连接层部分需要固定尺寸的输入。
训练一个线性回归模型去预测一个新的检测窗口，回归用于修正筛选后的候选区域。
非最大抑制（NMS）：筛选候选区域，目标删除那些冗余的候选框。
IOU交并比：主要用于在CNN和SVM训练时计算正负样本使用，以及测试阶段的NMS使用。
平均精确率（mAP）
缺点：训练阶段多，训练耗时，处理速度慢，图片形状变化。

SPPNet

SPPNet引入一种空间金字塔池化层易移除对网络固定尺寸的限制。
SPP层放在最后一个卷积层后。SPP层对特征进行池化，并产生固定长度的输出，这个输出再喂给全连接层。
首先选择性搜索，对待检测的图片进行搜索出2000个候选窗口。这然后把整张图片输入到CNN中进行一次性的特征提取，然后feature maps中通过映射关系找到各个候选框区域。
在这里插入图片描述
优点：通过候选区域和feature map的映射，配合SPP层的使用，从而达到了CNN层的共享计算，减少了运算时间
缺点:训练依旧过慢、效率低，特征需要写入磁盘，分阶段训练网络

Fast R-CNN

采用了多项创新提高训练和测试速度来提高检测精度。
改进：提出了一个Rol pooling layer，然后整合整个模型，把CNN、Rolpooling、分类器、bbox回归几个模块整个一起训练。

Faster R-CNN

在Fast RCNN还存在着瓶颈问题：选择性搜索
加入了一个提取边缘的神经网络。
目标检测的四个基本步骤（候选区域生成，特征提取，分类，位置精修）终于被统一到一个深度网络框架中。
RPN：是一个全卷积网络，可以同时在每个位置预测目标边界和目标分数。
可以简单的看成是区域生成网络+Fast R-CNN的模型

RPN原理：区域提议网络以任意大小的图像作为输入，输出一组矩形的目标提议，每个提议都有一个目标得分。
平移不变性anchors：在图像中平移了物体，窗口建议也会跟着平移。
总结：优点：提出RPN网络、端到端网络模型
缺点：训练参数过大、小目标检测效果不好。

YOLO介绍

端到端的目标检测方法。
使用单个神经网络，在一次评估中直接从完整图像上预测边界框和类别概率。由于整个检测流程仅用一个网络，所以可以直接对检测性能进行端到端的优化。
过程：
把图像缩放到448*448、利用卷积神经网络在该图像上进行处理、根据模型的置信度对检测结果进行处理NMS。获取最终的检测结果
每个网格会预测边框以及置信度分数。
预测位置大小-回归offset代替直接回归坐标。

yolo预测的是类的条件概率。

YOLOV2

批标准化、高分辨率分类器、基于卷积的Anchor机制，使用k-means对训练集中边框做了聚类分析尝试找到合适的anchor

YOLOV3

在三个不同尺度的特征图上进行预测。
每个尺度特征设置的先验框大小。
逻辑回归替代softmax作为分类器。
在训练过程中，使用二元交叉熵损失来进行类别预测。

SSD算法原理

结合了YOLO中的回归思想和Faster-RCNN的anchor机制，使用全图各个位置的多尺度区域进行回归，既保持了YOLO速度快的特性也保证了窗口预测的跟Faster-RCNN一样比较精准。
SSD的核心是在不同尺度的特征图上采用卷积核来预测一系列Default Bounding Boxes的类别、坐标偏移。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)