目标检测任务简述

2023-11-05

目标检测竟然也可以说是一个比较上游的任务了,以此为基础的下游任务可以是环境感知(自动驾驶),人体关键点检测等;

与图像分类的区别

目标检测物体数量不固定,位置不固定,大小不固定;分类一般都是一张图片中是一个物体,位置在正中间,大小占整张图片的大部分。

滑窗:设定固定大小窗口;遍历图像所有位置,所到之处先用分类模型识别窗口中的内容;

为了检测不同大小、形状的物体,使用不同大小,长宽比的sliding window去检测;

但是滑窗效率很低,为此做出了如下改进 :

  • 替换暴力的遍历操作:例如R-CNN,FRCNN的selective search产生提议框,但是提议框作为不能训练的外部操作违背了从数据中学习的理念
划窗方法的低效率

 

  • 有重叠部分被卷积重复计算了: 改为考虑使用卷积一次性计算所有特征,再取出对应位置的特征图完成分类(三个词概括地简单来说:定位,抠出来,“特征图剪裁”。)这种方法也被称为 “特征图滑窗”。
减少被重复计算的部分

 

在特征图上进行密集预测:密集预测是基于网络定义的隐式滑窗方法,不同特征的感受野自然形成一系列等距离分布的窗;把特征送入网络的线性层(线性分类器); 事实上,通过1*1 的卷积达成这个线性作用是如今的方法,产生出概率图。

 

二阶段方法,基于区域的方法,的概念还在;

单阶段方法,基于单点特征实施密集预测;

发展历史简述:

2012年前:DPM;2012年后: RCNN->FR-CNN(21~34 map;100~200ms)->MASK R-CNN ( RPN 类似于密集预测范式);

YOLO(22ms) 加入多尺度技术FPN;更新出retinanet(73~198ms),YOLO更多的系列;

SSD;

级联方法 Cascade R-CNN(42.8), HTC;

transformer: DETR; Deformable DETR(52.3);

检测基础知识

  • ,边界框,BBOX, 描述的方法:左上右下边界坐标; 中心坐标和框的长宽;

同义词:区域region;区域提议region propose;感兴趣区域region of interest |||| Roi;锚框anchor box,anchor

  • 交并比:交集面积和并集面积之比,框重合重读的衡量指标
  • 置信度:分类模型预测概率,可能会有些其他的加权score影响
  • 非极大值抑制 non-maximum suppression:物体周围多个相近的检测框,实际指向同一个物体的框们,只保留其中置信度最高的,-> 把高重叠的框们中confidence非最大的抑制掉;
  • 边界框回归 BBOX regression:滑窗与物体精准边界有偏差,为了精准预测边界;所以要求模型在预测分类时还要预测框的相对偏移量;
  • BBOX CODING 边界框编码:设计归一化等编码方案,为了让回归任务轻松一些;

以特征图对应在原图的位置,设置不同尺寸的基准框,产生多个预测;RPN是专门检测某个地方有没有物体的;开篇了解决大框下有多个目标的问题;

-> 给出有和没有,并且把有的类别都给出来的YOLO 

 

一阶段算法的问题之一:正负样本不均衡,8700+的样本分类,正样本却只有几十个 -> 模型会偏向背景预测,导致漏检;

△ 朴素的分类损失不能驱动检测器在有限能力下达到漏检和错检之间的平衡。

-> focal loss -> retinanet 解决一阶段的正负样本不均衡问题;

-> 不基于框,基于点 (为什么能?如图)

 

 

centernet2019 定义出以关键点来检测,展开了3D和姿态估计等领域的检测

DETR2020:脱离密集预测范式,从特征序列到框序列的翻译问题,更端到端的方法,不进行什么后处理,set -> set 的过程; 但是这个方法收敛很慢

Deformable DETR2021: 注意力聚焦的方式修改成基于(直接显示出) query,Q 的位置,加快收敛;这是范式的创新;swin是主干的创新

评估方法:TP :检测正确,并且检测到了; FP: 检测错误,但是确实检测到了;

FN:没检测到,并且检测失败;

R = TP / (TP +FN) P = TP / (TP +FP)

画PR curve ,计算图线下方面积得AP值 ;

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

目标检测任务简述 的相关文章

随机推荐

  • chisel黑盒(调用verilog书写的模块)

    因为Chisel的功能相对Verilog来说还不完善 所以设计人员在当前版本下无法实现的功能 就需要用Verilog来实现 在这种情况下 可以使用Chisel的BlackBox功能 它的作用就是向Chisel代码提供了用Verilog设计的
  • Windows win10设置网卡优先级

    因为最近在做mqtt服务器 偶然发现手机连接不到笔记本搭建的mqtt服务器 找了半天 发现可能是mqtt没有绑定到无线网卡ip上面 猜测未验证 虽然在绝大多数情况下 Windows 10 系统都能够自动决策出应该优先使用的最佳网络连接顺序
  • 为什么每个程序员都必须坚持写博客?这篇文章教你怎么写!

    V xin ruyuanhadeng获得600 页原创精品文章汇总PDF 一 往期回顾 上篇文章 为什么有些看起来很厉害的技术高手 设计的架构都很垃圾 主要聊了一下将单块系统重构为分布式系统 以此来避免单台机器的负载过高 同时引申出来了弹性
  • C初阶必写的C语言小游戏—扫雷,一看就会,看完就能写

    目录 一 前言 二 资源环境的配置 三 游戏整体构思 1 游戏的开始与结束 菜单 2 创建二维数组用来布置雷和排查雷的信息 3 初始化棋盘 4 打印棋盘 5 布置雷 6 排查雷 四 所有代码及效果展示 一 前言 人尽皆知的扫雷小游戏 原理简
  • building for iOS Simulator-arm64 but attempting to link with file built for iOS Simulator-x86_64

    Xcode 13 M1 Macboook Pro 使用模拟器编译iOS项目报 building for iOS Simulator arm64 but attempting to link with file built for iOS S
  • 如何优雅地弄好PCB丝印

    很多画PCB的人 会认为丝印不影响电路的性能 所以 对丝印并不重视 但是 对于一个专业的硬件工程师来说 必须重视这些细节 摆放的位置 一般来说 电阻 电容 管子等器件的丝印 摆放的时候 不要使用四个方向 这样会导致调试 维修 焊接的时候 看
  • python基础学习第三天(格式化输出、for循环、while循环、嵌套循环、range用法)

    python基础学习第三天 概括昨日所学的知识点 一 格式化输出 1 旧式的字符串格式化输 s d f等 2 format的用法 3 f 字符串 格式化字符串字面值 二 进阶的格式化输出 三 for循环 range 函数 四 while循环
  • 【数据分析面试题】一道 面试题,我的答案

    分享一下 数据结构 姓名 类别 花费 李 看电影 30 李 吃饭 100 李 旅游 500 王 吃饭 500 王 看电影 100 王 买衣服 700 展现效果 姓名 TOP1类别 TOP1花费 TOP2类别 TOP2花费 TOP3类别 TO
  • 华为eNSP的介绍与简单使用

    一 eNSP 1 什么是eNSP eNSP Enterprise Network Simulation Platform 是一款由华为提供的免费的 可扩展的 图形化操作的网络仿真工具平台 主要对企业网络路由器 交换机进行软件仿真 完美呈现真
  • vant组件库中toast非正常显示,出现白底

    参考链接 原 原代码 showLoadingToast message 加载中 forbidClick true className particulars detail popup 解决方法 给toast添加样式覆盖原有样式 新代码 sh
  • 时间序列分析:指数平滑与ARIMA模型

    时间序列是指 将某种现象的指标数值按照时间顺序排列而成的数值序列 时间序列分析可以分成三大部分 描述过去 分析过去和预测未来 目录 1 时间序列基本概念 2 时间序列分解 2 1 长期趋势 T Secular trend 2 2 季节趋势
  • XSS-labs靶场实战(二)——第4-6关

    今天继续给大家介绍渗透测试相关知识 本文主要内容是XSS labs靶场实战第4 6关 免责声明 本文所介绍的内容仅做学习交流使用 严禁利用文中技术进行非法行为 否则造成一切严重后果自负 再次强调 严禁对未授权设备进行渗透测试 一 第四关 我
  • 安装和使用Atom编辑器

    atom编辑器是一个Github出品的现代的 可扩展的编辑器 和古老的Vim Emacs相比 atom具有诸多优点 一是出现较晚 可以使用最新出现的各种技术 二来atom使用web技术构建而成 广大的web开发者可以很容易的为atom编写扩
  • shell脚本指定环境启动jar包

    路径说明 opt路径下配置脚本api run sh 并在该路径下创建文件夹envment 上传jar包至envment下 opt api run sh envment java jar 启动命令 sh opt api run sh rest
  • 【第19例】IPD开发流程

    目录 前言 专栏目录 详细内容 华为流程体系列表 CSDN学院 作者简介 前言 今天 IPD体系进阶100例 就更新到了第 19 例 在 第16例 中讲到了 IPD
  • Slowloris dos攻击的原理及防护

    反射攻击已经成为DDoS攻击的主要方式 在一些博客中也有论述 最为常用的当属ddos反射放大攻击 但是如今 受政策影响 反射式攻击放缓 2018年 平均每个月反射攻击下降了0 93万次 非反射攻击增加了0 35万次 Slowloris do
  • 计算机网络 IP多播

    IP 多播的基本概念 IP 多播 multicast 以前曾译为组播 已成为互联网的一个热门课题 目的 更好地支持一对多通信 一对多通信 一个源点发送到许多个终点 例如 实时信息的交付 如新闻 股市行情等 软件更新 交互式会议及其他多媒体通
  • vue 列表中默认显示几条数据,点击展示全部

    思路 1 获取接口数据的时候 给每一条数据都新增一个showmore false 变量 2 显隐展示 新增一个常量默认展示几条 判断showmore false 展示几条 为true展示全部 3 点击每一项的时候 展示隐藏问题 使用this
  • 第一篇 Spring Cloud Alibaba入门

    1 为什么会出现Spring Cloud Alibaba 1 1Spring Cloud Netflix项目进入维护模式 官网说明地址 https spring io blog 2018 12 12 spring cloud greenwi
  • 目标检测任务简述

    目标检测竟然也可以说是一个比较上游的任务了 以此为基础的下游任务可以是环境感知 自动驾驶 人体关键点检测等 与图像分类的区别 目标检测物体数量不固定 位置不固定 大小不固定 分类一般都是一张图片中是一个物体 位置在正中间 大小占整张图片的大