实例分割之 Mask R-CNN

2023-11-09

论文地址:Mask R-CNN

代码地址:facebookresearch/Detectron

Mask R-CNN是在Faster R-CNN的基础上进行了改进。Faster R-CNN主要是用来进行目标识别的,为了能够进行实例分割,Mask R-CNN在Faster R-CNN的基础上加了一个分支,这个分支主要是由一个small FCN(全卷积网络)构成。这个FCN就是用来输出一个Mask,这也就是所谓的Mask R-CNN了。这个Mask 就是为了更准确的对实例的轮廓进行定位,以便进行准确的分割。FCN若要准确的预测实例的轮廓位置,对每个像素进行准确分类,对输入输出特征对齐要求非常高,即输入输出的空间尺度对齐。而Fast R-CNN中的RoIPooling的两步量化操作导致了严重的空间尺度失准,为了克服RoIPooling层的量化操作,Mask R-CNN提出了改进的RoIPooling层,称之为RoIAlign层。RoIAlign层在进行输出固定feature maps的过程中,没有量化过程。总结如下:

1. Mask R-CNN在Faster R-CNN的框架下加入了一个FCN分支,用来输出Mask;

2. Mask R-CNN对Fast R-CNN提出的RoIPooling层进行了改进,提出了RoIAlign层。

下面来看一下Mask R-CNN的总体框图,如下图图1所示:


                                                               图1 Mask R-CNN网络架构

从上图图1的Mask R-CNN的网络架构可以看出,整个架构是基于Faster R-CNN的。首先是读入一张图像,进入backbone architecture(论文中采用ResNet和ResNet-FPN),输出feature maps,接下来的两个分支的处理操作与Faster R-CNN完全一致,接下来的区别就在RoIPooling层与RoIAlign层的区别。下面具体看一下RoIPooling层与RoIAlign层的操作有什么不同,如下图图2所示:


                                                                      图2 RoIPooling层与RoIAlign层输出对比

首先说一下RoIAlign层,论文中描述RoIAlign层是一个quantization-free layer。那么与之相对的RoIPooling层执行了哪些量化操作呢?由Fast R-CNN可知,RoIPooling总共执行了两步量化操作:

第一步:将原图像坐标系输出的region proposals的四元组坐标映射到feature maps上是会根据Pooling层(比如VGG16的con4_x输出的feature maps经历了4个max pooling层)的操作,feature maps的spatial size进行了缩放,比如VGG16用RoIPooling替换掉最后一个max pooling,其输出的feature maps的spatial size相对原图像缩小了16倍,所以将原图像坐标系对应的四元组坐标值均要除以16,此时对于不能整除的结果进行第一步量化,为表示rounding操作。

第二步:在对region proposal进行划分网格的时候,也会遇到不能整除的情况,如上图图2中左上角的图,就因为不能整除,在进行量化的时候,导致无法对region proposal进行均匀划分网格,这回导致输入与输出特征的严重失准。

下面来看一下RoIAlign层是怎么做的。RoIAlign严格避免了上述的两步量化操作,以至于region proposal与划分的网格不能正好包含完整的像素,如上图图2中的第2列所示。RoIAlign是通过双线性插值的方法来得到每个网格的像素值的。如下图图3所示:


并且在上述插值的过程中,实验效果表明,只要这个过程没有量化操作,对于每个网格插值的位置与抽样点数均不敏感,所以在编程实现的时候一般对每个网格只插值一个抽样点。

下面说一下由FCN得到Mask的过程。起初FCN是用于语义分割被提出来的,这里的FCN是用于对每一个由RPN输出的region proposal进行语义分割的,首先由FCN输出81个通道的feature maps(Mask R-CNN在MS COCO上做的实验,MS COCO总共有80类+BG为81类),而选择哪个通道的feature map呢?是这样的,由Classification Head,根据Softmax输出的类别概率分布,选择概率最大值对应的类别标签作为最终的预测类别,然后根据这个预测类别,选出对应的channel。也就是说,如果Classification Head预测的类别为7,则选出FCN输出的第7个通道的feature map,其它通道的feature maps直接被忽略了,在计算FCN Mask的目标函数的时候,他们也不参与。下面看一下的计算:


那么怎样得到最终的输出Mask呢?是这样的,首先Mask经过sigmoid函数,将输出映射到[0, 1]之间的概率值,然后将输出的mxm 的spatial size resize to the RoI size,再采用阈值法,论文中的阈值设为0.5,进行二值化。那么输出的这个Mask在进行实例分割的时候扮演什么样的角色呢?主要是用来大致定位出目标实例的基本轮廓,有利于进一步准确进行实例分割。

Mask R-CNN论文中做的相关实验非常丰富,这里就不讲了,关键在于理解RoIAlign层和添加的FCN分支,在以后会详细讲解Mask R-CNN的代码实现。




本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

实例分割之 Mask R-CNN 的相关文章

  • redis单机,集群搭建教程

    环境准备 Linux 版本 Centos 7 0 2009 Redis版本 redis 5 0 3 tar gz 文章目录 一 redis是什么 二 单机搭建步骤 三 集群搭建步骤 在一台机子搭建一个伪集群 总结 一 redis是什么 通常
  • LaTex 加粗(加黑)的方式

    1 基本 LaTeX技巧458 关于LaTeX数学字体加粗 mathbf 会变为粗体 但也导致数学字母斜体形式的丢失 使用 amsmath package 的 boldmath 命令 boldmath f x y 3 x y y 2xy 7
  • Failed to initialize NVML: Driver/library version mismatch

    nvidia驱动安装之后 nvidia smi 报错 Driver library version mismatch 不重启系统的解决方法 查看系统日志 确定具体报错信息 dmesg tail 8598493 408944 NVRM API

随机推荐

  • Unity2018新功能抢鲜

    本文首发于 洪流学堂 微信公众号 洪流学堂 让你学Unity快人几步 洪流学堂公众号回复节点 获取ShaderGraph节点详解PDF文件 带目录 Shader一直是Unity开发者的一个难关 涉及到数学 图形学 shader语法等多个难题
  • oracle 导出指定表和导入

    导出之前要注意一个问题 版本的问题 所以导出的语句应该指定版本 版本应该是要导入这些表的数据库的版本 expdp user password sid tables table1 table2 file expdp2022111 dmp ve
  • LeetCode力扣热题一百·自我解法记录(JAVA版本·仅代码)

    1 两数之和 哈希表 题目链接 力扣 两数之和 简单 import java util HashMap class Solution public int twoSum int nums int target 创建哈希表 HashMap
  • JavaScript - 插入排序的两种方式

    插入排序1 新建一个新数组 循环遍历原始数据 把原始数组内的每一个逐个插入到新数组内 在插入的时候 按照一定的顺序插入 原始数组 var arr 9 2 5 3 7 6 4 1 8 准备一个新数组 var newarr 循环遍历原始数组 f
  • 大学生团体天梯赛(第六届)

    题目地址 天梯赛 include
  • 高级信息系统项目管理师十大领域

    文章目录 一 项目整合管理 1 制定项目章程 2 制定项目管理计划 3 指导与管理项目工作 4 管理项目知识 5 监控项目工作 6 实施整体变更控制 7 结束项目或阶段 二 项目范围管理 1 规划范围管理 2 收集需求 3 定义范围 项目范
  • Flutter 常用插件

    dio http请求库 flutter swiper carousel slider 图片 轮播组件库 package info url launcher 系统库 app相关信息 打电话 发邮件等 pull to refresh flutt
  • 数据结构题目汇总

    求整数最大间隔 性能 hash算法应用 题目描述 请输出数字序列的最大间隔 请使用以下伪随机数生成函数 rand32 生成伪随机数 int seed int rand return seed seed 214013L 2531011L gt
  • 通过Restful api接口上传文件

    Restful api接口获取文件流的方法如下 from requests toolbelt import MultipartEncoder with open ch01 mp4 rb as f file stream f read m M
  • 计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)

    图像分类 教程博客 传送门链接 链接 在本教程中 您将学习如何使用迁移学习训练卷积神经网络以进行图像分类 您可以在 cs231n 上阅读有关迁移学习的更多信息 本文主要目的是教会你如何自己搭建分类模型 耐心看完 相信会有很大收获 废话不多说
  • 初探Javascript模块化开发

    随着简单网页逐渐变成交互复杂的网站应用 网页上的Javascript代码也变得越来越庞大 越来越复杂 加之随即而来的多人协作分工的开发方式 每个人只负责其中一个或者几个很小的功能模块 最终必须通过把各个功能模块组合才能变成一个完整的功能 而
  • 2023.9.6 Redis 的基本介绍

    目录 Redis 的介绍 Redis 用作缓存和存储 session 信息 Redis 用作数据库 消息队列 消息队列是什么 Redis 用作消息队列 Redis 的介绍 特点 内存中存储数据 奠定了 Redis 进行访问和存储时的快 可编
  • Java多线程专题-synchronized的使用

    为什么有线程安全问题 当多个线程同时共享同一个全局变量或静态变量 做写的操作时 可能会发生数据冲突问题 也就是线程安全问题 但是做读操作是不会发生数据冲突问题 使用同步方式解决线程安全 问 如何解决多线程之间线程安全问题 答 使用多线程之间
  • 学习SVG(十)滤镜

    什么是滤镜 使用滤镜后 在SVG中不会直接将图形渲染到画布上 是先将图形的像素保存到缓存中 然后将滤镜指定的操作应用图形的像素对象中 然后在把新的图形像素对象展示在画布上 使用filter元素指定一组 滤镜元素 在渲染图形对象时 将该操作应
  • 南航数据分析与挖掘课设1(上)——基于多元线性回归模型,ARIMA序列的中国GDP增长影响因素研究及预测(R语言)

    基于多元线性回归模型 ARIMA序列的中国GDP增长影响因素研究及预测 摘要 在国民经济发展的过程中 国内生产总值 GDP 是指按国家市场价格计算的一个国家 或地区 所有常驻单位在一定时期内生产活动的最终成果 常被公认为是衡量国家经济状况的
  • centos7 安装Anaconda3 亲测成功

    目录 Anaconda简介 1 下载 1 1 创建一个文件夹来存放安装包 1 2 进入到文件夹里面 1 3 wget命令行下载 1 4 下载情况 2 开始安装 2 1 进入到存放文件的位置 2 2 运行 sh 文件 2 3 进入注册信息页面
  • python中heapq的使用

    目录 1 heapq heapify list 2 heapq heappush heap item 3 heapq heappop heap 4 heapq nlargest n heap 5 heap nsmallest n heap
  • 用Flair(PyTorch构建的NLP开发包)进行文本分类

    Flair是一个基于PyTorch构建的NLP开发包 它在解决命名实体识别 NER 语句标注 POS 文本分类等NLP问题时达到了当前的顶尖水准 本文将介绍如何使用Flair构建定制的文本分类器 简介 文本分类是一种用来将语句或文档归入一个
  • 笔记——尤老师讲笔试

    1 Function内部不能使用时间延迟 也不能使用 这种事件触发 只能实现一些组合逻辑运算 也不能调用task task可以有时间延迟 function不可以用时间延迟 Verilog 中的 task 是一种不可综合的语法 它既提供了从不
  • 实例分割之 Mask R-CNN

    论文地址 Mask R CNN 代码地址 facebookresearch Detectron Mask R CNN是在Faster R CNN的基础上进行了改进 Faster R CNN主要是用来进行目标识别的 为了能够进行实例分割 Ma