实例分割之 Mask R-CNN

2023-11-09

论文地址：Mask R-CNN

Mask R-CNN是在Faster R-CNN的基础上进行了改进。Faster R-CNN主要是用来进行目标识别的，为了能够进行实例分割，Mask R-CNN在Faster R-CNN的基础上加了一个分支，这个分支主要是由一个small FCN（全卷积网络）构成。这个FCN就是用来输出一个Mask，这也就是所谓的Mask R-CNN了。这个Mask 就是为了更准确的对实例的轮廓进行定位，以便进行准确的分割。FCN若要准确的预测实例的轮廓位置，对每个像素进行准确分类，对输入输出特征对齐要求非常高，即输入输出的空间尺度对齐。而Fast R-CNN中的RoIPooling的两步量化操作导致了严重的空间尺度失准，为了克服RoIPooling层的量化操作，Mask R-CNN提出了改进的RoIPooling层，称之为RoIAlign层。RoIAlign层在进行输出固定feature maps的过程中，没有量化过程。总结如下：

1. Mask R-CNN在Faster R-CNN的框架下加入了一个FCN分支，用来输出Mask；

2. Mask R-CNN对Fast R-CNN提出的RoIPooling层进行了改进，提出了RoIAlign层。

下面来看一下Mask R-CNN的总体框图，如下图图1所示：

图1 Mask R-CNN网络架构

从上图图1的Mask R-CNN的网络架构可以看出，整个架构是基于Faster R-CNN的。首先是读入一张图像，进入backbone architecture（论文中采用ResNet和ResNet-FPN），输出feature maps，接下来的两个分支的处理操作与Faster R-CNN完全一致，接下来的区别就在RoIPooling层与RoIAlign层的区别。下面具体看一下RoIPooling层与RoIAlign层的操作有什么不同，如下图图2所示：

图2 RoIPooling层与RoIAlign层输出对比

首先说一下RoIAlign层，论文中描述RoIAlign层是一个quantization-free layer。那么与之相对的RoIPooling层执行了哪些量化操作呢？由Fast R-CNN可知，RoIPooling总共执行了两步量化操作：

第一步：将原图像坐标系输出的region proposals的四元组坐标映射到feature maps上是会根据Pooling层（比如VGG16的con4_x输出的feature maps经历了4个max pooling层）的操作，feature maps的spatial size进行了缩放，比如VGG16用RoIPooling替换掉最后一个max pooling，其输出的feature maps的spatial size相对原图像缩小了16倍，所以将原图像坐标系对应的四元组坐标值均要除以16，此时对于不能整除的结果进行第一步量化，为，表示rounding操作。

第二步：在对region proposal进行划分网格的时候，也会遇到不能整除的情况，如上图图2中左上角的图，就因为不能整除，在进行量化的时候，导致无法对region proposal进行均匀划分网格，这回导致输入与输出特征的严重失准。

下面来看一下RoIAlign层是怎么做的。RoIAlign严格避免了上述的两步量化操作，以至于region proposal与划分的网格不能正好包含完整的像素，如上图图2中的第2列所示。RoIAlign是通过双线性插值的方法来得到每个网格的像素值的。如下图图3所示：

并且在上述插值的过程中，实验效果表明，只要这个过程没有量化操作，对于每个网格插值的位置与抽样点数均不敏感，所以在编程实现的时候一般对每个网格只插值一个抽样点。

下面说一下由FCN得到Mask的过程。起初FCN是用于语义分割被提出来的，这里的FCN是用于对每一个由RPN输出的region proposal进行语义分割的，首先由FCN输出81个通道的feature maps（Mask R-CNN在MS COCO上做的实验，MS COCO总共有80类+BG为81类），而选择哪个通道的feature map呢？是这样的，由Classification Head，根据Softmax输出的类别概率分布，选择概率最大值对应的类别标签作为最终的预测类别，然后根据这个预测类别，选出对应的channel。也就是说，如果Classification Head预测的类别为7，则选出FCN输出的第7个通道的feature map，其它通道的feature maps直接被忽略了，在计算FCN Mask的目标函数的时候，他们也不参与。下面看一下的计算：

那么怎样得到最终的输出Mask呢？是这样的，首先Mask经过sigmoid函数，将输出映射到[0, 1]之间的概率值，然后将输出的mxm 的spatial size resize to the RoI size，再采用阈值法，论文中的阈值设为0.5，进行二值化。那么输出的这个Mask在进行实例分割的时候扮演什么样的角色呢？主要是用来大致定位出目标实例的基本轮廓，有利于进一步准确进行实例分割。

Mask R-CNN论文中做的相关实验非常丰富，这里就不讲了，关键在于理解RoIAlign层和添加的FCN分支，在以后会详细讲解Mask R-CNN的代码实现。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

实例分割之 Mask R-CNN 的相关文章

redis单机，集群搭建教程

环境准备 Linux 版本 Centos 7 0 2009 Redis版本 redis 5 0 3 tar gz 文章目录一 redis是什么二单机搭建步骤三集群搭建步骤在一台机子搭建一个伪集群总结一 redis是什么通常
LaTex 加粗（加黑）的方式

1 基本 LaTeX技巧458 关于LaTeX数学字体加粗 mathbf 会变为粗体但也导致数学字母斜体形式的丢失使用 amsmath package 的 boldmath 命令 boldmath f x y 3 x y y 2xy 7
Failed to initialize NVML: Driver/library version mismatch

nvidia驱动安装之后 nvidia smi 报错 Driver library version mismatch 不重启系统的解决方法查看系统日志确定具体报错信息 dmesg tail 8598493 408944 NVRM API

随机推荐

Unity2018新功能抢鲜

本文首发于洪流学堂微信公众号洪流学堂让你学Unity快人几步洪流学堂公众号回复节点获取ShaderGraph节点详解PDF文件带目录 Shader一直是Unity开发者的一个难关涉及到数学图形学 shader语法等多个难题
oracle 导出指定表和导入

导出之前要注意一个问题版本的问题所以导出的语句应该指定版本版本应该是要导入这些表的数据库的版本 expdp user password sid tables table1 table2 file expdp2022111 dmp ve
LeetCode力扣热题一百·自我解法记录（JAVA版本·仅代码）

1 两数之和哈希表题目链接力扣两数之和简单 import java util HashMap class Solution public int twoSum int nums int target 创建哈希表 HashMap
JavaScript - 插入排序的两种方式

插入排序1 新建一个新数组循环遍历原始数据把原始数组内的每一个逐个插入到新数组内在插入的时候按照一定的顺序插入原始数组 var arr 9 2 5 3 7 6 4 1 8 准备一个新数组 var newarr 循环遍历原始数组 f
大学生团体天梯赛（第六届）

题目地址天梯赛 include
高级信息系统项目管理师十大领域

文章目录一项目整合管理 1 制定项目章程 2 制定项目管理计划 3 指导与管理项目工作 4 管理项目知识 5 监控项目工作 6 实施整体变更控制 7 结束项目或阶段二项目范围管理 1 规划范围管理 2 收集需求 3 定义范围项目范
Flutter 常用插件

dio http请求库 flutter swiper carousel slider 图片轮播组件库 package info url launcher 系统库 app相关信息打电话发邮件等 pull to refresh flutt
数据结构题目汇总

求整数最大间隔性能 hash算法应用题目描述请输出数字序列的最大间隔请使用以下伪随机数生成函数 rand32 生成伪随机数 int seed int rand return seed seed 214013L 2531011L gt
通过Restful api接口上传文件

Restful api接口获取文件流的方法如下 from requests toolbelt import MultipartEncoder with open ch01 mp4 rb as f file stream f read m M
计算机视觉实战项目（图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别）

图像分类教程博客传送门链接链接在本教程中您将学习如何使用迁移学习训练卷积神经网络以进行图像分类您可以在 cs231n 上阅读有关迁移学习的更多信息本文主要目的是教会你如何自己搭建分类模型耐心看完相信会有很大收获废话不多说
初探Javascript模块化开发

随着简单网页逐渐变成交互复杂的网站应用网页上的Javascript代码也变得越来越庞大越来越复杂加之随即而来的多人协作分工的开发方式每个人只负责其中一个或者几个很小的功能模块最终必须通过把各个功能模块组合才能变成一个完整的功能而
2023.9.6 Redis 的基本介绍

目录 Redis 的介绍 Redis 用作缓存和存储 session 信息 Redis 用作数据库消息队列消息队列是什么 Redis 用作消息队列 Redis 的介绍特点内存中存储数据奠定了 Redis 进行访问和存储时的快可编
Java多线程专题-synchronized的使用

为什么有线程安全问题当多个线程同时共享同一个全局变量或静态变量做写的操作时可能会发生数据冲突问题也就是线程安全问题但是做读操作是不会发生数据冲突问题使用同步方式解决线程安全问如何解决多线程之间线程安全问题答使用多线程之间
学习SVG（十）滤镜

什么是滤镜使用滤镜后在SVG中不会直接将图形渲染到画布上是先将图形的像素保存到缓存中然后将滤镜指定的操作应用图形的像素对象中然后在把新的图形像素对象展示在画布上使用filter元素指定一组滤镜元素在渲染图形对象时将该操作应
南航数据分析与挖掘课设1(上)——基于多元线性回归模型，ARIMA序列的中国GDP增长影响因素研究及预测（R语言）

基于多元线性回归模型 ARIMA序列的中国GDP增长影响因素研究及预测摘要在国民经济发展的过程中国内生产总值 GDP 是指按国家市场价格计算的一个国家或地区所有常驻单位在一定时期内生产活动的最终成果常被公认为是衡量国家经济状况的
centos7 安装Anaconda3 亲测成功

目录 Anaconda简介 1 下载 1 1 创建一个文件夹来存放安装包 1 2 进入到文件夹里面 1 3 wget命令行下载 1 4 下载情况 2 开始安装 2 1 进入到存放文件的位置 2 2 运行 sh 文件 2 3 进入注册信息页面
python中heapq的使用

目录 1 heapq heapify list 2 heapq heappush heap item 3 heapq heappop heap 4 heapq nlargest n heap 5 heap nsmallest n heap
用Flair（PyTorch构建的NLP开发包）进行文本分类

Flair是一个基于PyTorch构建的NLP开发包它在解决命名实体识别 NER 语句标注 POS 文本分类等NLP问题时达到了当前的顶尖水准本文将介绍如何使用Flair构建定制的文本分类器简介文本分类是一种用来将语句或文档归入一个
笔记——尤老师讲笔试

1 Function内部不能使用时间延迟也不能使用这种事件触发只能实现一些组合逻辑运算也不能调用task task可以有时间延迟 function不可以用时间延迟 Verilog 中的 task 是一种不可综合的语法它既提供了从不
实例分割之 Mask R-CNN

论文地址 Mask R CNN 代码地址 facebookresearch Detectron Mask R CNN是在Faster R CNN的基础上进行了改进 Faster R CNN主要是用来进行目标识别的为了能够进行实例分割 Ma

实例分割之 Mask R-CNN

实例分割之 Mask R-CNN 的相关文章

随机推荐

热门标签