【语义分割】7、OCRNet：Object-Context Representations for Semantic Segmentation

2023-11-19

文章目录

一、文章出发点

每个像素点的类别（label）应该是它所属目标（object）的类别。

所以这篇文章对像素的上下文信息建模

建模方法：求每个像素点和每个类别的相关性

在这里插入图片描述

二、方法

方法（以 cityscapes 19类为例）：这里最终的加权可以看做是像素和类别之间的加权

首先，得到普通的初始分割结果（19类）
然后，计算每个特征图（512）和初始分割结果（19）的相关性，得到 512x19 的矩阵
之后，用该 512x19 的矩阵，对特征图（512）加权，得到加权后的特征图
最后，对加权后的特征图进行特征抽取，得到加权后的最终分割结果（19类）

在这里插入图片描述

# prev_output: 19d的粗糙预测结果
# feats：将hrnet输出的720d的变成512d
# context：每个类别图和每个特征图的关系(19x512)
# object_context：self-attention

1、prev_output：

在这里插入图片描述
2、feats获得

3、context获得

在这里插入图片描述
4、self-attention

import torch
import torch.nn as nn
import torch.nn.functional as F
from mmcv.cnn import ConvModule

from mmseg.ops import resize
from ..builder import HEADS
from ..utils import SelfAttentionBlock as _SelfAttentionBlock
from .cascade_decode_head import BaseCascadeDecodeHead
# from .Attention_layer import HardClassAttention as HCA


class SpatialGatherModule(nn.Module):
    """Aggregate the context features according to the initial predicted
    probability distribution.

    Employ the soft-weighted method to aggregate the context.
    """

    def __init__(self, scale):
        super(SpatialGatherModule, self).__init__()
        self.scale = scale

    def forward(self, feats, probs):
        """Forward function."""
        batch_size, num_classes, height, width = probs.size()
        channels = feats.size(1)
        probs = probs.view(batch_size, num_classes, -1)
        feats = feats.view(batch_size, channels, -1)
        # [batch_size, height*width, num_classes]
        feats = feats.permute(0, 2, 1)
        # [batch_size, channels, height*width]
        probs = F.softmax(self.scale * probs, dim=2)
        # [batch_size, channels, num_classes]
        ocr_context = torch.matmul(probs, feats)
        ocr_context = ocr_context.permute(0, 2, 1).contiguous().unsqueeze(3)
        return ocr_context
class ClassRelationGatherModule(nn.Module):
    """Aggregate the context features according to the initial predicted
    probability distribution.

    Employ the soft-weighted method to aggregate the context.
    """

    def __init__(self, scale):
        super(ClassRelationGatherModule, self).__init__()
        self.scale = scale

    def forward(self, feats, probs):
        """Forward function."""
        batch_size, num_classes, height, width = probs.size()
        channels = feats.size(1)
        probs_1 = probs.view(batch_size, num_classes, -1)
        probs_2 = probs.view(batch_size, num_classes, -1)
        # [batch_size, height*width, num_classes]
        probs_2 = probs_2.permute(0, 2, 1)
        # [batch_size, channels, height*width]
        probs_1 = F.softmax(self.scale * probs_1, dim=2)
        # [batch_size, channels, num_classes]
        class_gather = torch.matmul(probs_1, probs_2)
        class_gather = class_gather.permute(0, 2, 1).contiguous().unsqueeze(3)
        return class_gather

class ObjectAttentionBlock(_SelfAttentionBlock):
    """Make a OCR used SelfAttentionBlock."""

    def __init__(self, in_channels, channels, scale, conv_cfg, norm_cfg,
                 act_cfg):
        if scale > 1:
            query_downsample = nn.MaxPool2d(kernel_size=scale)
        else:
            query_downsample = None
        super(ObjectAttentionBlock, self).__init__(
            key_in_channels=in_channels,
            query_in_channels=in_channels,
            channels=channels,
            out_channels=in_channels,
            share_key_query=False,
            query_downsample=query_downsample,
            key_downsample=None,
            key_query_num_convs=2,
            key_query_norm=True,
            value_out_num_convs=1,
            value_out_norm=True,
            matmul_norm=True,
            with_out=True,
            conv_cfg=conv_cfg,
            norm_cfg=norm_cfg,
            act_cfg=act_cfg)
        self.bottleneck = ConvModule(
            in_channels * 2,
            in_channels,
            1,
            conv_cfg=self.conv_cfg,
            norm_cfg=self.norm_cfg,
            act_cfg=self.act_cfg)

    def forward(self, query_feats, key_feats):
        """Forward function."""
        context = super(ObjectAttentionBlock, self).forward(query_feats, key_feats)
        output = self.bottleneck(torch.cat([context, query_feats], dim=1))
        if self.query_downsample is not None:
            output = resize(query_feats)

        return output


@HEADS.register_module()
class OCRHead(BaseCascadeDecodeHead):
    """Object-Contextual Representations for Semantic Segmentation.

    This head is the implementation of `OCRNet
    <https://arxiv.org/abs/1909.11065>`_.

    Args:
        ocr_channels (int): The intermediate channels of OCR block.
        scale (int): The scale of probability map in SpatialGatherModule in
            Default: 1.
    """

    def __init__(self, ocr_channels, scale=1, **kwargs):
        super(OCRHead, self).__init__(**kwargs)
        self.ocr_channels = ocr_channels
        self.scale = scale
        self.object_context_block = ObjectAttentionBlock(
            self.channels,
            self.ocr_channels,
            self.scale,
            conv_cfg=self.conv_cfg,
            norm_cfg=self.norm_cfg,
            act_cfg=self.act_cfg)
        self.spatial_gather_module = SpatialGatherModule(self.scale)
        self.class_relation_gather_module = ClassRelationGatherModule(self.scale)
        self.bottleneck = ConvModule(
            self.in_channels,
            self.channels,
            3,
            padding=1,
            conv_cfg=self.conv_cfg,
            norm_cfg=self.norm_cfg,
            act_cfg=self.act_cfg)

    def forward(self, inputs, prev_output):
        """Forward function."""
        # concat multi-level img feature
        x = self._transform_inputs(inputs) # (1,720,128,256) hr18, 512x1024

        feats = self.bottleneck(x) # (1,512,128,256)

        context = self.spatial_gather_module(feats, prev_output) # (1,512,19,1)
        object_context = self.object_context_block(feats, context) #(1,512,128,256)
        output = self.cls_seg(object_context) # (1,19,128,256)

        return output

三、效果

经过OCR头后的效果对比如下图，每个类别的响应比较全面且稳定。

在这里插入图片描述

cityscape类别和通道的对应：

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

语义分割

【语义分割】7、OCRNet：Object-Context Representations for Semantic Segmentation 的相关文章

【计算机视觉

文章目录一分割语义相关 13篇 1 1 Semantic and Articulated Pedestrian Sensing Onboard a Moving Vehicle 1 2 360 circ from a Single
【计算机视觉

文章目录一分割语义相关 5篇 1 1 SAMUS Adapting Segment Anything Model for Clinically Friendly and Generalizable Ultrasound Image S
基于MegEngine实现语义分割【附部分源码及模型】

文章目录前言语义分割发展史及意义一数据集的准备二基于MegEngine的语义分割框架构建 1 引入库 2 CPU GPU配置 3 数据标准化 4 解析数据集到列表中 5 设置数据迭代器 6 获取loader 7 模型构建 8 模
【个人项目】——细腻的人像分割

项目地址 segmentation pytorch 前面介绍了一个人像分割数据集这里采用该数据做了人像分割的小demo Supervisely 人像分割数据集格式转换 1 测试 1 1 环境采用本机的torch140 1 2 下载预训练
对图片进行膨胀与腐蚀

操作前的图片操作后代码实现 import cv2 import numpy as np from PIL import Image import os import matplotlib pyplot as plt 生成文件夹 def
憨批的语义分割3——unet模型详解以及训练自己的unet模型（划分斑马线）

憨批的语义分割3 unet模型详解以及训练自己的unet模型划分斑马线学习前言模型部分什么是unet模型 unet模型的代码实现 1 主干模型Mobilenet 2 unet的Decoder解码部分代码测试训练部分训练的是什么
CVPR2023 语义分割论文合集

国际计算机视觉与模式识别会议 CVPR 是计算机科学领域中的顶级会议之一也是图像处理机器学习人工智能等多个领域的交叉学科会议每年的CVPR会议都会有大量的论文投稿和学术交流活动其中涵盖了包括图像处理计算机视觉模式识别机器学习
Dice系数(Dice coefficient)与mIoU与Dice Loss

Dice系数和mIoU是语义分割的评价指标在这里进行了简单知识介绍讲到了Dice顺便在最后提一下Dice Loss 以后有时间区分一下在语义分割中两个常用的损失函数交叉熵和Dice Loss 一 Dice系数 1 概念理解 Dice系
图像分类、目标检测、语义分割、实例分割和全景分割的区别

1 Image Classification 图像分类图像分类下图左就是对图像判断出所属的分类比如在学习分类中数据集有人 person 羊 sheep 狗 dog 和猫 cat 四种图像分类要求给定一个图片输出图片里含有哪些分类
【语义分割】11、Rethinking BiSeNet For Real-time Semantic Segmentation

文章目录一背景二动机三方法 3 1 Design of Encoding Network 3 2 Decoder 四实验 4 1 消融实验 4 2 和 SOTA 方法对比论文 https arxiv org abs 2104
语义分割算法汇总（长期更新）

语义分割算法汇总记录一下各类语义分割算法便于自己学习由DFANet Deep Feature Aggregation for Real Time Semantic Segmentation开始在文章中作者说明了在Cityscape
憨批的语义分割1——基于Mobile模型的segnet讲解

憨批的语义分割1 基于Mobile模型的segnet讲解学习前言什么是Segnet模型 segnet模型的代码实现 1 主干模型Mobilenet 2 segnet的Decoder解码部分代码测试学习前言最近开始设计新的领域啦语
【计算机视觉

文章目录一 GreedyNAS C 二 RegionViT 三 DenseNAS B 四 DenseNAS C 五 DiCENet 六 uNetXST 七 CSPPeleeNet 八 PocketNet 九 OODformer 十 Dee
使用BiseNet从头训练&&微调自己的数据集

一代码链接本次训练采用的是pytorch版本的BiseNet 代码链接为GitHub CoinCheung BiSeNet Add bisenetv2 My implementation of BiSeNet 二数据格式数据集分为原
转置卷积（Transposed Convolution）

文章目录前言卷积操作转置卷积操作 Pytorch中的转置卷积参数 Pytorch转置卷积实验前言转置卷积 Transposed Convolution 在语义分割或者对抗神经网络 GAN 中比较常见其主要作用就是做上采样 UpS
【语义分割】7、OCRNet：Object-Context Representations for Semantic Segmentation

文章目录一文章出发点二方法三效果一文章出发点每个像素点的类别 label 应该是它所属目标 object 的类别所以这篇文章对像素的上下文信息建模建模方法求每个像素点和每个类别的相关性二方法方法以 citys
轻量级分割网络总结

目录 ddrnet STDC Seg 重新思考BiSeNet ExtremeC3Net DFANet NfS SegNet 好像未开源人像分割
【语义分割】--SegNet理解

原文地址 SegNet 复现详解 http mi eng cam ac uk projects segnet tutorial html 实现代码 github TensorFlow 简介 SegNet是Cambridge提出旨在解决自动驾
语义分割实践—耕地提取（二分类）

开篇感谢李沐老师团队为深度学习教学做出的巨大贡献对李沐老师及团队致以深深的敬意同时对技术开发社区以及编程技术网站的优质创作者们 Jack Cui等表示深深的感谢一深度学习网络中的常见概念一 Ground Truth 通常指人
全卷积网络（FCN）与图像分割

全卷积网络 FCN 与图像分割从图像分类到图像分割卷积神经网络 CNN 自2012年以来在图像分类和图像检测等方面取得了巨大的成就和广泛的应用 CNN的强大之处在于它的多层结构能自动学习特征并且可以学习到多个层次的特征较浅的卷积层

随机推荐

CTF BugKu平台——Crypto篇刷题记录（后续更新）

CTF BugKu平台 Crypto篇前言抄错的字符聪明的小羊 ok lt gt 把猪困在猪圈里你喜欢下棋吗小山丘的秘密 EN 气泡你以为是md5吗 Math English easy crypto 黄道十二官一段新闻 7 1
FPGA project : water_led

module water led parameter MAX CNT 25 d25 000 000 input wire sys clk input wire sys rst n output wire 03 00 led signal r
“getaddrinfo failed: 在数据库查找中出现一个不可恢复的错误”的解决方法

原因是winsock损坏了使用命令 netsh winsock reset 然后重启即可修复参考资料 http support microsoft com kb 811259
正大国际：正确的交易与趋势无关只与系统的入场信号有关对吗？

趋势的方向根本就和你的成功无任何关联什么看外盘听消息问专家这些除了使自己更加焦虑以外对我们的成功交易没有丝毫的帮助只要系统显示的是做空信号哪怕全世界的人都看多我们也只能做空严格的按照系统操作才能保证亏损最小化利润最大化
pip命令-Fatal error in launcher: Unable to create process using ...迁移虚拟环境后出错如何解决？

目录一背景二解决问题日志搜索历程三因迁移环境造成的该异常之解决思路一背景 python版本3 8 因为作者刚开始学python时不懂虚拟环境所以将虚拟环境安装在了一个临时文件夹中现在我想要把这个已经下载了大量包库的
python 爬虫报错求救

raise JSONDecodeError Expecting value s err value from None json decoder JSONDecodeError Expecting value line 1 column 1
window server 2019环境下将nginx配置为开机自启动服务

公司window服务器上面有个nginx在跑重启服务器后没有自动启动需要手动运行nginx 如果是非正常重启业务可能就中断了1 下载WinSW window service wraper 地址 https github com kohs
MATLAB实现函数拟合

目录一理论知识 1 拟合与插值的区别 2 几何意义 3 误差分析二操作实现 1 数据准备 2 使用cftool 拟合工具箱三函数拟合典例四代码扩展一理论知识 1 拟合与插值的区别通俗的说插值的本质是根据现有离散点的信
Unity 动画系统 Animation 和 Animator 联系与区别

返回目录引言在unity的老版本中我们只有Animation组件在4 6版本以后则增添了Animator组件如果只是控制一个动画的播放我们则用Animaton组件如果是很多动画之间相互转换则使用Animator组件它们两者的区别
传统优化算法VS智能优化算法

传统优化算法VS智能优化算法传统优化算法优点传统优化算法缺点遗传算法的优点遗传算法的缺点特点的比较传统优化算法优点 1 利用了解空间的特性如可微等 2 理论较为完善计算量小 3 收敛速度快 4 具有确定的终止准则传统优化算
高德地图逆地理编码Geocoder的getlocation获取不到位置信息

问题原生定位接口定位失败则status返回error事件或回调error信息获取不到位置信息产生原因逆编码方法使用不了原因是使用的高德地图的应用方向web服务而Geocoder属于web端 var geocoder new AM
CATCTF wife原型链污染

CATCTF wife原型链污染原型链污染原理 https drun1baby github io 2022 12 29 JavaScript E5 8E 9F E5 9E 8B E9 93 BE E6 B1 A1 E6 9F 93 如下
Java-API简析_java.net.Inet4Address类（基于 Latest JDK）（浅析源码）

版权声明未经博主同意谢绝转载请尊重原创博主保留追究权 https blog csdn net m0 69908381 article details 132643590 出自进步于辰的博客因为我发现目前我对Java API的
西瓜书学习笔记——（1）绪论

前言之前由于机器学习人工智能数据分析大火为了顺应时代于是找了几个国外的视频网站看了点相关的讲解但由于本人英语水平有限看起来太吃力而且当时也没有Python的基础听得晕头转向的然后就买了两本书打算进行系统性的学习其中一
二级空间配置器、空间配置器的默认选择、再次封装、对象的构造与释放

内存池内存池一块大的内存空间对空间的管理机制 1 提前准备好一块大的内存块备用如果用户需要空间的时候不需要通过malloc每次向系统索要直接从备用大块内存中来进行获取 2 不会频繁向系统索要小的内存块解决内存碎片问题申请空间
计算机系统基础、LinkLab实验每个实验阶段（共5个）考察ELF文件组成与程序链接过程的不同方面知识阶段1：全局变量ó数据节阶段2：强符号与弱符号ó数据节阶段3：代码节修改阶段4：代码与重定

LinkLab实验 1 实验目的与要求 1 了解链接的基本概念和链接过程所要完成的任务 2 理解ELF目标代码和目标代码文件的基本概念和基本构成 3 了解ELF可重定位目标文件和可执行目标文件的差别 4 理解符号表中包含的全局符号外部符号
文字转png图片

body中的数据格式 Convert text to PNG image param text param options param options font 30px sans serif css style font param op
java线程API

守护线程守护线程也称为后台线程守护线程是通过普通线程调用setDaemon boolean on 方法设置而来的因此创建上与普通线程无异守护线程的结束时机上有一点与普通线程不同即进程的结束进程结束当一个进程中的所有普通线
MCU最强科普总结~

MCU是Microcontroller Unit 的简称中文叫微控制器俗称单片机是把CPU的频率与规格做适当缩减并将内存计数器 USB A D转换 UART PLC DMA等周边接口甚至LCD驱动电路都整合在单一芯片上形成芯片
【语义分割】7、OCRNet：Object-Context Representations for Semantic Segmentation

文章目录一文章出发点二方法三效果一文章出发点每个像素点的类别 label 应该是它所属目标 object 的类别所以这篇文章对像素的上下文信息建模建模方法求每个像素点和每个类别的相关性二方法方法以 citys

【语义分割】7、OCRNet：Object-Context Representations for Semantic Segmentation

文章目录

一、文章出发点

二、方法

三、效果

【语义分割】7、OCRNet：Object-Context Representations for Semantic Segmentation 的相关文章

随机推荐

热门标签