【语义分割】7、OCRNet:Object-Context Representations for Semantic Segmentation

2023-11-19


在这里插入图片描述

一、文章出发点

每个像素点的类别(label)应该是它所属目标(object)的类别。

所以这篇文章对像素的上下文信息建模

建模方法:求每个像素点和每个类别的相关性

在这里插入图片描述

二、方法

方法(以 cityscapes 19类为例):这里最终的加权可以看做是像素和类别之间的加权

  • 首先,得到普通的初始分割结果(19类)
  • 然后,计算每个特征图(512)和初始分割结果(19)的相关性,得到 512x19 的矩阵
  • 之后,用该 512x19 的矩阵,对特征图(512)加权,得到加权后的特征图
  • 最后,对加权后的特征图进行特征抽取,得到加权后的最终分割结果(19类)

在这里插入图片描述

# prev_output: 19d的粗糙预测结果
# feats:将hrnet输出的720d的变成512d
# context:每个类别图和每个特征图的关系(19x512)
# object_context:self-attention

1、prev_output:

在这里插入图片描述
2、feats获得
在这里插入图片描述

3、context获得

在这里插入图片描述
4、self-attention
在这里插入图片描述

import torch
import torch.nn as nn
import torch.nn.functional as F
from mmcv.cnn import ConvModule

from mmseg.ops import resize
from ..builder import HEADS
from ..utils import SelfAttentionBlock as _SelfAttentionBlock
from .cascade_decode_head import BaseCascadeDecodeHead
# from .Attention_layer import HardClassAttention as HCA


class SpatialGatherModule(nn.Module):
    """Aggregate the context features according to the initial predicted
    probability distribution.

    Employ the soft-weighted method to aggregate the context.
    """

    def __init__(self, scale):
        super(SpatialGatherModule, self).__init__()
        self.scale = scale

    def forward(self, feats, probs):
        """Forward function."""
        batch_size, num_classes, height, width = probs.size()
        channels = feats.size(1)
        probs = probs.view(batch_size, num_classes, -1)
        feats = feats.view(batch_size, channels, -1)
        # [batch_size, height*width, num_classes]
        feats = feats.permute(0, 2, 1)
        # [batch_size, channels, height*width]
        probs = F.softmax(self.scale * probs, dim=2)
        # [batch_size, channels, num_classes]
        ocr_context = torch.matmul(probs, feats)
        ocr_context = ocr_context.permute(0, 2, 1).contiguous().unsqueeze(3)
        return ocr_context
class ClassRelationGatherModule(nn.Module):
    """Aggregate the context features according to the initial predicted
    probability distribution.

    Employ the soft-weighted method to aggregate the context.
    """

    def __init__(self, scale):
        super(ClassRelationGatherModule, self).__init__()
        self.scale = scale

    def forward(self, feats, probs):
        """Forward function."""
        batch_size, num_classes, height, width = probs.size()
        channels = feats.size(1)
        probs_1 = probs.view(batch_size, num_classes, -1)
        probs_2 = probs.view(batch_size, num_classes, -1)
        # [batch_size, height*width, num_classes]
        probs_2 = probs_2.permute(0, 2, 1)
        # [batch_size, channels, height*width]
        probs_1 = F.softmax(self.scale * probs_1, dim=2)
        # [batch_size, channels, num_classes]
        class_gather = torch.matmul(probs_1, probs_2)
        class_gather = class_gather.permute(0, 2, 1).contiguous().unsqueeze(3)
        return class_gather

class ObjectAttentionBlock(_SelfAttentionBlock):
    """Make a OCR used SelfAttentionBlock."""

    def __init__(self, in_channels, channels, scale, conv_cfg, norm_cfg,
                 act_cfg):
        if scale > 1:
            query_downsample = nn.MaxPool2d(kernel_size=scale)
        else:
            query_downsample = None
        super(ObjectAttentionBlock, self).__init__(
            key_in_channels=in_channels,
            query_in_channels=in_channels,
            channels=channels,
            out_channels=in_channels,
            share_key_query=False,
            query_downsample=query_downsample,
            key_downsample=None,
            key_query_num_convs=2,
            key_query_norm=True,
            value_out_num_convs=1,
            value_out_norm=True,
            matmul_norm=True,
            with_out=True,
            conv_cfg=conv_cfg,
            norm_cfg=norm_cfg,
            act_cfg=act_cfg)
        self.bottleneck = ConvModule(
            in_channels * 2,
            in_channels,
            1,
            conv_cfg=self.conv_cfg,
            norm_cfg=self.norm_cfg,
            act_cfg=self.act_cfg)

    def forward(self, query_feats, key_feats):
        """Forward function."""
        context = super(ObjectAttentionBlock, self).forward(query_feats, key_feats)
        output = self.bottleneck(torch.cat([context, query_feats], dim=1))
        if self.query_downsample is not None:
            output = resize(query_feats)

        return output


@HEADS.register_module()
class OCRHead(BaseCascadeDecodeHead):
    """Object-Contextual Representations for Semantic Segmentation.

    This head is the implementation of `OCRNet
    <https://arxiv.org/abs/1909.11065>`_.

    Args:
        ocr_channels (int): The intermediate channels of OCR block.
        scale (int): The scale of probability map in SpatialGatherModule in
            Default: 1.
    """

    def __init__(self, ocr_channels, scale=1, **kwargs):
        super(OCRHead, self).__init__(**kwargs)
        self.ocr_channels = ocr_channels
        self.scale = scale
        self.object_context_block = ObjectAttentionBlock(
            self.channels,
            self.ocr_channels,
            self.scale,
            conv_cfg=self.conv_cfg,
            norm_cfg=self.norm_cfg,
            act_cfg=self.act_cfg)
        self.spatial_gather_module = SpatialGatherModule(self.scale)
        self.class_relation_gather_module = ClassRelationGatherModule(self.scale)
        self.bottleneck = ConvModule(
            self.in_channels,
            self.channels,
            3,
            padding=1,
            conv_cfg=self.conv_cfg,
            norm_cfg=self.norm_cfg,
            act_cfg=self.act_cfg)

    def forward(self, inputs, prev_output):
        """Forward function."""
        # concat multi-level img feature
        x = self._transform_inputs(inputs) # (1,720,128,256) hr18, 512x1024

        feats = self.bottleneck(x) # (1,512,128,256)

        context = self.spatial_gather_module(feats, prev_output) # (1,512,19,1)
        object_context = self.object_context_block(feats, context) #(1,512,128,256)
        output = self.cls_seg(object_context) # (1,19,128,256)

        return output

三、效果

经过OCR头后的效果对比如下图,每个类别的响应比较全面且稳定。

在这里插入图片描述
在这里插入图片描述

cityscape类别和通道的对应:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【语义分割】7、OCRNet:Object-Context Representations for Semantic Segmentation 的相关文章

  • 【计算机视觉

    文章目录 一 分割 语义相关 13篇 1 1 Semantic and Articulated Pedestrian Sensing Onboard a Moving Vehicle 1 2 360 circ from a Single
  • 【计算机视觉

    文章目录 一 分割 语义相关 5篇 1 1 SAMUS Adapting Segment Anything Model for Clinically Friendly and Generalizable Ultrasound Image S
  • 基于MegEngine实现语义分割【附部分源码及模型】

    文章目录 前言 语义分割发展史及意义 一 数据集的准备 二 基于MegEngine的语义分割框架构建 1 引入库 2 CPU GPU配置 3 数据标准化 4 解析数据集到列表中 5 设置数据迭代器 6 获取loader 7 模型构建 8 模
  • 【个人项目】——细腻的人像分割

    项目地址 segmentation pytorch 前面介绍了 一个人像分割数据集 这里采用该数据做了人像分割的小demo Supervisely 人像分割数据集格式转换 1 测试 1 1 环境采用本机的torch140 1 2 下载预训练
  • 对图片进行膨胀与腐蚀

    操作前的图片 操作后 代码实现 import cv2 import numpy as np from PIL import Image import os import matplotlib pyplot as plt 生成文件夹 def
  • 憨批的语义分割3——unet模型详解以及训练自己的unet模型(划分斑马线)

    憨批的语义分割3 unet模型详解以及训练自己的unet模型 划分斑马线 学习前言 模型部分 什么是unet模型 unet模型的代码实现 1 主干模型Mobilenet 2 unet的Decoder解码部分 代码测试 训练部分 训练的是什么
  • CVPR2023 语义分割论文合集

    国际计算机视觉与模式识别会议 CVPR 是计算机科学领域中的顶级会议之一 也是图像处理 机器学习 人工智能等多个领域的交叉学科会议 每年的CVPR会议都会有大量的论文投稿和学术交流活动 其中涵盖了包括图像处理 计算机视觉 模式识别 机器学习
  • Dice系数(Dice coefficient)与mIoU与Dice Loss

    Dice系数和mIoU是语义分割的评价指标 在这里进行了简单知识介绍 讲到了Dice顺便在最后提一下Dice Loss 以后有时间区分一下在语义分割中两个常用的损失函数 交叉熵和Dice Loss 一 Dice系数 1 概念理解 Dice系
  • 图像分类、目标检测、语义分割、实例分割和全景分割的区别

    1 Image Classification 图像分类 图像分类 下图左 就是对图像判断出所属的分类 比如在学习分类中数据集有人 person 羊 sheep 狗 dog 和猫 cat 四种 图像分类要求给定一个图片输出图片里含有哪些分类
  • 【语义分割】11、Rethinking BiSeNet For Real-time Semantic Segmentation

    文章目录 一 背景 二 动机 三 方法 3 1 Design of Encoding Network 3 2 Decoder 四 实验 4 1 消融实验 4 2 和 SOTA 方法对比 论文 https arxiv org abs 2104
  • 语义分割算法汇总(长期更新)

    语义分割算法汇总 记录一下各类语义分割算法 便于自己学习 由DFANet Deep Feature Aggregation for Real Time Semantic Segmentation开始 在文章中 作者说明了在Cityscape
  • 憨批的语义分割1——基于Mobile模型的segnet讲解

    憨批的语义分割1 基于Mobile模型的segnet讲解 学习前言 什么是Segnet模型 segnet模型的代码实现 1 主干模型Mobilenet 2 segnet的Decoder解码部分 代码测试 学习前言 最近开始设计新的领域啦 语
  • 【计算机视觉

    文章目录 一 GreedyNAS C 二 RegionViT 三 DenseNAS B 四 DenseNAS C 五 DiCENet 六 uNetXST 七 CSPPeleeNet 八 PocketNet 九 OODformer 十 Dee
  • 使用BiseNet从头训练&&微调自己的数据集

    一 代码链接 本次训练采用的是pytorch版本的BiseNet 代码链接为GitHub CoinCheung BiSeNet Add bisenetv2 My implementation of BiSeNet 二 数据格式 数据集分为原
  • 转置卷积(Transposed Convolution)

    文章目录 前言 卷积操作 转置卷积操作 Pytorch中的转置卷积参数 Pytorch转置卷积实验 前言 转置卷积 Transposed Convolution 在语义分割或者对抗神经网络 GAN 中比较常见 其主要作用就是做上采样 UpS
  • 【语义分割】7、OCRNet:Object-Context Representations for Semantic Segmentation

    文章目录 一 文章出发点 二 方法 三 效果 一 文章出发点 每个像素点的类别 label 应该是它所属目标 object 的类别 所以这篇文章对像素的上下文信息建模 建模方法 求每个像素点和每个类别的相关性 二 方法 方法 以 citys
  • 轻量级分割网络总结

    目录 ddrnet STDC Seg 重新思考BiSeNet ExtremeC3Net DFANet NfS SegNet 好像未开源 人像分割
  • 【语义分割】--SegNet理解

    原文地址 SegNet 复现详解 http mi eng cam ac uk projects segnet tutorial html 实现代码 github TensorFlow 简介 SegNet是Cambridge提出旨在解决自动驾
  • 语义分割实践—耕地提取(二分类)

    开篇 感谢李沐老师团队为深度学习教学做出的巨大贡献 对李沐老师及团队致以深深的敬意 同时 对技术开发社区以及编程技术网站的优质创作者们 Jack Cui等 表示深深的感谢 一 深度学习网络中的常见概念 一 Ground Truth 通常指人
  • 全卷积网络(FCN)与图像分割

    全卷积网络 FCN 与图像分割 从图像分类到图像分割 卷积神经网络 CNN 自2012年以来 在图像分类和图像检测等方面取得了巨大的成就和广泛的应用 CNN的强大之处在于它的多层结构能自动学习特征 并且可以学习到多个层次的特征 较浅的卷积层

随机推荐