70.语义分割和数据集

2023-11-06

在 之前讨论的目标检测问题中,我们一直使用方形边界框来标注和预测图像中的目标。 本节将探讨语义分割(semantic segmentation)问题,它重点关注于如何将图像分割成属于不同语义类别的区域。 与目标检测不同,语义分割可以识别并理解图像中每一个像素的内容:其语义区域的标注和预测是像素级的。

图13.9.1展示了语义分割中图像有关狗、猫和背景的标签。 与目标检测相比,语义分割标注的像素级的边框显然更加精细。

在这里插入图片描述
图片分类、目标检测、语义分割区别如下:

在这里插入图片描述

1. 应用:背景虚化

在这里插入图片描述

2. 应用:路面分割

在这里插入图片描述

3. vs 实例分割

语义分割只关心像素属于哪个类,在实例分割中,会看对应具体的哪个实例。

在这里插入图片描述

4. Pascal VOC2012 语义分割数据集

最重要的语义分割数据集之一是Pascal VOC2012。下面我们深入了解一下这个数据集.

%matplotlib inline
import os
import torch
import torchvision
from d2l import torch as d2l

数据集的tar文件大约为2GB,所以下载可能需要一段时间。 提取出的数据集位于../data/VOCdevkit/VOC2012

d2l.DATA_HUB['voc2012'] = (d2l.DATA_URL + 'VOCtrainval_11-May-2012.tar',
                           '4e443f8a2eca6b1dac8a6c57641b67dd40621a49')

voc_dir = d2l.download_extract('voc2012', 'VOCdevkit/VOC2012') # 解压

进入路径../data/VOCdevkit/VOC2012之后,我们可以看到数据集的不同组件。

ImageSets/Segmentation路径包含用于训练和测试样本的文本文件,而JPEGImagesSegmentationClass路径分别存储着每个示例的输入图像和标签。 此处的标签也采用图像格式,其尺寸和它所标注的输入图像的尺寸相同。 此外,标签中颜色相同的像素属于同一个语义类别。

下面将read_voc_images函数定义为将所有输入的图像和标签读入内存

def read_voc_images(voc_dir, is_train=True):
    """读取所有VOC图像并标注"""
    # VOC格式使用很广泛
    # train.txt 训练数据集,val.txt 验证数据集
    txt_fname = os.path.join(voc_dir, 'ImageSets', 'Segmentation',
                             'train.txt' if is_train else 'val.txt')
    mode = torchvision.io.image.ImageReadMode.RGB # RGB格式,因为是彩色图片
    with open(txt_fname, 'r') as f:
        images = f.read().split()
    features, labels = [], []
    for i, fname in enumerate(images):
        features.append(torchvision.io.read_image(os.path.join(
            voc_dir, 'JPEGImages', f'{fname}.jpg')))
        # 语义分割用的label是图片,因为这个label必须是像素级的
        # label用png格式去存,每个像素都有label,所以用label构成一个"图片"
        # 此处的标签也采用图像格式,其尺寸和它所标注的输入图像的尺寸相同
        labels.append(torchvision.io.read_image(os.path.join(
            voc_dir, 'SegmentationClass' ,f'{fname}.png'), mode))
    return features, labels

train_features, train_labels = read_voc_images(voc_dir, True)

下面我们绘制前5个输入图像及其标签。 在标签图像中,白色和黑色分别表示边框和背景,而其他颜色则对应不同的类别。

n = 5
imgs = train_features[0:n] + train_labels[0:n]
imgs = [img.permute(1,2,0) for img in imgs]
d2l.show_images(imgs, 2, n);

运行结果:

在这里插入图片描述

接下来,我们列举RGB颜色值和类名。(下面这些数据集是会告诉你的,数据集中的readme文件会告诉这些信息)

VOC_COLORMAP = [[0, 0, 0], [128, 0, 0], [0, 128, 0], [128, 128, 0],
                [0, 0, 128], [128, 0, 128], [0, 128, 128], [128, 128, 128],
                [64, 0, 0], [192, 0, 0], [64, 128, 0], [192, 128, 0],
                [64, 0, 128], [192, 0, 128], [64, 128, 128], [192, 128, 128],
                [0, 64, 0], [128, 64, 0], [0, 192, 0], [128, 192, 0],
                [0, 64, 128]]

VOC_CLASSES = ['background', 'aeroplane', 'bicycle', 'bird', 'boat',
               'bottle', 'bus', 'car', 'cat', 'chair', 'cow',
               'diningtable', 'dog', 'horse', 'motorbike', 'person',
               'potted plant', 'sheep', 'sofa', 'train', 'tv/monitor']

通过上面定义的两个常量,我们可以方便地查找标签中每个像素的类索引。 我们定义了voc_colormap2label函数来构建从上述RGB颜色值到类别索引的映射,而voc_label_indices函数将RGB值映射到在Pascal VOC2012数据集中的类别索引。

def voc_colormap2label():
    """构建从RGB到VOC类别索引的映射"""
    colormap2label = torch.zeros(256 ** 3, dtype=torch.long)
    for i, colormap in enumerate(VOC_COLORMAP):
        # 把tuple换算成整型,把tensor对应的index换算成i
        # 把256进制换成10进制
        # 把第i个RGB的值映射到i
        colormap2label[
            (colormap[0] * 256 + colormap[1]) * 256 + colormap[2]] = i
    return colormap2label # 是一个dict

# colormap就是图片中的RGB值,将其转成对应的标号数值
def voc_label_indices(colormap, colormap2label):
    """将VOC标签中的RGB值映射到它们的类别索引"""
    # permute(1, 2, 0)把channel换出来
    # permute是为了使同一个像素的RGB值连续,要不然是断开的
    colormap = colormap.permute(1, 2, 0).numpy().astype('int32')
    idx = ((colormap[:, :, 0] * 256 + colormap[:, :, 1]) * 256
           + colormap[:, :, 2])
    return colormap2label[idx]

torch中permute()函数用法

例如,在第一张样本图像中,飞机头部区域的类别索引为1,而背景索引为0。

y = voc_label_indices(train_labels[0], voc_colormap2label())
y[105:115, 130:140], VOC_CLASSES[1]

运行结果:

在这里插入图片描述

5. 预处理数据

在之前的实验,我们通过再缩放图像使其符合模型的输入形状。 然而在语义分割中,这样做需要将预测的像素类别重新映射回原始尺寸的输入图像。 这样的映射可能不够精确,尤其在不同语义的分割区域。 为了避免这个问题,我们将图像裁剪为固定尺寸,而不是再缩放。 具体来说,我们使用图像增广中的随机裁剪,裁剪输入图像和标签的相同区域

def voc_rand_crop(feature, label, height, width):
    """随机裁剪特征和标签图像"""
    # rect得到的是bounding box ,就是在哪个区域进行裁剪
    rect = torchvision.transforms.RandomCrop.get_params(
        feature, (height, width))
    feature = torchvision.transforms.functional.crop(feature, *rect)
    label = torchvision.transforms.functional.crop(label, *rect)
    return feature, label
imgs = []
for _ in range(n):
    imgs += voc_rand_crop(train_features[0], train_labels[0], 200, 300)

imgs = [img.permute(1, 2, 0) for img in imgs]
d2l.show_images(imgs[::2] + imgs[1::2], 2, n);

运行结果:

在这里插入图片描述

6. 自定义语义分割数据集类

我们通过继承高级API提供的Dataset类,自定义了一个语义分割数据集类VOCSegDataset。 通过实现__getitem__函数,我们可以任意访问数据集中索引为idx的输入图像及其每个像素的类别索引。 由于数据集中有些图像的尺寸可能小于随机裁剪所指定的输出尺寸,这些样本可以通过自定义的filter函数移除掉。 此外,我们还定义了normalize_image函数,从而对输入图像的RGB三个通道的值分别做标准化。

class VOCSegDataset(torch.utils.data.Dataset):
    """一个用于加载VOC数据集的自定义数据集"""

    def __init__(self, is_train, crop_size, voc_dir):
        self.transform = torchvision.transforms.Normalize(
            mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
        self.crop_size = crop_size
        # 读图片
        features, labels = read_voc_images(voc_dir, is_train=is_train)
        self.features = [self.normalize_image(feature)
                         for feature in self.filter(features)]
        self.labels = self.filter(labels)
        self.colormap2label = voc_colormap2label()
        print('read ' + str(len(self.features)) + ' examples')

    def normalize_image(self, img):
        return self.transform(img.float() / 255)

    def filter(self, imgs):
      # 如果图片比我要裁剪的区域大小还小的话,就直接去掉这张图片
        return [img for img in imgs if (
            img.shape[1] >= self.crop_size[0] and
            img.shape[2] >= self.crop_size[1])]

    def __getitem__(self, idx):
        feature, label = voc_rand_crop(self.features[idx], self.labels[idx],
                                       *self.crop_size)
        return (feature, voc_label_indices(label, self.colormap2label))

    def __len__(self):
        return len(self.features)

7. 读取数据集

我们通过自定义的VOCSegDataset类来分别创建训练集和测试集的实例。 假设我们指定随机裁剪的输出图像的形状为 320×480 , 下面我们可以查看训练集和测试集所保留的样本个数。

crop_size = (320, 480)
voc_train = VOCSegDataset(True, crop_size, voc_dir)
voc_test = VOCSegDataset(False, crop_size, voc_dir)

设批量大小为64,我们定义训练集的迭代器。 打印第一个小批量的形状会发现:与图像分类或目标检测不同,这里的标签是一个三维数组。

batch_size = 64
train_iter = torch.utils.data.DataLoader(voc_train, batch_size, shuffle=True,
                                    drop_last=True,
                                    num_workers=d2l.get_dataloader_workers())
for X, Y in train_iter:
    print(X.shape)
    print(Y.shape)
    break

运行结果:

在这里插入图片描述

8. 整合所有组件

最后,我们定义以下load_data_voc函数来下载并读取Pascal VOC2012语义分割数据集。 它返回训练集和测试集的数据迭代器。

def load_data_voc(batch_size, crop_size):
    """加载VOC语义分割数据集"""
    voc_dir = d2l.download_extract('voc2012', os.path.join(
        'VOCdevkit', 'VOC2012'))
    num_workers = d2l.get_dataloader_workers()
    train_iter = torch.utils.data.DataLoader(
        VOCSegDataset(True, crop_size, voc_dir), batch_size,
        shuffle=True, drop_last=True, num_workers=num_workers)
    test_iter = torch.utils.data.DataLoader(
        VOCSegDataset(False, crop_size, voc_dir), batch_size,
        drop_last=True, num_workers=num_workers)
    return train_iter, test_iter
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

70.语义分割和数据集 的相关文章

随机推荐

  • 搜索学习心得

    在学习了众多搜索的方式后 不由感慨 啊 太巨了 今天huayucaiji我就给大家讲一讲C 搜索的心得吧 深度优先搜索 广度优先搜索 迭代加深搜索 一个一个讲吧 深度优先搜索 深度优先搜索 下简称 深搜 简称DFS 是简洁明了的搜索方式 以
  • (三)字典

    一 什么是 字典 字典是Python语言中唯一的映射类型 它的本质是key和value以及其对应关系的一种集合 一个key可以对应一个多个value 例如以下变量info为字典类型 info name 班长 id 100 sex f add
  • android-WebView加载本地html、本apk内html和远程URL

    WebView 网络视图 能加载显示网页 可以将其视为一个浏览器 它使用了WebKit渲染引擎加载显示网页 实现WebView有以下两种不同的方法 第一种方法的步骤 1 在要Activity中实例化WebView组件 WebView web
  • python爬取数据并将其存入mongodb

    其实很早就想知道如何将爬取到的数据存入数据库 并且实现前后台的交互功能 昨天刚刚看了一集关于爬数据并存数据的视频 今天 在这里总结一下 以下为最终所需要爬取的信息 由于需要爬取所有的二手商品信息 所以以下内容也要爬取到 1 先写一个py文件
  • 使用golang对excel进行数据读取

    golang对excel进行数据读取 在使用golang对excel进行表格数据读取时 发现已有的方式读取比较麻烦 代码量多 相比python中的pandas比较麻烦 所以对excel数据读取进行了一个简单的封装 1 导包 执行 go ge
  • MobaXterm远程连接虚拟机的Network error: Connection timed out

    1 遇到的问题 虚拟机中linux能联网 但是远程连接时提示Network error Connection timed out 这个问题烦了我好一会 我Ubuntu是双网卡 一个NAT 一个桥接 这个是为了连接开发板的 使用桥接网卡的IP
  • python高阶

    面向对象 class Employee 所有员工的基类 empCount 0 def init self name salary self name name self salary salary Employee empCount 1 d
  • 非负数的和与个数c语言编程,C语言习题中,编程实现从键盘任意输入20个整数,统计非负数个数,并计算非负数之和...

    这里面主要有2个比较大的问题 1 相关变量没有初始化对于程序中求和变量sum 统计个数变量co 由热心网友提供的答案1 includeint main int a 20 i include stdio h 第5 15行应为 for i 0
  • 基于遗传算法的题库组卷自动化批改练习系统

    1 简介 今天向大家介绍一个帮助往届学生完成的毕业设计项目 基于遗传算法的题库组卷练习系统 计算机毕业生设计 课程设计需要帮助的可以找我 2 设计概要 21世纪是信息化时代 随着信息技术和网络技术的发展 信息化已经渗透到人们日常生活的各个方
  • Flask Jinja2 模板中的变量和过滤器

    Flask Jinja2 模板中的变量和过滤器 Flask 可以在视图函数中返回模板文件 模板引擎默认使用的是 Jinja2 通常 返回的 Jinja2 模板文件并不是一个静态的页面 而是同时有静态部分和动态部分 静态部分可以硬编码写死 动
  • 用pe做2012服务器系统教程,微软WDS网络启动PE做系统的服务器配置和PE修改教程...

    本帖最后由 金正电脑 于 2018 10 19 15 45 编辑 继续主楼内容 三 网络PE的修改定制 1 PE的来源 我用的是PE大神hhh333的PE修改的 这个PE自带网卡驱动进入PE自动安装好 不需要手动安装 也有个别网卡驱动不上的
  • 服务器和网站域名,网站服务器和域名的区别

    网站服务器和域名的区别 内容精选 换一换 华为云漏洞扫描服务帮助中心 为用户提供产品简介 用户指南 最佳实践 常见问题 视频帮助等技术文档 帮助您快速上手使用漏洞扫描服务 目前 华为云SSL证书管理服务提供了OV 企业版 OV Pro 企业
  • PyCharm 2023.1.2版本关闭后一直显示正在关闭项目

    最近下载了新的社区版本 出现了关闭程序就一直显示关闭项目的问题 然后各种找方法 试了如下几种 1 调整了一下编码方式 都0变为UTF 8 然后在自然语言添加了中文 也在编辑器那一行里 2 这个问题可能是由于Pycharm在关闭时正在运行一些
  • ubuntu下安装hadoop和eclipse

    hadoop安装方法 https www cnblogs com oskyhg p 9150000 html hadoop 安装教程 本教程由厦门大学数据库实验室 给力星出品 转载请注明 本教程适合于原生 Hadoop 2 包括 Hadoo
  • FloatingActionButton的使用

    FloatingActionButton FAB 是 Android 5 0 新特性 Material Design 中的一个控件 是一种悬浮的按钮 FloatingActionButton 是 ImageView 的子类 因此它具备Ima
  • JAVA代码保护工具DashO Pro v10.0.0 Beta 2重磅上线!更新DashO Gradle插件!

    DashO是一个Java和Android的混用程序 它提供企业级应用的加固和屏蔽 大大降低了知识产权盗窃 数据盗窃 盗版和篡改的风险 分层混淆 加密 水印 自动失效 反调试 反篡改 反仿真器 反挂钩 反根设备解决方案 为世界各地的应用程序提
  • unity Dropdown默认选择不选择任何选项

    当我们使用Dropdown下拉框时 有时不需要有默认选项 把 value设置为 1就可以了 但是用代码设置value 1是没有效果的
  • [Tools: ssh隧道] 跳板机连接内网服务器

    终端连接内网服务器 假设本地是A 内网跳板机是B 内网服务器是C 通常 从A连接C需要两次ssh 但通过以下ssh设置 可以简化连接过程 设置后 在终端键入ssh C 即可登录内网服务器C Host B HostName h User ds
  • C++智能指针实现类多态

    智能指针让我们不再操心内存泄露的问题 类多态是面向对象的一大特性 普通指针可以实现类多态 智能指针同样也能 请看代码 include
  • 70.语义分割和数据集

    在 之前讨论的目标检测问题中 我们一直使用方形边界框来标注和预测图像中的目标 本节将探讨语义分割 semantic segmentation 问题 它重点关注于如何将图像分割成属于不同语义类别的区域 与目标检测不同 语义分割可以识别并理解图