论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模

2023-11-16

一、引言

首先贴下论文链接:
http://www.cv-foundation.org/openaccess/content_cvpr_2016_workshops/w19/papers/Kampffmeyer_Semantic_Segmentation_of_CVPR_2016_paper.pdf
这是关于在城市遥感图像中用深度学习模型做语义分割,得出土地覆盖显示图的文章。为了了解本文的主要内容,首先简单看下文章摘要。


二、文章摘要

我们用深度卷积神经网络分析城市遥感图像的土地覆盖显示图。在遥感图像中,由于追求最好的全局准确率,小物体有更小的优先级,这种类别的不平衡经常会在诸如土地覆盖显示这类任务中导致问题。我们提出了一种新奇的方法,不仅得到了很高的全局准确率,也在小物体上获取了很高的准确率。遥感图像中在像素尺度上量化不确定性是另一大挑战。本文中,我们用卷积神经网络中衡量不确定性的最新成果,并从质量和数量上衡量这些成果在遥感图像上下文的表现。我们用不同的深度模型(包括基于块的模型,像素级到像素级模型及它们的结合)分类德国Vaihingen一系列土地覆盖图的每个像素,来阐述我们的想法。结果显示,我们的全局准确率为87%。对应小物体类“汽车”的F1得分为80.6%,超越了目前该数据集上的最高水平。


三、相关工作与数据集的介绍

  • CNN用于图像分割主要有两种途径。一是patch-based,通过图像中像素的邻域预测图像中的每个像素。该种方法,一般是在小的图像块上训练分类器,然后或者用滑动窗口分类所有像素,或是采用更高效的方法,将全连接层转化为卷积层以避免Overfeat: Integrated recognition, localization
    and detection using convolutional networks.论文中描述的重叠计算。用多尺度方法或循环卷积神经网络可进一步改进结果。二是使用端到端学习方法的像素级到像素级语义分割,也就是使用包含一个编码器和解码器的全卷积神经网络。编码器将图像映射到低分辨率表示,而解码器将低分辨率表示映射到对图像进行像素级理解的预测。

  • 数据集是ISPRS的Vaihingen 2D语义标签比赛数据集,其链接为http://www2.isprs.org/commissions/comm3/wg4/2d-sem-label-vaihingen.html,这里有关于数据集的一些说明。评价基准是F1评分,即2 · precision · recall/(precision + recall))。


四、具体方法

首先,做Patch-based像素级分类和pixel-to-pixel分割,这样就可以做深度分割。之后我们会详细阐述我们如何结合模型,在提升全局分割的准确率的同时,在小物体上保持很棒的分类效果,并且介绍不确定图。

4.1 Patch-based像素级分类

4.1.1 网络结构

由四个卷积层,两个全连接层组成:
第一个卷积层:32个5*5*5的卷积核以步长为1作用在65*65*5的输入图像上
第二个卷积层:64个5*5*32的卷积核
第三个卷积层:96个5*5*64的卷积核
第四个卷积层:128个5*5*96的卷积核
每个卷积层跟上ReLu非线性激活,批量归一化(batch-normalization)以及步长为1尺寸3*3的最大池化。(避免下采样并且得到更高的分辨率)。权重的初始化遵循MSRA的何恺明的论文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》
两个全连接层各自有128个神经元,并且采用50%的Dropout.
最终层为5路输出的softmax层。

4.1.2 数据扩充

训练集和验证集是将每辆车作为中心抽取图像块生成的。额外的训练集通过将每个包含汽车的图像块以随机角度旋转数次。我们想要高的空间分辨率,所以不用平移扩充数据集。其他类别也从图片中随机取样,以该类别物体为中心。从每个类别中取样同样数量的训练集,来取得类别平衡。

4.1.3 全卷积分类

为了更有效的对图片进行分类,按照Sermanet的Overfeat: Integrated recognition, localization
and detection using convolutional networks.中的例子,将全连接层转换成卷积层。这避免了滑动窗口法
的计算复杂度,在滑动窗口法中重叠区域会导致大量冗余计算,并用人工设计的图片尺寸进行分类。

4.2 Pixel-to-pixel分割

受全卷积网络结构的启发,我们设计了一种端到端训练的pixel-to-pixel语义分割的网络结构。网络以256*256的图像块批量训练。(图像块的尺寸是考虑显存来选择的)

4.2.1网络结构

本文中全卷积神经网络的结构是受Simonyan and Zisserman启发,并且如图所示。
pixel-to-pixel网络结果
网络结构首先是4大层相似的结构,这四大层都是两个3*3卷积层紧跟步长为2的最大池化层。除了第一个卷积层步长为2,其他卷积层步长都为1。第一个卷积层是一种设计选择,主要是考虑大图片训练时的显存限制。和patch-based网络结构一样,每个卷积层跟上ReLU非线性激活和Batch批量归一化层,权重的初始化和patch-based网络也相同。第四大层的第二个卷积层跟着的是一个1*1的卷积层,该层中每个类别对应一个核,并产生分类得分。最后,绿色层是fractional-strided卷积层(有时也称反卷积层,见论文Fully convolutional networks for semantic segmentation.),黄色层是softmax层。整个网络用Bp算法端到端训练。

4.2.2数据扩充

将输入图片以50%的重叠区域抽取,上下、左右翻转及以90度旋转,每个重叠图像块获取8个扩充图像。

4.2.3中频平衡

FCN的损失函数是交叉熵函数。该损失函数需要所有像素加和,对类别不平衡的训练集效果不好。为了考虑类别不平衡的问题,训练两个FCN网络:一个采用标准交叉熵损失函数,另一个用中频平衡(见论文A
deep convolutional encoder-decoder architecture for image
segmentation.)加权类别损失。中频平衡用训练集类别中频和实际类别频率的比率加权类别损失。修改后的交叉熵函数是:

L=1N
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模 的相关文章

  • OpenWRT基本知识整理

    转载自 http www liwangmeng com openwrt E5 9F BA E6 9C AC E7 9F A5 E8 AF 86 E5 BD 92 E7 BA B3 目录 1 OpenWRT虚拟系统准备 3 1 1 编译ope
  • 控件关联变量

    控件是对话框的重要组成部分 控件的访问可以通过关联变量实现 包括关联数据变量和控制变量 DDX Text 将控件与成员变量关联 放在DoDataExchange中 管理对话框 表格视或控件视对象中的编辑控件与对话框 表格视或控件视对象的CS
  • 【Mybatis.xml】mybatis的配置

  • 最新在线IDE流行度最新排名(每月更新)

    2023年09月在线IDE流行度最新排名 TOP 在线IDE排名是通过分析在线ide名称在谷歌上被搜索的频率而创建的 在线IDE被搜索的次数越多 人们就会认为它越受欢迎 原始数据来自谷歌Trends 如果您相信集体智慧 那么TOP ODE索

随机推荐