外汇网站开发,唯品会 一家专做特卖的网站,网络规划设计师和中级对比,网站做多久流量重要说明#xff1a;严格来说#xff0c;论文所指的反卷积并不是真正的 deconvolution network 。 关于 deconvolution network 的详细介绍#xff0c;请参考另一篇博客#xff1a;什么是Deconvolutional Network#xff1f;
一、参考资料
Learning Deconvolution Netwo…重要说明严格来说论文所指的反卷积并不是真正的 deconvolution network 。 关于 deconvolution network 的详细介绍请参考另一篇博客什么是Deconvolutional Network
一、参考资料
Learning Deconvolution Network for Semantic Segmentation
二、Deconvolution Network
deconvolution network是卷积网络(convolution network) 的镜像由反卷积层(deconvolutional layers)和上采样层(Unpooling layers)组成。本质上deconvolutional layers是由卷积层(convolutional layers)组成的。
deconvolution networkdeconvolutional layersUnpooling layers
1. 引言
原始的FCN存在以下问题
第一感受野为固定大小物体大于或小于感受野会被 fragmented or mislabeled。大物体分割不连续小物体被忽视。虽然FCN加入了 skip architecturer 但是这并不是根本的解决方案问题在于没有详细的边界和语义第二输入反卷积层的 label map 太粗糙反卷积过程太简单使得物体的细节信息丢失或被平滑在FCN论文中label map 大小仅仅为16x16以 deconvolution 作为双线性差值来获得原始输入图像大小的分割。由于缺少深度的反卷积网络很难精确重建物体边界这种高度非线性结构。
2. 论文创新点
为了克服FCN存在的问题论文用了一个完全不同的策略进行语义分割主要贡献如下
学习一个多层的deconvolution network它由 deconvolutional layers Unpooling layers 和 ReLU layers组成。将训练好的网络应用在目标候选区域(object proposal)来获得 instance-wise segmentions。再将这些单个的分割结果结合起来组成最终的语义分割结果。这解决了FCN存在的物体尺度问题能够识别细小的结构。
3. Deconvolution Network与FCN对比
本文与FCN最大的不同应该是上采样阶段的不同FCN的上采样利用转置卷积(Conv2DTranspose)本文利用deconvolution network也就是Unpooling layersdeconvolutional layers。可以简单理解基于 Conv2DTranspose 的上采样和基于 Unpooling layersdeconvolutional layers 的上采样都可以实现语义分割任务。
通过 deconvolutional layers 和 Unpooling layers 的结合论文可以产生更精细的分割图。和FCN的对比如下图 4. Deconvolution Network网络结构
论文提出的网络结构由卷积网络层和反卷积网络层组成。卷积网络层对应于特征提取器将输入图像转换为多维特征表示而反卷积网络是一个形状(shape)生成器对卷积网络层中提取的特征进行对象分割。网络的最终输出是一个与输入图像尺寸相同的概率图表示每个像素点属于预定义类别的概率。 卷积网络(convolution network) VGG-16去除分类层包括convolutional layersRelu layerspooling layers 。 反卷积网络(deconvolution network)反卷积网络是卷积网络的镜像包括一系列的 Unpooling layersdeconvolutional layersRelu layers。反卷积网络输出密集的逐像素类别概率图(dense pixel-wise class probability map)。
4.1 Unpooling layers
Unpooling layers 是通过回溯原始位置来获得更好的结构。
首先在执行pooling操作时用 switch variables 记录 max pooling 选择最大值的位置(location)。然后在 unpooling 阶段利用 switch variables 还原位置恢复 pooling 之前的尺寸大小其它像素位置用零元素填充得到稀疏的激活图(sparse avtivation map)。
4.2 deconvolution layers
对稀疏激活图进行deconvolution操作使得稀疏激活图变成稠密激活图。执行deconvolution后裁剪(crop)激活图的边界使其等于 Unpooling layers 的输出尺寸(也是 deconvolutional layers 输入的大小)。
论文中低层的 deconvolutional layers 可获得目标的粗略信息(例如位置形状范围)而高层的 deconvolutional layers 可获得更精细的信息。
5. Deconvolution Network可视化
可视化 Deconvolution network 的每一层如下图所示 图(a)是输入层图(b)是14x14 deconvolution layers 的结果图©是28x28的 Unpooling layers 的结果图(d)是28x28 deconvolution layers 的结果图(e)是56x56 Unpooling layers 的结果图(f)是56x56 deconvolution layers 的结果图(g)是112x112 的Unpooling layers 的结果图(h)是112x112 deconvolution layers 的结果图(i)和图(j)分别是224x224 Unpooling layers 和 deconvolution layers 的结果。
6. 总结
论文将 semantic segmentation 问题视为 instance-wise segmentation 问题也就是 pixel-wise prediction。网络是以包含目标的子图像(将它视作一个instance)作为输入并以此来产生 逐像素的类别预测结果(pixel-wise class prediction)。最后将图像中每个候选区域的输出整合起来得到原始图像的输出。
instance-wise segmentation VS image-level prediction
instance-wise segmentation能处理不同尺度大小的物体识别细节信息减少搜索空间减少训练的复杂度减少存储需求image-level prediction固定大小感受野不能解决上述问题。
三、参考文献
[1] Noh H, Hong S, Han B. Learning deconvolution network for semantic segmentation[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1520-1528.