摘要

  • 深入研究了语义分关键性技术,转置卷积,空洞卷积以及条件随机场等。
  • 结合Aligned-Inception-ResNet 网络实现DeepLab
  • 提出一种基于多尺度特征融合的语义分割模型MsNet, 它包含语义特征提取和语义特征融合两个阶段 , 能够有效消除底层特征与高层特征之间的差异性 , 整合不同卷积阶段含有的有用信息 , 从而提升像素分类准确率 , 减少空间位置模糊 。 MsNet作为优化分割效果的技巧 , 能够平滑目标 的边缘轮廓 , 带来更多的上下文信息 。
  • 提出基于编解码结构的模型AugNet,编码采用DRN(Dilated Residual Networks)

    • 解码阶段:不同于双线性插值,将多支路预测的结果和PSPNet金字塔池化模块提取的强空间信息有效结合,加强场景理解的空间线索和局部细节化信息。

绪论

  • 图像分割包含语义分割和实例分割,两者区别在于是否区分同一类目标,与分类检测任务相比,复杂度高。
  • 语义分割完全过渡到像素分类之前,通常块区域如超像素,候选框等送入Random Forest或Boosting来预测中心像素类别概率。
  • 条件随机场(CRF,Conditional Random Fields),通常将对象检测与条件随机场框架中的分类器结合,解决标签频率之间的不平衡问题。
  • 过渡阶段,利用卷积神经网络提取特征
  • 最后完全过渡到以卷积网络为核心的像素级分类阶段

    • FCN,SegNet,Unet
    • CRFasRNN:将条件随机场与RNN循环神经网络结合,细致描述像素与像素之间的空间关系
    • DeepLab

      • v1:采用深度卷积网络和全连接条件随机场
      • v2:在此基础上结合空洞卷积,(atrous convolution)
      • v3:重新思考空洞卷积,设计出ASPP(atrous spatial pyramid pooling)
      • v3+:结合深度可分离卷积,引入含有全局信息的低层特征,设计了一种简单高效的解码网络

语义分割相关内容研究

  • 深度学习之前,解决分类问题采用分治策略,分别解决数据处理,特征提取,分类器设计三个子问题。深度学习带来“端到端”的学习方式。把卷积网络看做复杂的函数f

$$ Goal = f_{CNN}(input) $$

  • 损失函数:数据损失函数正则损失函数
  • 卷积层:充分利用图像内在拓扑关系,与平移不变性
  • 池化层:有效降低特征维度和抽象输入信息
  • 激活函数:又称非线性映射层,增加网络非线性表达能力,加速梯度下降,加速损失函数收敛
  • 全连接层

卷积网络模型

  • VGGNet

    • 证明了利用小卷积核增加深度可以提升性能,因此常使用 2个3*3 代替5*5
  • GoogleNet

    • 加入了Inception模块,增加网络的宽度和深度,极大地证明了卷积神经网络的结构不只局限于卷积池化层的连续堆叠 , 还可以在宽度上横向拓展 , 完成数据间融合。

      GoogelNet

  • ResNet

    • 理论上讲,性能与网络深度成正比,但越深梯度衰减越剧烈,使权重参数难以更新
    • ResNet采用shortcut,可以避免梯度消失

图2.4------------------------------------

卷积神经网络训练优化算法

  • 批量归一化:保证每个小批次统计特性一致,数据分布一致,防止过拟合,梯度消失

    • Begin
    • 计算批量样本的均值
    • $$\mu_B=\frac{1}{m}\mathop{\sum}\limits_{i=1}^{m}x_i$$
    • 计算样本方差
    • $$\delta_B^2 = \frac{1}{m}\mathop{\sum}\limits_{i=1}^{m}(x_i-\mu_B)^2$$
    • 归一化
    • $$\hat x = \frac{x_i-\mu_B}{\sqrt{\delta_B^2+\varepsilon}}$$
    • 尺度变换
    • $$y_i = \gamma \hat x+\beta = BN_{\gamma,\beta}(x_i)$$
    • return $$y_i$$
    • end
  • Dropout层:降低过拟合

语义分割模型概述

      语义分割的思路:语义分割模型可分为下采样阶段、 上采样阶段以及像素分类阶段 。一 个通用的语义分割框架可概括为下图所示的结构:下采样阶段是一个特征图分辨率收缩 、通道数增加的卷积神经网络,用来提取抽象的语义特征 。 上采样阶段与之相反 , 其特征图尺寸逐渐扩张 、通道数减少 ,逐渐恢复出语义内容 。 分类阶段主要完成多分类的任务 , 为每 个像素点赋予相应的语义类别 。 大部分的语义分割算法可以看成是该结构的变形 , 围绕着 减少语义信息损失和强化局部细节 。 分个算法通常有三个方向:

  • 提升采样阶段连通性:

    • 下采样

      • 新的卷积方式:空洞卷积,深度可分离卷积
      • 迁移学习:VGGnet,ResNet,ResNeXt,DenseNet
    • 上采样

      • 线性插值,转置卷积,跳跃连接
      • 结合特定方式恢复分辨率
  • 保留上下文更多信息:结合不同空间尺度的信息,多尺度多成绩融合

    • 金字塔结构
  • 采用概率图模型:保证输出结果一致性,细化边界

图2.9--------------------------------

语义分割关键技术分析

  • 迁移学习
  • 转置卷积
  • 条件随机场不懂

    • 条件随机场是给定一组输入随机变量X的条件下,另一组输出随机变量Y的条件概率分布模型,可用于不同的预测问题。

图2-12---------------------------

基于多尺度特征融合的语义分割模型

  • 受到SharpMask掩膜边缘细化,FPN多层及预测的启发

    • 提出基于多尺度特征融合的语义分割算法MsNet

      • 语义特征提取

        • 通过Aligned-Inception-ResNet 网络实现DeepLab提取
      • 语义特征融合

        • 改进的细化模块恢复语义信息
        • 将多个支路的细化特征上采样相加

图3.4

基于编解码结构的场景语义分割模型

分割问题难以使用分类网络原因:池化层丢失了空间信息

  1. 空洞卷积
  2. 编解码方式,解码时恢复空间信息

本文设计AugNet

  • 编码阶段受到(DRN,深度残差网络)网络的启发设置特定方式的空洞卷积 以获得输出步长为8的语义特征,同 时有效保证感受野大小与分类网络一致。
  • 解码阶段采用PSPNet特有的金字塔池化模块整合多尺度的强空间信息 ,采用第三章的结论实现无差异的特征融合,整合多尺度和多层级的语义 , 提升复杂场景的解析能力 。

图4.5-------

原文下载

下载

标签: none

评论已关闭