这个深度学习图像分割论文审稿意见怎么回复

大家好，我投了一篇关于改进深度学习网络的sci，（关于图像分割）其中有一个审稿人的意见我没有看懂，大家能帮我看下吗？以下是回复意见！

Need to add updated references in the literature review and compare them with your results in the experimental results section. In channel attention, the authors considered sigmoid function; what are the reasons? Did you consider any tradeoff in your method?

请问大家：Did you consider any tradeoff in your method? 这句话啥意思啊，他的问题是问我什么呀

怎么回复你就解释一下选择sigmoid函数的原因，还有实验过程中有没有权衡标准，是否有考虑过审稿意见中提到的idea，没有的话就如实回复会进一步改善，并将实验内容补充进去。

让你引用一些最新的参考文献，并且和你的方法进行比较。选择使用sigmoid函数的理由是什么，你使用的函数中有没有考虑权重。

在神经网络中，我们可以认为不同feature map中的不同channel表示不同的object，channel attention就是要调节不同channel之间的权重，这个过程也可以视为在不同object中挑选的过程，因此channel attention也被称为what to pay attention to。Channel attention的核心目的就是找到重要的channel并捕捉全局信息。

就是你改进的方法也会有一定代价，你这么权衡这两者的利害关系。

你有没有考虑在你的方法中进行权衡？

CNN图像语义分割基本上是这个套路：
下采样+上采样：Convlution + Deconvlution／Resize
多尺度特征融合：特征逐点相加／特征channel维度拼接
获得像素级别的segement map：对每一个像素点进行判断类别
即使是更复杂的DeepLab v3+依然也是这个基本套路。

Image Segmentation（图像分割）网络结构比较
网络父辈生辰增加的结构丢弃的结构优势劣势
VGG16 FCN的灵感来源
FCN VGG16 2014 一个Deconv层(从无到有) 所有fc层简单粗糙
DeconvNet FCN 2015 Unpooling层（从无到有）、多个Deconv层（层数增加）、fc层（从无到有）
SegNet DeconvNet 2016 每个max_pooling的max索引所有fc层
DeepLab FCN
PSPNet
Mask-RCNN 2017 真正做到像素级
Image Segmentation（图像分割）族谱
FCN
DeepLab

DeconvNet

SegNet
PSPNet

Mask-RCNN

按分割目的划分
普通分割
将不同分属不同物体的像素区域分开。
如前景与后景分割开，狗的区域与猫的区域与背景分割开。

语义分割
在普通分割的基础上，分类出每一块区域的语义（即这块区域是什么物体）。
如把画面中的所有物体都指出它们各自的类别。

实例分割
在语义分割的基础上，给每个物体编号。
如这个是该画面中的狗A，那个是画面中的狗B。

论文推荐：

图像的语义分割（Semantic Segmentation）是计算机视觉中非常重要的任务。它的目标是为图像中的每个像素分类。如果能够快速准去地做图像分割，很多问题将会迎刃而解。因此，它的应用领域就包括但不限于：自动驾驶、图像美化、三维重建等等。

语义分割是一个非常困难的问题，尤其是在深度学习之前。深度学习使得图像分割的准确率提高了很多，下面我们就总结一下近年来最具有代表性的方法和论文。

Fully Convolutional Networks (FCN)
我们介绍的第一篇论文是Fully Convolutional Networks for Semantic Segmentation，简称FCN。这篇论文是第一篇成功使用深度学习做图像语义分割的论文。论文的主要贡献有两点：

提出了全卷积网络。将全连接网络替换成了卷积网络，使得网络可以接受任意大小的图片，并输出和原图一样大小的分割图。只有这样，才能为每个像素做分类。
使用了反卷积层（Deconvolution）。分类神经网络的特征图一般只有原图的几分之一大小。想要映射回原图大小必须对特征图进行上采样，这就是反卷积层的作用。虽然名字叫反卷积层，但其实它并不是卷积的逆操作，更合适的名字叫做转置卷积（Transposed Convolution），作用是从小的特征图卷出大的特征图。
这是神经网络做语义分割的开山之作，需彻底理解。

DeepLab
DeepLab有v1 v2 v3，第一篇名字叫做DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs。这一系列论文引入了以下几点比较重要的方法：

第一个是带洞卷积，英文名叫做Dilated Convolution，或者Atrous Convolution。带洞卷积实际上就是普通的卷积核中间插入了几个洞，如下图。

它的运算量跟普通卷积保持一样，好处是它的“视野更大了”，比如普通3x3卷积的结果的视野是3x3，插入一个洞之后的视野是5x5。视野变大的作用是，在特征图缩小到同样倍数的情况下可以掌握更多图像的全局信息，这在语义分割中很重要。

Pyramid Scene Parsing Network
Pyramid Scene Parsing Network的核心贡献是Global Pyramid Pooling，翻译成中文叫做全局金字塔池化。它将特征图缩放到几个不同的尺寸，使得特征具有更好地全局和多尺度信息，这一点在准确率提升上上非常有用。

其实不光是语义分割，金字塔多尺度特征对于各类视觉问题都是挺有用的。

Mask R-CNN
Mask R-CNN是大神何凯明的力作，将Object Detection与Semantic Segmentation合在了一起做。它的贡献主要是以下几点。

第一，神经网络有了多个分支输出。Mask R-CNN使用类似Faster R-CNN的框架，Faster R-CNN的输出是物体的bounding box和类别，而Mask R-CNN则多了一个分支，用来预测物体的语义分割图。也就是说神经网络同时学习两项任务，可以互相促进。

第二，在语义分割中使用Binary Mask。原来的语义分割预测类别需要使用0 1 2 3 4等数字代表各个类别。在Mask R-CNN中，检测分支会预测类别。这时候分割只需要用0 1预测这个物体的形状面具就行了。

第三，Mask R-CNN提出了RoiAlign用来替换Faster R-CNN中的RoiPooling。RoiPooling的思想是将输入图像中任意一块区域对应到神经网络特征图中的对应区域。RoiPooling使用了化整的近似来寻找对应区域，导致对应关系与实际情况有偏移。这个偏移在分类任务中可以容忍，但对于精细度更高的分割则影响较大。

为了解决这个问题，RoiAlign不再使用化整操作，而是使用线性插值来寻找更精准的对应区域。效果就是可以得到更好地对应。实验也证明了效果不错。下面展示了与之前方法的对比，下面的图是Mask R-CNN，可以看出精细了很多。