最近看了一些带有残差连接的网络,发现残差连接所包围的部分,或者是残差连接上,使用的都是ReLU激活函数或者它的变体,想知道为什么没有人使用其他激活函数如Tanh呢?想知道这里有什么联系吗?
深度学习模型普通都是使用relu系列的函数做激活函数,这与残差连接没有特殊关系。conv+bn+relu是最常见的模块结构了,这种结构更便于推理框架的优化加速(把conv+bn+relu整入一个计算单元中)