深度学习中为什么设置这几类参数不进行优化

深度学习为什么这几类参数不进行优化

no_decay = ['bias', 'LayerNorm', 'layer_norm']

想问为什么在深度学习中经常设置这几类参数不进行优化

我搜索了下，你这个应该是transformer里面的吧。
个人理解，这段代码的作用是在正则化的时候忽略掉这些参数，而正则化的作用就是防止过拟合，从这个方面上来想，正则化的过程通常要求模型的输出对输入数据的变化非常敏感（往往需要在拟合函数中有很大的斜率，这样才能达到反应灵敏的需求）。而从y=WX+b这种格式的公式上面来看，只有权重决定了斜率，而正则化的过程是减少了权重影响，求导之后与bias就无关了，偏置参数有点类似函数截距，对于斜率没有影响。
所以既然没有影响，那就不需要去浪费资源去计算了。
如果有其他原因，也请大佬们说一说，咱也想知道为啥，应该不只是简单的为了计算速度吧