batch_normalization和layer_normalization的区别?batch_normalization和layer_normalization的区别?
前者再normalize的时候是在batch的方向,后者在normalize的时候是句子的方向。