在《深度学习》一书中看到,更深层的网络能够更好地泛化(P125)。但书中也提及,测试集的性能比训练集差的多应考虑降低模型大小(P259)。现在有些困惑了,当遇到过拟合时,就网络层数而言,应该增加网络层数还是减少?
说的都没错,但是你要搞清楚控制变量。那就是数据训练量,数据少,你更深层的网络就更容易过拟合。在数据量不是问题的情况下,更深层的网络能够更好地泛化。