我写了一个拟合算法,loss用的是mse,添加了正则化方法,优化器是adam。一开始训练了50000个epoch后保存了模型,然后用这个模型又训练了1000个epoch。但是,我发现训练50000个epoch后的mse都比较大,而保存模型后再次训练1000个epocn后的mse能到比较低的程度。这种情况是为什么呢