不同模型，训练结果差不多，测试结果却相差很大

做语义分割，相同的损失函数（交叉熵），相同的数据（cityscape)，差不多的训练损失结果（0.119，0.097），为啥测试的时候却相差很大，前者的mIoU（交并比）是60多，后者却20都不够。甚至后者在训练集上评估也很低。只有40左右。