不同模型,训练结果差不多,测试结果却相差很大

做语义分割, 相同的损失函数(交叉熵),相同的数据(cityscape),差不多的训练损失结果(0.119,0.097),为啥测试的时候却相差很大,前者的mIoU(交并比) 是60多,后者却20都不够。甚至后者在训练集上评估也很低。只有40左右。