深度学习中训练集和验证集拟合很好,但是实际预测中远不如验证效果?

前提:
1、使用的预测图就是训练集中的图而非新图,所以是否应该排除泛化不够的问题?
2、环境python+bisenet
3、预测数据远不如验证集体现在预测图像比验证图像多出很多杂色斑点,ran'er同样的一张图再验证集中的预测就很干净。

就是因为这些杂色斑点影响了预测的结果