deeplab v3+训练loss不收敛问题

python deeplab/train.py \
    --logtostderr \
    --training_number_of_steps=30000 \
    --train_split="train" \
    --model_variant="xception_65" \
    --atrous_rates=6 \
    --atrous_rates=12 \
    --atrous_rates=18 \
    --output_stride=16 \
    --decoder_output_stride=4 \
    --train_crop_size=513 \
    --train_crop_size=513 \
    --train_batch_size=2 \
    --dataset="pascal_voc_seg" \
    --fine_tune_batch_norm = False \
    --tf_initial_checkpoint="{下载的checkpoint路径}/deeplabv3_pascal_train_aug/model.ckpt.index" \
    --train_logdir="{要写入路径}/exp/train_on_train_set/train" \
    --dataset_dir="{数据集路径}/pascal_voc_seg/tfrecord"
  • 然而loss一直不收敛:图片说明
  • 最终出现nan值错误图片说明
  • 如果训练的次数少一点,验证一下结果,发现miou只有零点零几:图片说明

  • 一直没有找到原因,感觉步骤没有问题,也参照过各种博客,大家似乎都没有出现这种情况,希望大佬们可以帮忙

解决了。模型导入错误,应该导入model.ckpt而不是model.ckpt.index。唉我居然一直没发现真是傻了