使用swin-transformer训练数据集不正常的问题

 问题遇到的现象和发生背景:
输入开始训练指令后运行不正常
python tools/train.py configs/swin/mask_rcnn_swin_tiny_patch4_window7_mstrain_480-800_adamw_1x_coco.py

运行结果及报错内容:

img

img

img

我想要达到的结果:

img

和正常的训练流程对比,Gradient overflow. Skipping step, los scaler 0 reducing los scale to 2048之后,一直再减半,变成非常非常小的数字。此外,各项性能指标也一直是nan的不正常状态。

可能的问题:我在搜索了一下,可能是NVIDIA GTX1660ti MQ不支持apex的混合精度加速?但还不太确定