问题遇到的现象和发生背景:
输入开始训练指令后运行不正常
python tools/train.py configs/swin/mask_rcnn_swin_tiny_patch4_window7_mstrain_480-800_adamw_1x_coco.py
运行结果及报错内容:
我想要达到的结果:
和正常的训练流程对比,Gradient overflow. Skipping step, los scaler 0 reducing los scale to 2048之后,一直再减半,变成非常非常小的数字。此外,各项性能指标也一直是nan的不正常状态。
可能的问题:我在搜索了一下,可能是NVIDIA GTX1660ti MQ不支持apex的混合精度加速?但还不太确定