关于3080ti和pytorch的兼容问题

我有了一个nlp项目模型。用pytorch跑,由于数量比较多,我在我的gtx1650电脑上用pytorch跑八九个小时才能跑一个epoch,我用随机采样小批次epoch做过测试,大概需要五六epoch就基本收敛了。所以我把整个模型的代码放到我一个做渲染的同学的电脑上跑(R7 3700X+RTX3080)上跑,但是跑模型速度比我1650的电脑慢了几十倍,感觉就像用cpu在跑一样。看了一下任务管理器cpu占用很低,用nvidia-smi看一下3080的显存占用合理(随着我的batchsize调整而变化)而且gpu利用率是100%。我很疑惑明明3080的cuda是1650的十倍,但速度却慢了几十倍,我通过给每行加入print输出,发现模型一直卡在反向传播那里(backward),我找遍论坛,都没有发现解决办法,pytorch也换了很多个版本

没弄过NLP,用CV视角说一下
1)关掉数据,直接喂数据给网络。这样就就和数据CPU端无关。
2)测试关掉backward的前向计算速度
3)如果完全定位到是backward的问题,那就测试CPU和GPU的backward。
4)如果仅仅是GPU情况下比较慢,那就是cuda兼容问题的,升级一下(注意conda会直接调用阉割版的cuda)

应该是cuda没安装对。