关于3080ti和pytorch的兼容问题

我有了一个nlp项目模型。用pytorch跑，由于数量比较多，我在我的gtx1650电脑上用pytorch跑八九个小时才能跑一个epoch，我用随机采样小批次epoch做过测试，大概需要五六epoch就基本收敛了。所以我把整个模型的代码放到我一个做渲染的同学的电脑上跑（R7 3700X+RTX3080）上跑，但是跑模型速度比我1650的电脑慢了几十倍，感觉就像用cpu在跑一样。看了一下任务管理器cpu占用很低，用nvidia-smi看一下3080的显存占用合理（随着我的batchsize调整而变化）而且gpu利用率是100%。我很疑惑明明3080的cuda是1650的十倍，但速度却慢了几十倍，我通过给每行加入print输出，发现模型一直卡在反向传播那里（backward），我找遍论坛，都没有发现解决办法，pytorch也换了很多个版本

没弄过NLP，用CV视角说一下
1）关掉数据，直接喂数据给网络。这样就就和数据CPU端无关。
2）测试关掉backward的前向计算速度
3）如果完全定位到是backward的问题，那就测试CPU和GPU的backward。
4）如果仅仅是GPU情况下比较慢，那就是cuda兼容问题的，升级一下（注意conda会直接调用阉割版的cuda）

应该是cuda没安装对。