同一个深度学习gan的项目,代码一样,软件环境配置是一样的,但在我3070ti的电脑上训练模型loss总是很快就nan,但在另一台1650的电脑上就没任何问题,本来之前一直以为是参数问题或者训练策略的问题,改了好几天都没效果,但换了个设备就好了。
因为代码用的是一个开源的代码,是几年前的代码了,pytorch和cuda版本都比较老,有没有可能是新显卡不适配或者什么的,对这块不太懂,但实在很疑惑,有没有人能分析一下的,谢谢大家
pytorch一般可以直接升级,api改动不像tf那么坑。
至于两张卡的问题,应该和显卡驱动啥的有关系,毕竟有些算bug的话肯定会随着版本修复的。你可以试试看下cpu训练两台是都有区别。
另外,也是最重要的一点,30系显卡并不支持11.0以前的cuda,你说的比较老是什么版本?