使用tensorflow-gpu无法训练模型?

我使用conda下载了tensorflow-gpu==2.4.1,在照着tensorflow官网训练MINST数据集的时候发现训练结果非常差,验证集准确度只有0.09左右。中间还会出现很多行warning,这是怎么回事呢?用cpu训练,和用docker镜像的tensorflow-gpu训练都是没有问题的。

我的设备信息:

Ubuntu 20.04.2 LTS (GNU/Linux 5.8.0-59-generic x86_64)
anaconda3、python3.9.6

安装tensorflow-gpu==2.4.1的命令:

conda install -c anaconda tensorflow-gpu 

$ conda list结果
img
img

MINIST数据集训练参考代码:

https://keras.io/examples/vision/mnist_convnet/ https://keras.io/examples/vision/mnist_convnet/
训练过程warning和结果:在warning前一步Successfully opened dynamic library libcudart.so.10.1后会卡顿很久
img
img

看你的运行结果是你的cuda版本过于低,gpu的性能没有完全利用,观察你的loss几乎没有变化,loss要下降趋势才是正常运行结果,调整一下超参数试试

cuda,cudnn和tf版本不匹配,更新cuda吧