tensorflow2.0跑深度学习，显卡quadro gv100，速度却很慢

首先tensorflow2.0-gpu安装成功，cuda10.0，cudnn7.6.4.38安装成功，版本没问题。

使用tf.test.is_gpu_available()，返回true，说明程序调用成功gpu。

程序运行中查看GPU使用情况，在这个表中看到GPU显存使用100%，

右上角的CUDA Version:10.2，但是我确实安装的10.0版本的，而且安装目录可查出来，环境变量中也是10.0版本，使用nvcc -V查看的也是10.0版本。

总之GPU已经成功调用。

但是在训练Unet模型时速度却很慢，batch size设置为16（也尝试过64，32），

显卡是quadro gv100，

训练一个batch size竟然需要30多秒，这么高性能的显卡为什么在训练模型时会这么慢呢。

显卡应该很快

我看这个显卡的介绍，每秒处理几十张数据肯定是没问题的，但是现在的速度就是很慢。

你看下是不是训练的参数有问题

程序在kaggle跑的时候就没问题，而且速度还挺快的

把网络结构调大试试

小的时候可能cpu跑的比gpu快，要不然就是在哪个节点训练的时候卡住了导致慢

网络有7千万个参数，够大了，也试过4千万个参数的，都不行

那是不是硬件问题呀，硬件加速没开吧

硬件也加速了

那不知道是啥了，可能也就这样了

嗯，非常感谢您的回答

不用客气