最近在跑深度学习的代码遇到一些问题,虽然问题已经解决了但是不知道原因,希望探讨一下。
在我本地端(tensorflow-cpu 1.15)运行代码时图片输入输出处理后得到nan值,导致我最终的损失函数全是nan值,找了很久找不到原因。
偶然间放到服务器(tensorflow-gpu 1.13)上运行发现同样的文件在服务器就没有问题,loss可以计算出具体的值。
该回答引用Chatgpt
如果觉得有用,还请点击 采纳,感谢!
这种情况可能是因为本地端的 Tensorflow 版本与服务器端的 Tensorflow 版本不同,导致运算中存在某些不同的表现。
另一方面,如果输入的图像数据有缺失或被损坏,可能导致模型运算出现 nan 值。
推荐您检查代码中的数据处理部分是否有问题,或者对图片数据进行特殊处理,以消除数据的问题。
此外,在调试深度学习代码时,使用 Tensorboard 可以帮助您可视化并更好地理解模型的训练状况,帮助您找到问题。