参考caffe的方法。设定一定的阈值,使得当梯度超过这个阈值的时候,直接设置为该阈值大小。暂时解决了nan的问题引用:https://blog.csdn.net/yao_qi_isee/article/details/65449533_
可以尝试一下上面的方法
学习率太高了把 梯度爆炸了???
lr太大